数据分析项目如何进行版本控制

一个数据分析项目如何有效的进行版本控制。

在哪些方面需要版本控制,哪些不需要版本控制。

数据分析项目中生成的图表该如何管理。


不负相思意
浏览 761回答 1
1回答

幕布斯7119047

基本上我的方案是使用jupyter notebook。将一些中间结果(采用Pickle储存)和Pipeline使用的函数放在工具模块里面,然后通过Notebook的标号来显示版本,最后用git来做版本控制。比如:-- project   |__ data:存放原始数据、中间数据       |__ SQL:存放原始数据所需要的SQL       |__ pickle:存放原始数据、中间数据   |__ src:存放文档或者Notebook需要引用的图片资源   |__ notebooks:       |__ 0.0 contents and introduction.ipnb:介绍整个项目,以及建立与下面notebook链接。       |__ 1.0 方案一的EDA.ipnb       |__ 1.1 方案一.ipnb       |__ 1.2 方案一评估.ipnb       |__ 2.0 方案二的EDA.ipnb       |__ ...       |__ end.0 跨方案比较结果.ipnb   |__ temp_module:写一些要跨notebook引用的方法。   |__ README
打开App,查看更多内容
随时随地看视频慕课网APP