幕布斯7119047
基本上我的方案是使用jupyter notebook。将一些中间结果(采用Pickle储存)和Pipeline使用的函数放在工具模块里面,然后通过Notebook的标号来显示版本,最后用git来做版本控制。比如:-- project
|__ data:存放原始数据、中间数据
|__ SQL:存放原始数据所需要的SQL
|__ pickle:存放原始数据、中间数据
|__ src:存放文档或者Notebook需要引用的图片资源
|__ notebooks:
|__ 0.0 contents and introduction.ipnb:介绍整个项目,以及建立与下面notebook链接。
|__ 1.0 方案一的EDA.ipnb
|__ 1.1 方案一.ipnb
|__ 1.2 方案一评估.ipnb
|__ 2.0 方案二的EDA.ipnb
|__ ...
|__ end.0 跨方案比较结果.ipnb
|__ temp_module:写一些要跨notebook引用的方法。
|__ README