管道是否能够缓存中间结果?

我使用 pandas 进行机器学习的特征提取。我希望实现以下目标:考虑我按顺序完成了五个数据处理步骤,并且我执行了一次。结果将自动保存。下次如果我改第四步,库会自动从第三步开始。

Pandas 或sklearn.pipeline.Pipeline其他数据处理库自然会支持此缓存功能,而无需我们显式保存它们吗?


拉莫斯之舞
浏览 205回答 2
2回答

慕尼黑5688855

MLFlow Tracking有一些在 Dagster 中似乎缺乏的不错的功能(当前 git 提交的记录、ML 指标等)。它们还与Databricks很好地集成,可以轻松进行集群部署。但是,他们确实缺乏构建 Dagster 擅长的复杂管道。有没有办法获得“世界上最好的”?也就是说,将 Dagster 与 MLFlow 集成并因此在 Databricks 上运行?或者有什么好的选择吗?

jeck猫

VevestaX ( https://github.com/Vevesta/VevestaX ) 可用于跟踪机器学习实验中使用的特征和参数。它可以安装pip install vevestaX具有简单的命令来跟踪使用的功能。例子:V.dataSourcing = df在 jupyter notebook 中,此命令需要运行一次,它将捕获功能。或者要捕获特征工程,您只需要运行以下命令V.featureEngineering = df或者V.fe = df最后,可以通过在代码块 V.start() 和 V.end() 之间写入变量来捕获变量V.start()epochs = 10V.end()
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python