我有一个巨大的 DataFrame,我想使用 dask 处理它以节省时间。问题是我一TypeError: can't pickle _thread._local objects
开始运行就陷入这个错误。有人能帮我吗?
我编写了一个函数,该函数根据其行处理存储在 DF 中的数据,并使用
out = df_query.progress_apply(lambda row: run(row), axis=1)
它运行良好。
由于这需要很多时间,我开始使用 dask:
ddata = dd.from_pandas(df_query, npartitions=3) out = ddata.map_partitions(lambda df: df.apply((lambda row: run(row)), axis=1)).compute(scheduler='processes')
问题是,一旦处理开始,我就会收到此错误(经过大量回溯,见下文): TypeError: can't pickle _thread._local objects
该run(...)
函数执行一些数据操作,包括对数据库的查询。
开满天机
相关分类