我有以下问题。我有一个巨大的 csv 文件,想用多处理加载它。对于具有 500000 行和 130 列不同数据类型的示例文件,Pandas 需要 19 秒。我尝试了 dask,因为我想对阅读进行多处理。但这需要更长的时间,我想知道为什么。我有 32 个内核。并尝试了这个:
import dask.dataframe as dd
import dask.multiprocessing
dask.config.set(scheduler='processes')
df = dd.read_csv(filepath,
sep='\t',
blocksize=1000000,
)
df = df.compute(scheduler='processes') # convert to pandas
白衣染霜花
绝地无双
慕尼黑8549860
相关分类