我有一个 1400 万行的 CSV 文件,其中有一个日期列(不是第一列),我想用它来过滤和拆分数据。
目前,我正在将其加载到 Pandas 数据框中来执行此操作:
df = pd.read_csv(filepath, dtype=str)
for date in df['dates'].unique():
subset = df[df['dates'] == date]
subset.to_csv(date + dest_path)
有没有更快的方法来做到这一点?
在加载到 Pandas 数据帧之前从 CSV 中过滤掉行提供了一个有趣的解决方案,但不幸的是我要拆分的列不在第一列中。
编辑:
我纯粹需要将 csv 文件拆分为每个日期。生成的 csv 文件将传递给另一个团队。我需要所有的列,我不想更改任何数据,我不需要做任何 groupby。
繁星coding
相关分类