我正在预处理一个包含 840.000 个样本和 400 多个特征的大型数据集。我需要将数据帧存储在单个 csv 文件中以减少内存。因此,我应该避免 pd.concat 因为它需要大量内存
我有不同的数据框,具体取决于变量的性质。如何按列附加 CSV 文件?看起来:
df_1.to_csv('file.csv', index=False)
df_2.to_csv('file.csv', mode='a', index=False)
df_3.to_csv('file.csv', mode='a', index=False)
创建文件 file.csv,然后将 df_2 和 df_3 附加到彼此的正下方。如何按列而不是按行附加它?
例子:
DF1
row1: variable_a variable_b
row2: 0 1
row3: 1 1
row839999: 0 1
DF2:
row1: variable_c variable_d
row2: 0 1
row3: 1 1
row839999: 0 1
最终DF
row1: variable_a variable_b variable_c variable_d
row2: 0 1 0 1
row3: 1 1 1 1
row839999: 0 1 0 1
守候你守候我
相关分类