现在,我正在使用Dask读取大型csv文件,并对其进行一些后处理(例如,进行一些数学运算,然后通过一些ML模型进行预测并将结果写入数据库)。避免加载内存中的所有数据,我想按当前大小的块读取:读取第一个块,预测,写入,读取第二个块等。
我尝试了下一个解决方案,使用和:skiprowsnrows
import dask.dataframe as dd
read_path = "medium.csv"
# Read by chunk
skiprows = 100000
nrows = 50000
res_df = dd.read_csv(read_path, skiprows=skiprows)
res_df = res_df.head(nrows)
print(res_df.shape)
print(res_df.head())
但是我得到错误:
值错误:样本不够大,无法包含至少一行数据。请在调用中增加字节数sampleread_csv/read_table
另外,据我所知,它将每次([False,False,...,True,...])计算二进制掩码,以查找要加载的行的所有数据。我们怎样才能更有效率地做到这一点?也许使用dask中的一些分布式或延迟函数?
红颜莎娜
相关分类