使用 Dask 按部分高效读取大型 csv 文件

首页课程实战体系课手记专栏慕课教程

使用 Dask 按部分高效读取大型 csv 文件

现在，我正在使用Dask读取大型csv文件，并对其进行一些后处理（例如，进行一些数学运算，然后通过一些ML模型进行预测并将结果写入数据库）。避免加载内存中的所有数据，我想按当前大小的块读取：读取第一个块，预测，写入，读取第二个块等。

我尝试了下一个解决方案，使用和：skiprowsnrows

import dask.dataframe as dd

read_path = "medium.csv"

# Read by chunk

skiprows = 100000

nrows = 50000

res_df = dd.read_csv(read_path, skiprows=skiprows)

res_df = res_df.head(nrows)

print(res_df.shape)

print(res_df.head())

但是我得到错误：

值错误：样本不够大，无法包含至少一行数据。请在调用中增加字节数sampleread_csv/read_table

另外，据我所知，它将每次（[False，False，...，True，...]）计算二进制掩码，以查找要加载的行的所有数据。我们怎样才能更有效率地做到这一点？也许使用dask中的一些分布式或延迟函数？

幕布斯7119047

浏览 206回答 1

1回答

红颜莎娜

Dask数据帧将为您对数据进行分区，您无需使用nrows/skip_rowsdf = dd.read_csv(filename)如果你想挑选一个特定的分区，那么你可以使用分区访问器part = df.partitions[i]但是，您可能还希望并行应用函数。df.map_partitions(process).to_csv("data.*.csv")

0 0

随时随地看视频慕课网APP