处理大量 parquet 文件时出现 CUDF 错误

cuDF 是一个单一的 GPU 库。2000 个 20 MB 的文件大约是 40 GB 的数据，这比单个 V100 GPU 的内存容量要多。对于需要更多单个 GPU 的工作流程，cuDF 依赖于 Dask。以下示例说明了如何使用 cuDF + Dask 将数据读入分布式 GPU 内存，单个节点中有多个 GPU。这不能回答您的调试问题，但应该有望解决您的问题。首先，我使用几行代码来创建一个包含两个 GPU 的 Dask 集群。from dask.distributed import Clientfrom dask_cuda import LocalCUDAClusterimport dask_cudfcluster = LocalCUDACluster() # by default use all GPUs in the node. I have two.client = Client(cluster)client# The print output of client:# # Client# Scheduler: tcp://127.0.0.1:44764# Dashboard: http://127.0.0.1:8787/status# Cluster# Workers: 2# Cores: 2# Memory: 404.27 GB接下来，我将为此示例创建几个 parquet 文件。import osimport cudffrom cudf.datasets import randomdataif not os.path.exists('example_output'):    os.mkdir('example_output')for x in range(2):    df = randomdata(nrows=10000,                dtypes={'a':int, 'b':str, 'c':str, 'd':int},                seed=12)    df.to_parquet('example_output/df')让我们看看我的每个 GPU 上的内存nvidia-smi。nvidia-smiThu Sep 26 19:13:46 2019       +-----------------------------------------------------------------------------+| NVIDIA-SMI 410.104      Driver Version: 410.104      CUDA Version: 10.0     ||-------------------------------+----------------------+----------------------+| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC || Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. ||===============================+======================+======================||   0  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 || N/A   51C    P0    29W /  70W |   6836MiB / 15079MiB |      0%      Default |+-------------------------------+----------------------+----------------------+|   1  Tesla T4            On   | 00000000:D8:00.0 Off |                    0 || N/A   47C    P0    28W /  70W |   5750MiB / 15079MiB |      0%      Default |+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+| Processes:                                                       GPU Memory ||  GPU       PID   Type   Process name                             Usage      ||=============================================================================|+-----------------------------------------------------------------------------+注意这两个值。GPU 0 上 6836 MB 和 GPU 1 上 5750 MB（我碰巧在这些 GPU 的内存中已经有不相关的数据）。现在让我们使用 Dask cuDF 读取两个 parquet 文件的整个目录，然后读取persist它。坚持它会强制计算——Dask 执行是惰性的，因此仅调用read_parquet只会将任务添加到任务图中。ddf是一个 Dask DataFrame。ddf = dask_cudf.read_parquet('example_output/df')ddf = ddf.persist()现在让我们nvidia-smi再看一遍。Thu Sep 26 19:13:52 2019       +-----------------------------------------------------------------------------+| NVIDIA-SMI 410.104      Driver Version: 410.104      CUDA Version: 10.0     ||-------------------------------+----------------------+----------------------+| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC || Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. ||===============================+======================+======================||   0  Tesla T4            On   | 00000000:AF:00.0 Off |                    0 || N/A   51C    P0    29W /  70W |   6938MiB / 15079MiB |      2%      Default |+-------------------------------+----------------------+----------------------+|   1  Tesla T4            On   | 00000000:D8:00.0 Off |                    0 || N/A   47C    P0    28W /  70W |   5852MiB / 15079MiB |      2%      Default |+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+| Processes:                                                       GPU Memory ||  GPU       PID   Type   Process name                             Usage      ||=============================================================================|+-----------------------------------------------------------------------------+Dask 为我们处理在两个 GPU 上分发我们的数据。

处理大量 parquet 文件时出现 CUDF 错误

1回答