致命错误：cuda_runtime_api.h：尝试在 docker 中使用 cuda 时没有此类

编辑：这个答案只是告诉您如何验证 docker 映像中发生的情况。不幸的是我无法弄清楚为什么会发生这种情况。如何检查呢？在 docker 构建的每个步骤中，您都可以看到正在生成的各个层。您可以使用该 ID 创建临时映像来检查发生了什么。例如docker build -t my_bonk_example .[...]Removing intermediate container xxxxxxxxxxxxx ---> 57778e7c9788Step 19/31 : RUN mkdir -p /tmp/spark-events ---> Running in afd21d853bcbRemoving intermediate container xxxxxxxxxxxxx ---> 33b26e1a2286 <-- let's use this ID[ failure happens ]docker run -it --rm --name bonk_container_before_failure 33b26e1a2286 bash# now you're in the containerecho $LD_LIBRARY_PATHls /usr/local/cuda关于 Dockerfile 的旁注：如果更改 Dockerfile 中的指令顺序，则可以缩短未来构建的构建时间。Docker 使用的缓存在发现与之前构建不同的内容时就会失效。我希望您更改代码的频率高于 docker 映像的要求，因此将 COPY 移到 apt 指令之后是有意义的。例如# DockerfileFROM nvidia/cuda:10.2-baseRUN set -xe \    && apt-get update \    && apt-get install python3-pip -y \    && apt-get install git -y RUN pip3 install --upgrade pipWORKDIR /SingleModelTestCOPY requirements /SingleModelTest/requirementsRUN pip3 install -r requirements/requirements1.txtRUN pip3 install -r requirements/requirements2.txtCOPY . /SingleModelTestRUN nvidia-smiENTRYPOINT ["python"]CMD ["TabNetAPI.py"]注意：这只是一个例子。关于为什么图像无法构建，我发现 PyTorch 1.4 不支持 CUDE 11.0 ( https://discuss.pytorch.org/t/pytorch-with-cuda-11-compatibility/89254 )，但也使用以前的CUDA版本并没有解决这个问题。

致命错误：cuda_runtime_api.h：尝试在 docker 中使用 cuda 时没有此类

2回答