我试图让张量流与 CUDA 10.1 一起使用,但每次我尝试安装任何驱动程序(任何版本)时,它只会继续安装 CUDA 11(与张量流不兼容)。我已经尝试过驱动程序和 CUDA 的 .deb 安装。我也尝试安装最新的驱动程序,然后通过本地.run文件安装CUDA 10.1并告诉CUDA不要安装驱动程序。这确实在我的 /usr/local 文件夹中安装了 cuda 10.1,但是当我尝试时nvidia-smi
它每次都指定 CUDA 11。
我做了大量的研究,发现 提到的版本nvidia-smi
指定了最新支持的 cuda 运行时,但不一定反映实际安装的 CUDA 库?
所以我应该安装了cuda 10.1(在/usr/local下)并尝试在tensorflow上运行测试命令: tf.config.list_physical_devices('GPU')
但这给出了一个错误:
2020-09-30 17:36:38.765577: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'libcudart.so.10.1'; dlerror: libcudart.so.10.1: cannot open shared object file: No such file or directory
2020-09-30 17:36:38.765604: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
/home/robbe/Desktop/usiigaci-optimized/venv/lib/python3.7/site-packages/pandas/compat/__init__.py:120: UserWarning: Could not import the lzma module. Your installed Python is incomplete. Attempting to use lzma compression will result in a RuntimeError.
warnings.warn(msg)
很明显,它无法找到正确的 cuda 10.1 对象库,尽管它确实存在于 /usr/local/cuda-10.1 下。/usr/bin 下还有可执行文件(包括显示 cuda 11 的 nvidia-smi),我认为这些文件会覆盖 /usr/local 下的 10.1 目录?
我尝试过的事情:
安装 NVIDIA 驱动并安装 CUDA 和驱动。执行此操作时,CUDA 实际上安装了 NVIDIA 驱动程序 418,并给出了一个关于无法卸载的内核模块的模糊异常。
通过 grub rescue 手动安装驱动程序(因为第一步出现异常),然后安装 CUDA 10.1(本地 .run & 不包括 nvidia 驱动程序)。所以nvidia驱动和cuda完全分开安装。
通过 GUI 安装最新的 NVIDIA 驱动程序:软件 -> 附加驱动程序
有效的事情:
使用本地 .run 安装 CUDA 并告诉它不要包含驱动程序。这会在 /usr/local 下成功安装 cuda 10.1,但无法被 tensorflow或 nvidia-smi
命令识别。
我束手无策,我得出的结论是,tensorflow 和 CUDA 很难使用,尽管如此,我需要它才能工作,有人可以帮忙吗?
HUWWW
相关分类