快速部署和测试多个AI模型:使用Ollama和OpenWebUI
大家好,我是老涂,是否也曾困惑于如何快速部署和测试多个AI模型?最近,我的好友向我推荐了Ollama,这让我在一个小时内完成了多个模型的完整测试,极大提升了工作效率。在这篇文章中,我们将分享如何在虚拟机中高效安装NVIDIA驱动,配置Docker,并利用Ollama快速测试多个AI模型。
1. 更新和升级系统
首先,确保你的系统是最新的:
sudo apt update
sudo apt full-upgrade
sudo reboot
2. 安装显卡驱动
Ollama 支持CPU部署,也支持GPU,我使用的是Nvidia的显卡,所以这边安装Nvidia的驱动。在安装NVIDIA驱动过程中,我们遇到了一些问题并进行了多次尝试。最终的步骤如下:
- 尝试安装
nvidia-utils-535
,但遇到通信问题。 - 移除
nvidia-utils-535
和libnvidia-compute-535
。 - 安装
nvidia-utils-535-server
和libnvidia-compute-535-server
。 - 重启并检查
nvidia-smi
,但仍有问题。 - 清除所有NVIDIA包并添加
graphics-drivers
PPA:
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-535-server
sudo reboot
在重启后,我们还需要配置secure boot的选项,然后正确配置后,nvidia-smi
正常工作。
3. 安装NVIDIA容器工具包
安装NVIDIA容器工具包以便在Docker中使用GPU:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
4. 安装Docker
Ollama 支持独立安装也支持Docker安装,Docker安装的好处是操作系统会比较干净,因为应用程序运行时都是在Docker Image中预先配置好的。下面是我安装Docker的步骤:
为了确保安装最新版本的Docker,我们添加了Docker的官方GPG密钥和仓库:
sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
配置Docker使用NVIDIA运行时:
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker
5. 安装Ollama
Ollama的Docker安装非常简单,使用以下一行命令就完成了Ollama的安装:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
6. 安装OpenWebUI
为了更方便地管理和测试模型,我们还可以安装OpenWebUI:
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
7. 注册并登录
Open-WebUi安装好之后,我们就能注册并登录了,首次登录的可以claim自己为管理员。
8. 下载模型
默认安装好的Ollama以及Open WebUI是没有LLM模型的,所以这里我们可以使用管理员页面来下载模型。首先去 ollama.com/library 网站搜索自己希望下载的LLM,比如 qwen:110B
。
我们可以登录到container里面,使用以下命令下载模型:
docker exec -it <container id> ollama run qwen:110b
或者通过WebUI也可以下载。
9. 使用WebUI与模型沟通
最后,我们就能在WebUI上与下载的LLM进行沟通了。
如果要查看GPU的使用情况,直接运行 nvidia-smi
就行。图中可以看到 qwen:110B
大概占用60GB的GPU内存。
希望我的文章对大家有用,如果喜欢,请关注我的公众号 “挨踢见闻”。