自2024年3月15日发布的最新版Raspberry Pi OS以来,大型语言模型相比Ubuntu 23.10运行速度有了显著提升。这些测试已在llama.cpp等工具上进行。
在同一版本的 Raspberry Pi OS 中,llamafile (5.75 tokens/sec) 的运行速度略快于 llama.cpp (4.77 tokens/sec),这一点在 TinyLLamaQ8_0.gguf 模型中更为明显。
系统准备对于 Ubuntu 23.10 版本,我用 Raspberry Pi Imager 选择了以下内容。
Image 1: Ubuntu 23.10 系统
对于 Raspberry Pi OS 系统,我选择了这些配置。
图2:树莓派操作系统完整版
运行大型语言模型时应停止屏幕录制,因为它会占用一部分硬件资源。在看到吞吐量(eval tokens/秒)的结果后,直接截个图就好。这样会让数据看起来更亮眼。
llama.cpp GitHub - ggerganov/llama.cpp 大语言模型推断的C/C++实现。通过在GitHub上贡献代码来参与ggerganov/llama.cpp的开发。模型文件 TinyLlama-GGUF Q8_0:将其移动到 models 文件夹
TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF at main我们借助开源和开放科学促进人工智能的发展,让人工智能更加普及。huggingface.co执行命令就像这样。
make -j && ./main -m models/tinyllama-1.1b-chat-v1.0.Q8_0.gguf -p "建立一个网站可以分为10个简单的步骤,\n步骤1:" -n400 -e
图像 3:llama.cpp 的评估速率为 4.77 每秒标记数
配置文件 GitHub - Mozilla-Ocho/llamafile: 使用一个文件来分发和运行大型语言模型。在github.com上创建一个账户来加入Mozilla-Ocho/llamafile的开发团队Llamafile TinyLlama-GGUF Q8_0(只需下载即可)
jartine/TinyLlama-1.1B-Chat-v1.0-GGUF at main我们正在通过开源和开放科学促进人工智能的发展和普及。执行这个命令就像这样。
chmod u+x TinyLlama-1.1B-Chat-v1.0.Q8_0.llamafile
./TinyLlama-1.1B-Chat-v1.0.Q8_0.llamafile --temp 0.7 -p '构建一个网站可以分为十个简单的步骤:\n第一步:'
Image 4: llamafile 的每秒评估速度是 5.75 tokens
树莓派操作系统上的neofetch输出
Image 5: 树莓派操作系统上的 neofetch 显示
吞吐量评估速率(tokens/秒)在Ubuntu 23.10上大约是1到1.5 tokens/秒。这是因为运行LLM时,屏幕上会进行录制。
Image 6: neofetch 显示了错误的 CPU 型号:BCM2835。实际上,对于 RPI5 来说,正确的 CPU 型号应该是 BCM2712。
结束语:具有合适操作系统支持的Llamafile可以运行起来可能会比llama.cpp稍微快一点。Raspberry Pi OS现在默认启用Vulkan GPU,这可以带来更好的性能。https://www.phoronix.com/news/Raspberry-Pi-OS-Default-V3DV 希望社区能够利用Raspberry Pi 5的GPU来实现更快的运行速度。让我们期待更多相关消息。