手记

在本地对LLM进行评估时,每秒tokens的对比:在Raspberry Pi 5 8GB上,llama.cpp与llamafile的对比

先看结果

自2024年3月15日发布的最新版Raspberry Pi OS以来,大型语言模型相比Ubuntu 23.10运行速度有了显著提升。这些测试已在llama.cpp等工具上进行。

在同一版本的 Raspberry Pi OS 中,llamafile (5.75 tokens/sec) 的运行速度略快于 llama.cpp (4.77 tokens/sec),这一点在 TinyLLamaQ8_0.gguf 模型中更为明显。

系统准备

对于 Ubuntu 23.10 版本,我用 Raspberry Pi Imager 选择了以下内容。

Image 1: Ubuntu 23.10 系统

对于 Raspberry Pi OS 系统,我选择了这些配置。

图2:树莓派操作系统完整版

运行大型语言模型时应停止屏幕录制,因为它会占用一部分硬件资源。在看到吞吐量(eval tokens/秒)的结果后,直接截个图就好。这样会让数据看起来更亮眼。

llama.cpp
GitHub - ggerganov/llama.cpp 大语言模型推断的C/C++实现。通过在GitHub上贡献代码来参与ggerganov/llama.cpp的开发。

模型文件 TinyLlama-GGUF Q8_0:将其移动到 models 文件夹

TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF at main我们借助开源和开放科学促进人工智能的发展,让人工智能更加普及。huggingface.co

执行命令就像这样。

    make -j && ./main -m models/tinyllama-1.1b-chat-v1.0.Q8_0.gguf -p "建立一个网站可以分为10个简单的步骤,\n步骤1:" -n400 -e

图像 3:llama.cpp 的评估速率为 4.77 每秒标记数

配置文件
GitHub - Mozilla-Ocho/llamafile: 使用一个文件来分发和运行大型语言模型。在github.com上创建一个账户来加入Mozilla-Ocho/llamafile的开发团队

Llamafile TinyLlama-GGUF Q8_0(只需下载即可)

jartine/TinyLlama-1.1B-Chat-v1.0-GGUF at main我们正在通过开源和开放科学促进人工智能的发展和普及。

执行这个命令就像这样。

    chmod u+x TinyLlama-1.1B-Chat-v1.0.Q8_0.llamafile  
    ./TinyLlama-1.1B-Chat-v1.0.Q8_0.llamafile --temp 0.7 -p '构建一个网站可以分为十个简单的步骤:\n第一步:'

Image 4: llamafile 的每秒评估速度是 5.75 tokens

树莓派操作系统上的neofetch输出

Image 5: 树莓派操作系统上的 neofetch 显示

吞吐量评估速率(tokens/秒)在Ubuntu 23.10上大约是1到1.5 tokens/秒。这是因为运行LLM时,屏幕上会进行录制。

Image 6: neofetch 显示了错误的 CPU 型号:BCM2835。实际上,对于 RPI5 来说,正确的 CPU 型号应该是 BCM2712。

结束语:

具有合适操作系统支持的Llamafile可以运行起来可能会比llama.cpp稍微快一点。Raspberry Pi OS现在默认启用Vulkan GPU,这可以带来更好的性能。https://www.phoronix.com/news/Raspberry-Pi-OS-Default-V3DV 希望社区能够利用Raspberry Pi 5的GPU来实现更快的运行速度。让我们期待更多相关消息。

0人推荐
随时随地看视频
慕课网APP