在本地对LLM进行评估时，每秒tokens的对比：在Raspberry Pi 5 8GB上，llama.cpp与llamafile的对比-原创手记-慕课网

先看结果

自2024年3月15日发布的最新版Raspberry Pi OS以来，大型语言模型相比Ubuntu 23.10运行速度有了显著提升。这些测试已在llama.cpp等工具上进行。

在同一版本的 Raspberry Pi OS 中，llamafile (5.75 tokens/sec) 的运行速度略快于 llama.cpp (4.77 tokens/sec)，这一点在 TinyLLamaQ8_0.gguf 模型中更为明显。

系统准备

对于 Ubuntu 23.10 版本，我用 Raspberry Pi Imager 选择了以下内容。

Image 1: Ubuntu 23.10 系统

对于 Raspberry Pi OS 系统，我选择了这些配置。

图2：树莓派操作系统完整版

运行大型语言模型时应停止屏幕录制，因为它会占用一部分硬件资源。在看到吞吐量（eval tokens/秒）的结果后，直接截个图就好。这样会让数据看起来更亮眼。

llama.cpp

GitHub - ggerganov/llama.cpp 大语言模型推断的C/C++实现。通过在GitHub上贡献代码来参与ggerganov/llama.cpp的开发。

模型文件 TinyLlama-GGUF Q8_0：将其移动到 models 文件夹

TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF at main我们借助开源和开放科学促进人工智能的发展，让人工智能更加普及。huggingface.co

执行命令就像这样。

    make -j && ./main -m models/tinyllama-1.1b-chat-v1.0.Q8_0.gguf -p "建立一个网站可以分为10个简单的步骤，\n步骤1：" -n400 -e

图像 3：llama.cpp 的评估速率为 4.77 每秒标记数

配置文件

GitHub - Mozilla-Ocho/llamafile: 使用一个文件来分发和运行大型语言模型。在github.com上创建一个账户来加入Mozilla-Ocho/llamafile的开发团队

Llamafile TinyLlama-GGUF Q8_0（只需下载即可）

jartine/TinyLlama-1.1B-Chat-v1.0-GGUF at main我们正在通过开源和开放科学促进人工智能的发展和普及。

执行这个命令就像这样。

    chmod u+x TinyLlama-1.1B-Chat-v1.0.Q8_0.llamafile  
    ./TinyLlama-1.1B-Chat-v1.0.Q8_0.llamafile --temp 0.7 -p '构建一个网站可以分为十个简单的步骤：\n第一步:'

Image 4: llamafile 的每秒评估速度是 5.75 tokens

树莓派操作系统上的neofetch输出

Image 5: 树莓派操作系统上的 neofetch 显示

吞吐量评估速率（tokens/秒）在Ubuntu 23.10上大约是1到1.5 tokens/秒。这是因为运行LLM时，屏幕上会进行录制。

Image 6: neofetch 显示了错误的 CPU 型号：BCM2835。实际上，对于 RPI5 来说，正确的 CPU 型号应该是 BCM2712。

结束语：

具有合适操作系统支持的Llamafile可以运行起来可能会比llama.cpp稍微快一点。Raspberry Pi OS现在默认启用Vulkan GPU，这可以带来更好的性能。https://www.phoronix.com/news/Raspberry-Pi-OS-Default-V3DV 希望社区能够利用Raspberry Pi 5的GPU来实现更快的运行速度。让我们期待更多相关消息。