手记

搭载M4 Max芯片的Macbook Pro能跑2000亿参数的大模型,性能炸裂!

每秒处理令牌数

苹果公司刚刚发布了全新的Macbook Pros,配备新的M4 Max芯片和128GB的显存,苹果声称可以轻松地与拥有2000亿个参数的大型语言模型互动。
这具体意味着什么? 在合适的设置下,你可以在本地(和移动设备上)加载最复杂的大型语言模型,并以各种有趣的方式与其互动。

记住,在考虑模型本身的参数时,“更大并不总是更好”;如今的8B参数模型常常能比半年前的100B参数模型更好地利用上下文窗口,中型模型也能从中受益,这种性能是一种转变……基本上,使用一个足够强大的模型(如Minstral 8B),你可以充分利用其128k令牌的上下文窗口——也就是说,你可以在提示中包含几百页的文本,并以合理的交互速率与之进行上下文互动(T/S)。

在英语中——本地LLM将变得非常实用,开发前沿软件的开发者们能够以非常有趣的方式利用这一点!
我很想拥有一款本地知识库管理软件,它使用Minstral 8B + Minstral Embed本地嵌入我的书籍、文章收藏以及笔记,并让我能够快速与其互动……虽然现在也可以做到,但新的[#M4_](https://www.linkedin.com/feed/hashtag/?keywords=m4&highlightedUpdateUrns=urn%3Ali%3Aactivity%3A7257424877257711618)_Pro处理器非常适合这项任务,甚至可以放在背包里。真是个好时光

苹果的新款 MacBook Pro 配备了非常强大的 M4 芯片

声称能够在没有强大GPU的电脑上“轻松”运行200b的大型语言模型(LLM)是这样的一个大胆的声明,对于那些尝试过的人来说,这尤其显得大胆。

几个值得考虑的极客参数……

每秒处理的Token

LLAMA 3 GPU 生成1024个标记的平均速度(tokens/s)
- M1 Max: 34.49 tokens/s(8B Q4_K_M 模型)
- M2 Ultra: 76.28 tokens/s
- M3 Max: 50.74 tokens/s

- M4 Max — 预测(桌布理论)
-> 文本生成速度:~96–100 tokens/秒(8B Q4_K_M 型号)
-> 提示处理速度:~1,200–1,300 tokens/秒

此投影基于以下几点:

- 比M1 Max高出1.9倍的GPU性能提升
- 内存带宽提升至546GB/s
- 神经引擎快了3倍
- 从M1到M2再到M3的历史升级模式

M4 Max 如何适应 GPU 生态

记住,我们比较的是一台比整台电脑还贵的笔记本电脑,它的处理器和显卡价格更高,有时甚至比整台电脑还贵。

M4 Max 预计速度: ~96.41(每秒tokens数)

M4 Max大概会放在:

  • H100 PCIe性能,相当于144.49 tokens/s
  • RTX 4090性能,相当于127.74 tokens/s
  • 比M2 Ultra快26%,相当于76.28 tokens/s
  • 比M1 Max性能提升90%,达到34.49 tokens/s

相当于:
~17% 的 H100 PCIe 性能(7,760 tokens/秒)
~19% 的 RTX 4090 性能(6,898 tokens/秒)
~26% 的 M2 Ultra 性能(1,023 tokens/秒)
~262% 的 M1 Max 性能(355 tokens/秒)

现在,真正的疑问是,随着雷电 5 和 NVIDIA 5090 系列的出现,如果软件支持到位,我们会在外接 GPU 上看到什么样的疯狂呢?

你觉得呢?从3199美元起的Macbook Pro配备M4 max芯片为例,这种语言模型的性能是否会让你更倾向于购买?

0人推荐
随时随地看视频
慕课网APP