继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Groq的确定性架构正在改写AI推理的物理定律

慕莱坞森
关注TA
已关注
手记 306
粉丝 36
获赞 146

英伟达如何学会不再担忧并收购了Groq

0. 前言

2025年平安夜,AI界发生了一场地震。AI硬件领域无可争议的王者英伟达,进行了其史上最大规模的收购:以惊人的200亿美元收购了行业外鲜为人知的Groq。英伟达为何愿意为这匹黑马付出如此巨大的代价?

自2023年起,我就对Groq的技术和商业潜力产生了兴趣,并一直在测试他们基于云的开源大语言模型推理服务。看到Groq凭借其独特的专注、杀手级技术以及多年的努力最终获得回报,我既感到兴奋,也不觉得意外。

本文将深入探讨Groq的架构,揭示其为何能不断打破LLM推理速度记录。我们将把Groq的语言处理单元与巨头们——英伟达的GPU和谷歌的TPU——进行对比,看看王冠是否真的正在易主。本文还将揭示Groq创始人兼CEO乔纳森·罗斯的非凡背景故事,他恰好是Groq当前挑战的谷歌TPU的原始设计者之一。

1. 引言:毫秒级的必要性

在现代数据中心,焦点正从AI训练转向AI推理——即数字智能的即时应用。对于与大语言模型交互的用户而言,最关键的制约因素是延迟。这种延迟并非软件故障,而是硬件限制,因为现有的图形处理器等架构并非为逐个令牌的语言生成而设计。

由谷歌原始张量处理单元架构师创立的Groq,正是为了解决这一特定挑战。他们的解决方案是语言处理单元,一种"软件定义"的芯片,为了速度而摒弃了传统的处理器设计。通过采用确定性的、钟表般精确的执行和静态调度,Groq的LPU打破了"内存墙",实现了超过每秒1600个令牌的文本生成速度,远超人类的阅读速度。

为何我们需要快速的AI推理

为何我们需要快速的AI推理

2. 推理危机:为何现代AI"很慢"

要理解Groq的创新,首先需要了解大语言模型在当前硬件上的特定行为。AI模型的计算工作负载在学习和思考时会发生巨大变化。

2.1 自回归生成的物理原理

训练模型是一项高带宽、并行的任务。您同时向系统输入成千上万个句子,芯片根据聚合误差更新其内部权重。这就像一次性批改一千份试卷;您可以优化工作流程以提高吞吐量。

然而,推理,特别是对于LLMs而言,是"自回归"的。模型一次生成一个令牌。它预测第一个令牌,将其附加到输入中,预测第二个令牌,再附加,依此类推。这个过程本质上是串行的。在计算出第九个令牌之前,您无法计算第十个令牌。

对于硬件工程师来说,这如同噩梦。在现代GPU架构中,计算核心与内存之间存在物理距离。这种分离造成了"冯·诺依曼瓶颈"。每次模型需要生成一个令牌时,GPU必须从内存中获取整个模型,进行处理,然后再送回去。

对于一个类似Llama 3、拥有700亿参数的模型(若以16位精度存储,约占140GB空间),每次生成一个令牌,芯片就必须在总线上移动约140GB的数据。并且必须一遍又一遍地重复这个过程,每秒数十次。

2.2 内存墙

结果是,世界上最强大的计算引擎大部分时间都在等待。这种现象被称为"内存墙"。

AI内存墙(来源:Ayar Labs)

AI内存墙(来源:Ayar Labs)

  • 饥饿状态:在典型的推理场景中,英伟达H100的算术单元在绝大部分时钟周期内都处于空闲状态,等待数据从高带宽内存到达。
  • 带宽限制:即使H100拥有惊人的每秒3.35太字节的内存带宽,移动数据的物理特性将生成速度限制在理想条件下大约每秒100-200个令牌。
  • 能源浪费:移动数据比计算数据消耗更多的能量。Groq的一项研究表明,传统的GPU设置每令牌消耗10到30焦耳的能量,主要就是由于数据在HBM和核心之间不断的穿梭。相比之下,将数据保持在本地可将能耗降低到1-3焦耳。

2.3 尾部延迟问题

现代处理器的"动态"特性使问题更加复杂。CPU和GPU被设计成通用型处理器。它们拥有复杂的硬件组件——缓存、分支预测器、乱序执行引擎——试图预测软件下一步要做什么。

当这些预测出错时,处理器就会停顿。在共享数据中心环境中,多个用户竞争资源,这会导致"抖动"或可变延迟。

  • 尾部延迟:这是最慢请求的延迟——即第99百分位数。对于实时应用,平均速度并不重要;最慢的速度才至关重要。
  • 协调开销:为了管理这种混乱,GPU使用复杂的软件内核和硬件调度器。这些都增加了开销。芯片不断地停下来问:"我接下来该做什么?数据到了吗?"

Groq的创立理念很简单:如果我们去掉这个问号会怎样?如果芯片永远不需要问该做什么,因为它已经知道了呢?

3. LPU的理念:软件定义的硬件

Groq LPU

Groq LPU

语言处理单元是一种理念的物理体现,它否定了过去三十年的处理器演进之路。由曾领导谷歌TPU项目的乔纳森·罗斯创立,Groq从一开始就采用了"软件优先"的方法。

Groq的软件定义硬件

Groq的软件定义硬件

3.1 编译器是船长

在传统系统中,编译器从属于硬件。它只生成一个粗略的指令集,具体细节则由硬件的内部逻辑在运行时自行决定。

Groq颠覆了这一点。LPU硬件被刻意设计得"愚蠢"。它没有分支预测器。没有缓存控制器。没有乱序执行逻辑。它是一个巨大的算术单元和内存库阵列,只在被告知的时候,精确地执行被告知的操作。

智能完全驻留在Groq编译器中。

  • 静态调度:在模型运行之前,编译器分析整个程序。它计算每个操作的确切执行时间。它知道一个特定的矩阵乘法将恰好需要400个时钟周期。
  • 空间编排:编译器将数据流映射到芯片的物理几何结构上。它知道在第1,000,050个周期,一个数据包将恰好位于芯片上的坐标(X, Y)处,准备被某个算术单元使用。
  • 零方差:由于调度在编译时是固定的,因此方差为零。如果编译器说任务需要28.5毫秒,那么它就会精确地需要28.5毫秒。每次都是如此。这就是"确定性执行"。

3.2 装配线类比

要理解其中的差异,可以想象一个工厂车间。

  • GPU(动态):工人站在工位上。经理根据刚刚到达的材料喊出指令。有时工人会因为叉车堵在路上而空闲。有时两个工人试图拿取同一个工具,其中一个必须等待。产出很高,但不可预测。
  • LPU(确定性):没有经理。材料在永不停歇的高速传送带上移动。工人是机械臂,被编程为在零件进入其区域后恰好3.2秒执行焊接。它们不检查零件是否到位;系统保证它就在那里。效率是绝对的。

这种架构选择使得Groq能够将近100%的计算能力用于实际工作负载,而GPU在推理期间由于等待内存,利用率通常只有30-40%。

4. LPU剖析:解构硬件

LPU的物理实现是对激进权衡的深入研究。它为了原始速度和可预测性,牺牲了密度和容量。

GroqChip构建模块

GroqChip构建模块

4.1 SRAM:光速存储

最关键的不同之处在于内存。英伟达和谷歌使用HBM,它以巨大的堆栈形式位于计算芯片旁边。

Groq使用SRAM。

  • 简化的内存层次结构:在标准CPU中,SRAM仅用于微小的缓存,因为它昂贵且物理尺寸大。然而,Groq将SRAM用作芯片的内存。
  • 带宽优势:由于内存物理上集成在计算芯片上,带宽是天文数字。单个LPU拥有高达80 TB/s的内部内存带宽。相比之下,H100为3.35 TB/s。这是在向数学单元馈送数据速度方面的24倍优势。
  • 延迟消除:访问HBM需要数百纳秒。访问片上SRAM只需要个位数的时钟周期。这实际上为能放在芯片上的数据消除了内存墙。

4.2 容量限制

权衡在于容量。单个Groq芯片仅包含230 MB的SRAM。这与H100的80GB相比微不足道。

  • 影响:您无法将一个大语言模型放在一个Groq芯片上。甚至连一个小的也放不下。
  • 解决方案:必须将数百个芯片连接在一起。为了运行700亿参数的Llama 3,Groq不是使用一个芯片,而是使用一个包含大约576个芯片的机架。

这需要一种完全不同的系统设计方法。"计算机"不是芯片;计算机是机架。

4.3 张量流处理器

在芯片内部,架构专门为深度学习的线性代数而排列。

  • 向量和矩阵单元:芯片具有用于矩阵乘法和向量操作的专用单元。
  • 定向流:数据在芯片上水平流动,而指令垂直流动。这种"脉动"流意味着数据以有节奏的波的形式被泵送通过功能单元。
  • 14纳米工艺:令人惊讶的是,第一代GroqChip是在GlobalFoundries成熟的14纳米工艺上制造的。在一个竞相追逐3纳米的行业中,这似乎很过时。然而,由于设计缺乏复杂的调度器并依赖SRAM,它不需要3纳米的极致密度来实现性能。这提供了显著的成本和良率优势,尽管它影响了芯片的物理尺寸。

4.4 TruePoint数值系统

为了最大化有限的230MB内存,Groq采用了一种称为TruePoint的新型精度策略。

  • 精度陷阱:传统硬件通常将模型量化为INT8以节省空间,但这可能会降低准确性。
  • 混合精度:TruePoint以较低精度存储权重以节省空间,但在敏感操作(如注意力对数)中,以高精度执行实际数学运算。它维护一个100位中间累加寄存器,以确保在矩阵乘积求和过程中不会丢失数据。
  • 结果:这使得Groq能够以量化模型的速度,实现通常为更高精度实现所保留的准确度水平。
5. 网络即计算机:RealScale技术

由于没有单个LPU可以容纳一个模型,连接芯片的网络与芯片本身同样重要。如果芯片A和芯片B之间的连接速度慢,那么80 TB/s的内部带宽就被浪费了。

Groq:从芯片到机架

Groq:从芯片到机架

5.1 RealScale:无交换结构

传统的数据中心网络使用以太网或InfiniBand交换机。当服务器发送数据时,数据会先到达交换机,再由交换机路由到目的地。这增加了延迟并可能引入拥塞。

Groq互连

Groq互连

Groq的RealScale网络将芯片直接彼此连接。

  • 准同步系统:这些芯片被同步到一个共同的时间基准上。这种同步并非完美(在大规模尺度上这在物理上无法实现),而是一种"准同步",即存在已知的、可由编译器补偿的时钟漂移。
  • 软件调度数据包:正如编译器调度数学运算一样,它也调度网络数据包。它知道芯片1将在第500个周期向芯片2发送一个向量。它保证芯片2将在第505个周期准备好接收它。
  • 无交换机:网络是一个直接网格。没有外部交换机来增加延迟或成本。路由是确定性的。这使得576个芯片的机架能够作为一个单一的、连贯的内存空间运行。

5.2 大规模张量并行

这种网络允许Groq有效地采用张量并行。

Groq张量路由

Groq张量路由

  • 切分大脑:700亿参数的Llama 3模型被切分到576个芯片上。神经网络的每一层都被分布。
  • 同时执行:当生成一个令牌时,所有576个芯片同时激活。每个芯片计算结果的微小部分。它们通过RealScale网络即时交换数据,聚合结果,然后进入下一层。
  • 延迟优势:由于计算并行化分布在如此多的芯片上,计算发生得极快。而且由于权重在SRAM中,没有加载时间。结果是一个线性扩展的系统:添加更多芯片使模型运行得更快,而不会出现GPU集群因通信开销而导致的收益递减。
6. 巨头对比:Groq vs. 英伟达 vs. 谷歌 vs. Cerebras

AI硬件领域是一场理念的较量。我们可以将主要参与者分为三大阵营:通用主义者(英伟达)、超大规模专家(谷歌)和激进创新者(Groq, Cerebras)。

6.1 英伟达 H200(通用主义者)

  • 架构:带有HBM3e和HBM3的GPU。通过CUDA进行动态调度。
  • 理念:"一芯通用。"优化吞吐量、增加内存带宽和多功能性。
  • 优势:无与伦比的生态系统(CUDA),巨大的单芯片内存容量和带宽,能够同时进行训练和推理。
  • 劣势:内存墙限制了批大小为1的推理速度。动态调度导致尾部延迟。小批量处理时每令牌功耗高。

6.2 谷歌 TPU v5p(超大规模专家)

  • 架构:带有HBM的脉动阵列ASIC。
  • 理念:为谷歌的特定工作负载(Transformer模型)优化。
  • 优势:高效的矩阵运算。芯片间互连允许用于训练的大规模Pod。对于大规模吞吐量具有成本效益。
  • 劣势:仍然依赖HBM(延迟瓶颈)。在谷歌云之外可用性有限。灵活性不如GPU。

6.3 Cerebras CS-3(晶圆级巨兽)

  • 架构:单个餐盘大小的芯片(晶圆级引擎)。
  • 理念:"不切割晶圆。"将所有东西保留在一个巨大的硅片上以消除互连延迟。
  • 优势:巨大的片上内存和带宽。可以在单个设备上容纳大型模型。
  • 劣势:物理制造复杂性。功率密度。对于最大模型仍然需要集群。与Groq相比,Cerebras更侧重于吞吐量而非纯延迟。

6.4 Groq LPU(低延迟狙击手)

  • 架构:基于SRAM的分离式ASIC。软件定义。
  • 理念:"确定性即速度。"为延迟牺牲密度。
  • 优势:在小批量推理方面,具有无与伦比的首令牌时间和吞吐量。确定性性能(无抖动)。
  • 劣势:单芯片内存容量低,需要大量芯片计数(机架占用空间大)。不适合训练。

表1:架构对比摘要

特性 Groq LPU (TSP) 英伟达 H100 (Hopper) 谷歌 TPU v5p Cerebras CS-3
主要焦点 推理(延迟) 训练与推理 训练与推理 训练与推理
内存架构 片上SRAM 片外HBM3 片外HBM 片上SRAM
内存带宽 80 TB/s(内部) 3.35 TB/s(外部) ~2.7 TB/s 21 PB/s(内部)
控制逻辑 软件(编译器) 硬件(调度器) 混合(XLA) 软件(编译器)
网络 RealScale(无交换) NVLink + InfiniBand ICI(Torus) SwarmX
批大小1效率 极高 低(内存限制) 中等
Llama 3 70B 速度 >1,600 T/s(推测解码) ~100-300 T/s ~50 T/s(每芯片) ~450 T/s
7. 性能基准:思维的速度

每秒2500万令牌!我清楚地记得在2024年5月底,当我们邀请Groq CEO乔纳森·罗斯在硅谷GenAI峰会上发言时,听到的这个大胆预测。(是的,我拍了那张照片作为记录。🙂)尽管Groq离那个目标还很远,但其性能数据确实令人印象深刻。

Groq CEO预测2500万令牌/秒

Groq CEO预测2500万令牌/秒

LPU的理论优势已被独立基准测试所验证,最著名的是Artificial Analysis。数据显示了性能层级上的鲜明对比。

7.1 吞吐量与延迟

对于作为企业级LLM标准基准的700亿参数Llama 3模型:

  • Groq:在标准模式下持续提供280 - 300令牌/秒。
  • 英伟达 H100:在标准部署中通常提供60 - 100 T/s,只有在进行严重影响延迟的重度优化和批处理时才能达到约200 T/s。
  • 延迟(首令牌时间):Groq实现了0.2 - 0.3秒的TTFT,使响应感觉瞬时。英伟达解决方案通常滞后0.5到1.0秒以上,因为请求需要排队且GPU需要启动。

7.2 推测解码的重大突破

在2024年末,Groq展示了一项将性能差距从沟壑扩大到峡谷的能力:推测解码。该技术使Groq能够以超过1,660令牌/秒的速度运行700亿参数的Llama 3。

机制

推测解码使用一个小的"草案模型"来快速猜测接下来的几个单词。然后,大型"目标模型"并行验证这些猜测。

  • 为何在GPU上效果不佳:在GPU上,由于内存墙的存在,加载目标模型来验证猜测的成本很高。"验证成本"常常超过速度增益。
  • 为何在Groq上飞速运行:由于700亿模型分布在Groq机架的SRAM上,验证步骤几乎是瞬时的。LPU验证一系列令牌的速度与其生成一个令牌的速度一样快。这使得Groq输出文本的速度比人眨眼还快。

7.3 能效

虽然一个包含576个芯片的机架消耗大量功率(可能高达数百千瓦),但每单位工作的效率却出人意料。

  • 每令牌焦耳:Groq报告每令牌能耗为1-3焦耳。
  • 对比:基于英伟达H100的系统通常每令牌消耗10-30焦耳。
  • 物理原理:节能来自于不移动数据。访问外部HBM是能源密集型的。访问本地SRAM则很便宜。此外,由于Groq芯片完成任务的速度快10倍,对于给定的工作负载,它处于高功率活动状态的时间更短。
8. LPU的经济学:资本支出、运营支出和总拥有成本

Groq架构最具争议的方面是"芯片数量"。批评者认为,需要数百个芯片来运行一个模型在经济上是不可行的。这需要进行细致的总拥有成本分析。

8.1 机架成本 vs. 令牌成本

确实,一个运行700亿参数Llama 3的Groq机架包含约576个芯片。

  • 制造成本:然而,这些芯片是14纳米工艺(制造便宜),并且使用标准封装。一个Groq芯片的制造成本只是英伟达H100的一小部分。
  • 系统成本:虽然具体的机架定价不透明,但估计表明,由于硅总量和电源基础设施的规模,Groq机架的绝对资本支出是昂贵的。
  • 吞吐量价值:Groq认为,重要的指标是每美元令牌数。如果一个Groq机架成本100万美元但每秒产生200,000个令牌(总计),而一个英伟达集群成本50万美元但每秒仅产生20,000个令牌,那么Groq机架在单位产出上的成本效益高出5倍。

8.2 定价策略

Groq积极定价其API服务以证明这一点。

  • 输入价格:每百万令牌0.59美元。
  • 输出价格:每百万令牌0.79 - 0.99美元。
  • 对比:这低于许多传统的基于GPU的云提供商,后者对类似模型的收费通常在2.00美元到10.00美元之间。这种定价表明,尽管硬件占用空间大,Groq的内部TCO确实具有竞争力。

8.3 物理占用空间和功耗

缺点在于密度。用多个Groq芯片机架替换单个8 GPU的英伟达服务器,会消耗显著更多的数据中心地板空间,并需要强大的冷却解决方案。这使得Groq对于空间紧张的本地部署吸引力较小,但对于空间限制小于能效限制的超大规模云提供商来说是可行的。

9. 用例:谁需要即时AI?

每秒1600个令牌是必需的吗?对于阅读聊天机器人响应的人类来说,每秒50个令牌就足够了。然而,LPU的目标是一类新的应用。

9.1 智能体AI和推理循环

未来的AI系统不仅会回答,还会推理。一个"智能体"可能需要生成10,000个单词的内部"思维链"推理来回答一个用户问题。

  • 计算:如果一个模型需要为10,000个令牌进行"思考":

  • 在英伟达上(100 T/s):用户等待100秒。(不可用)。

  • 在Groq上(1,600 T/s):用户等待6秒。(可行)。
    Groq的速度解锁了模型在"说话"之前进行深度"思考"的能力。

9.2 实时语音

语音对话需要低于200-300毫秒的延迟才能感觉自然。任何延迟都会造成尴尬的停顿("对讲机"效应)。

  • Groq的作用:凭借<200ms的TTFT,Groq使得语音助手能够打断、附和并以人类水平的节奏进行对话。实时销售助手公司Tenali报告称,通过切换到Groq,延迟改善了25倍,响应时间从秒级降至毫秒级。

9.3 代码生成

编码助手通常需要读取整个代码库并重新生成大型文件。开发人员等待30秒进行重构会打断工作流。Groq将其减少到亚秒级完成。

10. 软件栈:逃离CUDA陷阱

英伟达的主导地位很大程度上归功于其专有软件平台CUDA。Groq知道它不能通过模仿CUDA来取胜。

10.1 "硬件即软件"方法

Groq的编译器是产品的核心。它是在芯片之前构建的。

Groq编译器

Groq编译器

  • 易用性:开发人员使用标准框架,如PyTorch、TensorFlow或ONNX。编译器负责将其转换为LPU指令。
  • GroqWare:软件套件管理机架的复杂性。对于开发人员来说,机架看起来就像一个巨大的设备。
  • 挑战:静态调度的缺点是编译时间。为LPU编译一个新模型可能需要大量时间,因为编译器要解决调度数百万个操作的"俄罗斯方块"问题。这使得Groq不太适合研究(模型每小时都在变化),但非常适合生产(模型运行数月)。
11. 结论:确定性的未来

Groq LPU的成功证明,冯·诺依曼架构对于串行LLM推理来说是一个负担。Groq转向SRAM和确定性,创造了一台以光速运行的机器,实现了智能体AI——能够在眨眼之间进行数千次自我校正推理步骤的系统。

随着英伟达于2025年12月24日收购Groq,LPU经过验证的理念——确定性是未来AI速度的关键——现在将被整合进这个GPU巨头的路线图中。这次合并标志着一个深刻的转变,承认了如果没有Groq所开创的、有效利用原始算力的速度和确定性架构,原始算力将毫无意义。

12. 额外故事——加速的架构师:乔纳森·罗斯与Groq的征程

乔纳森·罗斯,Groq CEO

乔纳森·罗斯,Groq CEO

乔纳森·罗斯是两项重大AI硬件创新的核心人物:谷歌TPU和Groq LPU。

在创立Groq之前,罗斯是谷歌张量处理单元的关键创新者之一。TPU于2016年公开推出,是谷歌专为神经网络计算设计的芯片,旨在超越CPU和GPU的限制。罗斯帮助构思了第一代TPU,该TPU采用革命性的脉动阵列架构,以最大化AI的计算吞吐量和能效。他在谷歌的工作为他后来的事业奠定了基础。

2016年离开谷歌后,罗斯创立了Groq(原Think Silicon),目标是创造世界上最快、延迟最低、具有确定性性能的AI芯片。他认识到GPU的不可预测性是实时AI的瓶颈。Groq的使命变成了消除这些可变性来源。

这一理念催生了Groq的旗舰硬件:语言处理器单元及其基础GroqChip。Groq架构是对以GPU为中心方法的背离。它采用大规模单核、分块设计,所有计算单元通过极高速的片上网络连接。

Groq的历史弧线:起伏与转型

从一家雄心勃勃的初创公司到领先的AI硬件提供商,Groq的道路并非一帆风顺。公司的历史充满了必要的转型和战略调整:

  • 早期(2016–2018):自动驾驶焦点:最初,Groq heavily focused on the autonomous vehicle market,其中可预测的实时决策是关键要求。Groq芯片的确定性特性非常适合这个安全关键领域,并确保了重要的早期合作伙伴关系。
  • 硬件演进(2018–2021):设计第一代芯片:这一时期致力于GroqChip第一代的设计、流片和优化。获得融资并从谷歌和AMD等公司吸引顶尖人才是关键里程碑。
  • LLM转型(2022–至今):找到杀手级应用:随着自动驾驶市场发展慢于预期,并且关键的是,随着Transformer架构因GPT-3等模型的崛起而爆发,Groq识别了一个新的、巨大的机会。LLM对低延迟推理的极端规模和高需求使其成为Groq LPU的理想工作负载。LPU的命名被采用,有效地将公司的焦点从通用AI加速转变为专门主导超高速、可预测的LLM推理市场。
  • 公众瞩目(2024–未来):推理主导地位:Groq通过在以Llama和Mixtral等开源LLM上展示惊人的、行业领先的每秒令牌性能,获得了广泛认可。这种突然的关注巩固了其作为大规模、低延迟AI部署中英伟达GPU的高性能替代品的地位,标志着公司从一个专业硬件提供商到AI推理速度公认领导者的巨大转折点。
  • 英伟达于2025年12月24日以200亿美元收购Groq。

乔纳森·罗斯的持久贡献在于创造了一种根本不同的计算机——一种为大规模可预测性能而设计的计算机。从共同设计推动谷歌AI革命的TPU架构,到在Groq开创确定性LPU,他一直倡导这样一个理念:AI的未来需要专门为工作负载量身定制的硬件,而不是相反。

附录:数据表

表2:经济与运营指标

指标 Groq LPU 解决方案 英伟达 H100 解决方案 影响
运营支出(能耗/令牌) 1 - 3 焦耳 10 - 30 焦耳 Groq 每任务更环保。
资本支出(初始成本) 高(机架级) 高(服务器级) Groq 需要更多硬件单元。
空间效率 低(576芯片/机架) 高(8芯片/服务器) Groq 需要更多地板空间。
成本效率 高(令牌/美元) 低/中(令牌/美元) Groq 在吞吐量经济性上胜出。

表3:内存的物理特性

内存类型 使用者 带宽 延迟 密度(晶体管/比特)
SRAM Groq LPU ~80 TB/s ~1-5 ns 6(低密度)
HBM3 英伟达 H100 3.35 TB/s ~100+ ns 1(高密度)
DDR5 CPUs ~0.1 TB/s ~100+ ns 1(高密度)
参考文献
  1. Groq 14nm Chip Gets 6x Boost: Launches Llama 3.3 70B on GroqCloud, accessed December 25, 2025, https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud
  2. Llama-3.3-70B-SpecDec - GroqDocs, accessed December 25, 2025, https://console.groq.com/docs/model/llama-3.3-70b-specdec
  3. Introducing Cerebras Inference: AI at Instant Speed, accessed December 25, 2025, https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed
  4. Evaluating Llama‑3.3‑70B Inference on NVIDIA H100 and A100 GPUs - Derek Lewis, accessed December 25, 2025, https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/
  5. Unlocking the full power of NVIDIA H100 GPUs for ML inference with TensorRT - Baseten, accessed December 25, 2025, https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/
  6. Why Meta AI's Llama 3 Running on Groq's LPU Inference Engine Sets a New Benchmark for Large Language Models | by Adam | Medium, accessed December 25, 2025, https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773
  7. Groq Says It Can Deploy 1 Million AI Inference Chips In Two Years - The Next Platform, accessed December 25, 2025, https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/
  8. Inside the LPU: Deconstructing Groq's Speed | Groq is fast, low cost inference., accessed December 25, 2025, https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed
  9. Determinism and the Tensor Streaming Processor. - Groq, accessed December 25, 2025, https://groq.sa/GroqDocs/TechDoc_Predictability.pdf
  10. What is a Language Processing Unit? | Groq is fast, low cost inference., accessed December 25, 2025, https://groq.com/blog/the-groq-lpu-explained
  11. LPU | Groq is fast, low cost inference., accessed December 25, 2025, https://groq.com/lpu-architecture
  12. GROQ-ROCKS-NEURAL-NETWORKS.pdf, accessed December 25, 2025, http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf
  13. Groq Pricing and Alternatives - PromptLayer Blog, accessed December 25, 2025, https://blog.promptlayer.com/groq-pricing-and-alternatives/
  14. Comparing AI Hardware Architectures: SambaNova, Groq, Cerebras vs. Nvidia GPUs & Broadcom ASICs | by Frank Wang | Medium, accessed December 25, 2025, https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e
  15. The fastest big model bombing site in history! Groq became popular overnight, and its self-developed LPU speed crushed Nvidia GPUs, accessed December 25, 2025, https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became
  16. New Rules of the Game: Groq's Deterministic LPU™ Inference Engine with Software-Scheduled Accelerator & Networking, accessed December 25, 2025, https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled
  17. TPU vs GPU : r/NVDA_Stock - Reddit, accessed December 25, 2025, https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/
  18. GPU and TPU Comparative Analysis Report | by ByteBridge - Medium, accessed December 25, 2025, https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a
  19. Google TPU vs NVIDIA GPU: The Ultimate Showdown in AI Hardware - fibermall.com, accessed December 25, 2025, https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm
  20. Cerebras CS-3 vs. Groq LPU, accessed December 25, 2025, https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu
  21. The Deterministic Bet: How Groq's LPU is Rewriting the Rules of AI Inference Speed, accessed December 25, 2025, https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/
  22. Best LLM inference providers. Groq vs. Cerebras: Which Is the Fastest AI Inference Provider? - DEV Community, accessed December 25, 2025, https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap
  23. Groq Launches Meta's Llama 3 Instruct AI Models on LPU™ Inference Engine, accessed December 25, 2025, https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge
  24. Groq vs. Nvidia: The Real-World Strategy Behind Beating a $2 Trillion Giant - Startup Stash, accessed December 25, 2025, https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602
  25. Performance — NVIDIA NIM LLMs Benchmarking, accessed December 25, 2025, https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html
  26. How Tenali is Redefining Real-Time Sales with Groq, accessed December 25, 2025, https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq
打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP