英伟达如何学会不再担忧并收购了Groq
0. 前言2025年平安夜,AI界发生了一场地震。AI硬件领域无可争议的王者英伟达,进行了其史上最大规模的收购:以惊人的200亿美元收购了行业外鲜为人知的Groq。英伟达为何愿意为这匹黑马付出如此巨大的代价?
自2023年起,我就对Groq的技术和商业潜力产生了兴趣,并一直在测试他们基于云的开源大语言模型推理服务。看到Groq凭借其独特的专注、杀手级技术以及多年的努力最终获得回报,我既感到兴奋,也不觉得意外。
本文将深入探讨Groq的架构,揭示其为何能不断打破LLM推理速度记录。我们将把Groq的语言处理单元与巨头们——英伟达的GPU和谷歌的TPU——进行对比,看看王冠是否真的正在易主。本文还将揭示Groq创始人兼CEO乔纳森·罗斯的非凡背景故事,他恰好是Groq当前挑战的谷歌TPU的原始设计者之一。
1. 引言:毫秒级的必要性在现代数据中心,焦点正从AI训练转向AI推理——即数字智能的即时应用。对于与大语言模型交互的用户而言,最关键的制约因素是延迟。这种延迟并非软件故障,而是硬件限制,因为现有的图形处理器等架构并非为逐个令牌的语言生成而设计。
由谷歌原始张量处理单元架构师创立的Groq,正是为了解决这一特定挑战。他们的解决方案是语言处理单元,一种"软件定义"的芯片,为了速度而摒弃了传统的处理器设计。通过采用确定性的、钟表般精确的执行和静态调度,Groq的LPU打破了"内存墙",实现了超过每秒1600个令牌的文本生成速度,远超人类的阅读速度。

为何我们需要快速的AI推理
2. 推理危机:为何现代AI"很慢"要理解Groq的创新,首先需要了解大语言模型在当前硬件上的特定行为。AI模型的计算工作负载在学习和思考时会发生巨大变化。
2.1 自回归生成的物理原理
训练模型是一项高带宽、并行的任务。您同时向系统输入成千上万个句子,芯片根据聚合误差更新其内部权重。这就像一次性批改一千份试卷;您可以优化工作流程以提高吞吐量。
然而,推理,特别是对于LLMs而言,是"自回归"的。模型一次生成一个令牌。它预测第一个令牌,将其附加到输入中,预测第二个令牌,再附加,依此类推。这个过程本质上是串行的。在计算出第九个令牌之前,您无法计算第十个令牌。
对于硬件工程师来说,这如同噩梦。在现代GPU架构中,计算核心与内存之间存在物理距离。这种分离造成了"冯·诺依曼瓶颈"。每次模型需要生成一个令牌时,GPU必须从内存中获取整个模型,进行处理,然后再送回去。
对于一个类似Llama 3、拥有700亿参数的模型(若以16位精度存储,约占140GB空间),每次生成一个令牌,芯片就必须在总线上移动约140GB的数据。并且必须一遍又一遍地重复这个过程,每秒数十次。
2.2 内存墙
结果是,世界上最强大的计算引擎大部分时间都在等待。这种现象被称为"内存墙"。

AI内存墙(来源:Ayar Labs)
- 饥饿状态:在典型的推理场景中,英伟达H100的算术单元在绝大部分时钟周期内都处于空闲状态,等待数据从高带宽内存到达。
- 带宽限制:即使H100拥有惊人的每秒3.35太字节的内存带宽,移动数据的物理特性将生成速度限制在理想条件下大约每秒100-200个令牌。
- 能源浪费:移动数据比计算数据消耗更多的能量。Groq的一项研究表明,传统的GPU设置每令牌消耗10到30焦耳的能量,主要就是由于数据在HBM和核心之间不断的穿梭。相比之下,将数据保持在本地可将能耗降低到1-3焦耳。
2.3 尾部延迟问题
现代处理器的"动态"特性使问题更加复杂。CPU和GPU被设计成通用型处理器。它们拥有复杂的硬件组件——缓存、分支预测器、乱序执行引擎——试图预测软件下一步要做什么。
当这些预测出错时,处理器就会停顿。在共享数据中心环境中,多个用户竞争资源,这会导致"抖动"或可变延迟。
- 尾部延迟:这是最慢请求的延迟——即第99百分位数。对于实时应用,平均速度并不重要;最慢的速度才至关重要。
- 协调开销:为了管理这种混乱,GPU使用复杂的软件内核和硬件调度器。这些都增加了开销。芯片不断地停下来问:"我接下来该做什么?数据到了吗?"
Groq的创立理念很简单:如果我们去掉这个问号会怎样?如果芯片永远不需要问该做什么,因为它已经知道了呢?
3. LPU的理念:软件定义的硬件
Groq LPU
语言处理单元是一种理念的物理体现,它否定了过去三十年的处理器演进之路。由曾领导谷歌TPU项目的乔纳森·罗斯创立,Groq从一开始就采用了"软件优先"的方法。

Groq的软件定义硬件
3.1 编译器是船长
在传统系统中,编译器从属于硬件。它只生成一个粗略的指令集,具体细节则由硬件的内部逻辑在运行时自行决定。
Groq颠覆了这一点。LPU硬件被刻意设计得"愚蠢"。它没有分支预测器。没有缓存控制器。没有乱序执行逻辑。它是一个巨大的算术单元和内存库阵列,只在被告知的时候,精确地执行被告知的操作。
智能完全驻留在Groq编译器中。
- 静态调度:在模型运行之前,编译器分析整个程序。它计算每个操作的确切执行时间。它知道一个特定的矩阵乘法将恰好需要400个时钟周期。
- 空间编排:编译器将数据流映射到芯片的物理几何结构上。它知道在第1,000,050个周期,一个数据包将恰好位于芯片上的坐标(X, Y)处,准备被某个算术单元使用。
- 零方差:由于调度在编译时是固定的,因此方差为零。如果编译器说任务需要28.5毫秒,那么它就会精确地需要28.5毫秒。每次都是如此。这就是"确定性执行"。
3.2 装配线类比
要理解其中的差异,可以想象一个工厂车间。
- GPU(动态):工人站在工位上。经理根据刚刚到达的材料喊出指令。有时工人会因为叉车堵在路上而空闲。有时两个工人试图拿取同一个工具,其中一个必须等待。产出很高,但不可预测。
- LPU(确定性):没有经理。材料在永不停歇的高速传送带上移动。工人是机械臂,被编程为在零件进入其区域后恰好3.2秒执行焊接。它们不检查零件是否到位;系统保证它就在那里。效率是绝对的。
这种架构选择使得Groq能够将近100%的计算能力用于实际工作负载,而GPU在推理期间由于等待内存,利用率通常只有30-40%。
4. LPU剖析:解构硬件LPU的物理实现是对激进权衡的深入研究。它为了原始速度和可预测性,牺牲了密度和容量。

GroqChip构建模块
4.1 SRAM:光速存储
最关键的不同之处在于内存。英伟达和谷歌使用HBM,它以巨大的堆栈形式位于计算芯片旁边。
Groq使用SRAM。
- 简化的内存层次结构:在标准CPU中,SRAM仅用于微小的缓存,因为它昂贵且物理尺寸大。然而,Groq将SRAM用作芯片的主内存。
- 带宽优势:由于内存物理上集成在计算芯片上,带宽是天文数字。单个LPU拥有高达80 TB/s的内部内存带宽。相比之下,H100为3.35 TB/s。这是在向数学单元馈送数据速度方面的24倍优势。
- 延迟消除:访问HBM需要数百纳秒。访问片上SRAM只需要个位数的时钟周期。这实际上为能放在芯片上的数据消除了内存墙。
4.2 容量限制
权衡在于容量。单个Groq芯片仅包含230 MB的SRAM。这与H100的80GB相比微不足道。
- 影响:您无法将一个大语言模型放在一个Groq芯片上。甚至连一个小的也放不下。
- 解决方案:必须将数百个芯片连接在一起。为了运行700亿参数的Llama 3,Groq不是使用一个芯片,而是使用一个包含大约576个芯片的机架。
这需要一种完全不同的系统设计方法。"计算机"不是芯片;计算机是机架。
4.3 张量流处理器
在芯片内部,架构专门为深度学习的线性代数而排列。
- 向量和矩阵单元:芯片具有用于矩阵乘法和向量操作的专用单元。
- 定向流:数据在芯片上水平流动,而指令垂直流动。这种"脉动"流意味着数据以有节奏的波的形式被泵送通过功能单元。
- 14纳米工艺:令人惊讶的是,第一代GroqChip是在GlobalFoundries成熟的14纳米工艺上制造的。在一个竞相追逐3纳米的行业中,这似乎很过时。然而,由于设计缺乏复杂的调度器并依赖SRAM,它不需要3纳米的极致密度来实现性能。这提供了显著的成本和良率优势,尽管它影响了芯片的物理尺寸。
4.4 TruePoint数值系统
为了最大化有限的230MB内存,Groq采用了一种称为TruePoint的新型精度策略。
- 精度陷阱:传统硬件通常将模型量化为INT8以节省空间,但这可能会降低准确性。
- 混合精度:TruePoint以较低精度存储权重以节省空间,但在敏感操作(如注意力对数)中,以高精度执行实际数学运算。它维护一个100位中间累加寄存器,以确保在矩阵乘积求和过程中不会丢失数据。
- 结果:这使得Groq能够以量化模型的速度,实现通常为更高精度实现所保留的准确度水平。
由于没有单个LPU可以容纳一个模型,连接芯片的网络与芯片本身同样重要。如果芯片A和芯片B之间的连接速度慢,那么80 TB/s的内部带宽就被浪费了。

Groq:从芯片到机架
5.1 RealScale:无交换结构
传统的数据中心网络使用以太网或InfiniBand交换机。当服务器发送数据时,数据会先到达交换机,再由交换机路由到目的地。这增加了延迟并可能引入拥塞。

Groq互连
Groq的RealScale网络将芯片直接彼此连接。
- 准同步系统:这些芯片被同步到一个共同的时间基准上。这种同步并非完美(在大规模尺度上这在物理上无法实现),而是一种"准同步",即存在已知的、可由编译器补偿的时钟漂移。
- 软件调度数据包:正如编译器调度数学运算一样,它也调度网络数据包。它知道芯片1将在第500个周期向芯片2发送一个向量。它保证芯片2将在第505个周期准备好接收它。
- 无交换机:网络是一个直接网格。没有外部交换机来增加延迟或成本。路由是确定性的。这使得576个芯片的机架能够作为一个单一的、连贯的内存空间运行。
5.2 大规模张量并行
这种网络允许Groq有效地采用张量并行。

Groq张量路由
- 切分大脑:700亿参数的Llama 3模型被切分到576个芯片上。神经网络的每一层都被分布。
- 同时执行:当生成一个令牌时,所有576个芯片同时激活。每个芯片计算结果的微小部分。它们通过RealScale网络即时交换数据,聚合结果,然后进入下一层。
- 延迟优势:由于计算并行化分布在如此多的芯片上,计算发生得极快。而且由于权重在SRAM中,没有加载时间。结果是一个线性扩展的系统:添加更多芯片使模型运行得更快,而不会出现GPU集群因通信开销而导致的收益递减。
AI硬件领域是一场理念的较量。我们可以将主要参与者分为三大阵营:通用主义者(英伟达)、超大规模专家(谷歌)和激进创新者(Groq, Cerebras)。
6.1 英伟达 H200(通用主义者)
- 架构:带有HBM3e和HBM3的GPU。通过CUDA进行动态调度。
- 理念:"一芯通用。"优化吞吐量、增加内存带宽和多功能性。
- 优势:无与伦比的生态系统(CUDA),巨大的单芯片内存容量和带宽,能够同时进行训练和推理。
- 劣势:内存墙限制了批大小为1的推理速度。动态调度导致尾部延迟。小批量处理时每令牌功耗高。
6.2 谷歌 TPU v5p(超大规模专家)
- 架构:带有HBM的脉动阵列ASIC。
- 理念:为谷歌的特定工作负载(Transformer模型)优化。
- 优势:高效的矩阵运算。芯片间互连允许用于训练的大规模Pod。对于大规模吞吐量具有成本效益。
- 劣势:仍然依赖HBM(延迟瓶颈)。在谷歌云之外可用性有限。灵活性不如GPU。
6.3 Cerebras CS-3(晶圆级巨兽)
- 架构:单个餐盘大小的芯片(晶圆级引擎)。
- 理念:"不切割晶圆。"将所有东西保留在一个巨大的硅片上以消除互连延迟。
- 优势:巨大的片上内存和带宽。可以在单个设备上容纳大型模型。
- 劣势:物理制造复杂性。功率密度。对于最大模型仍然需要集群。与Groq相比,Cerebras更侧重于吞吐量而非纯延迟。
6.4 Groq LPU(低延迟狙击手)
- 架构:基于SRAM的分离式ASIC。软件定义。
- 理念:"确定性即速度。"为延迟牺牲密度。
- 优势:在小批量推理方面,具有无与伦比的首令牌时间和吞吐量。确定性性能(无抖动)。
- 劣势:单芯片内存容量低,需要大量芯片计数(机架占用空间大)。不适合训练。
表1:架构对比摘要
| 特性 | Groq LPU (TSP) | 英伟达 H100 (Hopper) | 谷歌 TPU v5p | Cerebras CS-3 |
|---|---|---|---|---|
| 主要焦点 | 推理(延迟) | 训练与推理 | 训练与推理 | 训练与推理 |
| 内存架构 | 片上SRAM | 片外HBM3 | 片外HBM | 片上SRAM |
| 内存带宽 | 80 TB/s(内部) | 3.35 TB/s(外部) | ~2.7 TB/s | 21 PB/s(内部) |
| 控制逻辑 | 软件(编译器) | 硬件(调度器) | 混合(XLA) | 软件(编译器) |
| 网络 | RealScale(无交换) | NVLink + InfiniBand | ICI(Torus) | SwarmX |
| 批大小1效率 | 极高 | 低(内存限制) | 中等 | 高 |
| Llama 3 70B 速度 | >1,600 T/s(推测解码) | ~100-300 T/s | ~50 T/s(每芯片) | ~450 T/s |
每秒2500万令牌!我清楚地记得在2024年5月底,当我们邀请Groq CEO乔纳森·罗斯在硅谷GenAI峰会上发言时,听到的这个大胆预测。(是的,我拍了那张照片作为记录。🙂)尽管Groq离那个目标还很远,但其性能数据确实令人印象深刻。

Groq CEO预测2500万令牌/秒
LPU的理论优势已被独立基准测试所验证,最著名的是Artificial Analysis。数据显示了性能层级上的鲜明对比。
7.1 吞吐量与延迟
对于作为企业级LLM标准基准的700亿参数Llama 3模型:
- Groq:在标准模式下持续提供280 - 300令牌/秒。
- 英伟达 H100:在标准部署中通常提供60 - 100 T/s,只有在进行严重影响延迟的重度优化和批处理时才能达到约200 T/s。
- 延迟(首令牌时间):Groq实现了0.2 - 0.3秒的TTFT,使响应感觉瞬时。英伟达解决方案通常滞后0.5到1.0秒以上,因为请求需要排队且GPU需要启动。
7.2 推测解码的重大突破
在2024年末,Groq展示了一项将性能差距从沟壑扩大到峡谷的能力:推测解码。该技术使Groq能够以超过1,660令牌/秒的速度运行700亿参数的Llama 3。
机制:
推测解码使用一个小的"草案模型"来快速猜测接下来的几个单词。然后,大型"目标模型"并行验证这些猜测。
- 为何在GPU上效果不佳:在GPU上,由于内存墙的存在,加载目标模型来验证猜测的成本很高。"验证成本"常常超过速度增益。
- 为何在Groq上飞速运行:由于700亿模型分布在Groq机架的SRAM上,验证步骤几乎是瞬时的。LPU验证一系列令牌的速度与其生成一个令牌的速度一样快。这使得Groq输出文本的速度比人眨眼还快。
7.3 能效
虽然一个包含576个芯片的机架消耗大量功率(可能高达数百千瓦),但每单位工作的效率却出人意料。
- 每令牌焦耳:Groq报告每令牌能耗为1-3焦耳。
- 对比:基于英伟达H100的系统通常每令牌消耗10-30焦耳。
- 物理原理:节能来自于不移动数据。访问外部HBM是能源密集型的。访问本地SRAM则很便宜。此外,由于Groq芯片完成任务的速度快10倍,对于给定的工作负载,它处于高功率活动状态的时间更短。
Groq架构最具争议的方面是"芯片数量"。批评者认为,需要数百个芯片来运行一个模型在经济上是不可行的。这需要进行细致的总拥有成本分析。
8.1 机架成本 vs. 令牌成本
确实,一个运行700亿参数Llama 3的Groq机架包含约576个芯片。
- 制造成本:然而,这些芯片是14纳米工艺(制造便宜),并且使用标准封装。一个Groq芯片的制造成本只是英伟达H100的一小部分。
- 系统成本:虽然具体的机架定价不透明,但估计表明,由于硅总量和电源基础设施的规模,Groq机架的绝对资本支出是昂贵的。
- 吞吐量价值:Groq认为,重要的指标是每美元令牌数。如果一个Groq机架成本100万美元但每秒产生200,000个令牌(总计),而一个英伟达集群成本50万美元但每秒仅产生20,000个令牌,那么Groq机架在单位产出上的成本效益高出5倍。
8.2 定价策略
Groq积极定价其API服务以证明这一点。
- 输入价格:每百万令牌0.59美元。
- 输出价格:每百万令牌0.79 - 0.99美元。
- 对比:这低于许多传统的基于GPU的云提供商,后者对类似模型的收费通常在2.00美元到10.00美元之间。这种定价表明,尽管硬件占用空间大,Groq的内部TCO确实具有竞争力。
8.3 物理占用空间和功耗
缺点在于密度。用多个Groq芯片机架替换单个8 GPU的英伟达服务器,会消耗显著更多的数据中心地板空间,并需要强大的冷却解决方案。这使得Groq对于空间紧张的本地部署吸引力较小,但对于空间限制小于能效限制的超大规模云提供商来说是可行的。
9. 用例:谁需要即时AI?每秒1600个令牌是必需的吗?对于阅读聊天机器人响应的人类来说,每秒50个令牌就足够了。然而,LPU的目标是一类新的应用。
9.1 智能体AI和推理循环
未来的AI系统不仅会回答,还会推理。一个"智能体"可能需要生成10,000个单词的内部"思维链"推理来回答一个用户问题。
-
计算:如果一个模型需要为10,000个令牌进行"思考":
-
在英伟达上(100 T/s):用户等待100秒。(不可用)。
- 在Groq上(1,600 T/s):用户等待6秒。(可行)。
Groq的速度解锁了模型在"说话"之前进行深度"思考"的能力。
9.2 实时语音
语音对话需要低于200-300毫秒的延迟才能感觉自然。任何延迟都会造成尴尬的停顿("对讲机"效应)。
- Groq的作用:凭借<200ms的TTFT,Groq使得语音助手能够打断、附和并以人类水平的节奏进行对话。实时销售助手公司Tenali报告称,通过切换到Groq,延迟改善了25倍,响应时间从秒级降至毫秒级。
9.3 代码生成
编码助手通常需要读取整个代码库并重新生成大型文件。开发人员等待30秒进行重构会打断工作流。Groq将其减少到亚秒级完成。
10. 软件栈:逃离CUDA陷阱英伟达的主导地位很大程度上归功于其专有软件平台CUDA。Groq知道它不能通过模仿CUDA来取胜。
10.1 "硬件即软件"方法
Groq的编译器是产品的核心。它是在芯片之前构建的。

Groq编译器
- 易用性:开发人员使用标准框架,如PyTorch、TensorFlow或ONNX。编译器负责将其转换为LPU指令。
- GroqWare:软件套件管理机架的复杂性。对于开发人员来说,机架看起来就像一个巨大的设备。
- 挑战:静态调度的缺点是编译时间。为LPU编译一个新模型可能需要大量时间,因为编译器要解决调度数百万个操作的"俄罗斯方块"问题。这使得Groq不太适合研究(模型每小时都在变化),但非常适合生产(模型运行数月)。
Groq LPU的成功证明,冯·诺依曼架构对于串行LLM推理来说是一个负担。Groq转向SRAM和确定性,创造了一台以光速运行的机器,实现了智能体AI——能够在眨眼之间进行数千次自我校正推理步骤的系统。
随着英伟达于2025年12月24日收购Groq,LPU经过验证的理念——确定性是未来AI速度的关键——现在将被整合进这个GPU巨头的路线图中。这次合并标志着一个深刻的转变,承认了如果没有Groq所开创的、有效利用原始算力的速度和确定性架构,原始算力将毫无意义。
12. 额外故事——加速的架构师:乔纳森·罗斯与Groq的征程
乔纳森·罗斯,Groq CEO
乔纳森·罗斯是两项重大AI硬件创新的核心人物:谷歌TPU和Groq LPU。
在创立Groq之前,罗斯是谷歌张量处理单元的关键创新者之一。TPU于2016年公开推出,是谷歌专为神经网络计算设计的芯片,旨在超越CPU和GPU的限制。罗斯帮助构思了第一代TPU,该TPU采用革命性的脉动阵列架构,以最大化AI的计算吞吐量和能效。他在谷歌的工作为他后来的事业奠定了基础。
2016年离开谷歌后,罗斯创立了Groq(原Think Silicon),目标是创造世界上最快、延迟最低、具有确定性性能的AI芯片。他认识到GPU的不可预测性是实时AI的瓶颈。Groq的使命变成了消除这些可变性来源。
这一理念催生了Groq的旗舰硬件:语言处理器单元及其基础GroqChip。Groq架构是对以GPU为中心方法的背离。它采用大规模单核、分块设计,所有计算单元通过极高速的片上网络连接。
Groq的历史弧线:起伏与转型
从一家雄心勃勃的初创公司到领先的AI硬件提供商,Groq的道路并非一帆风顺。公司的历史充满了必要的转型和战略调整:
- 早期(2016–2018):自动驾驶焦点:最初,Groq heavily focused on the autonomous vehicle market,其中可预测的实时决策是关键要求。Groq芯片的确定性特性非常适合这个安全关键领域,并确保了重要的早期合作伙伴关系。
- 硬件演进(2018–2021):设计第一代芯片:这一时期致力于GroqChip第一代的设计、流片和优化。获得融资并从谷歌和AMD等公司吸引顶尖人才是关键里程碑。
- LLM转型(2022–至今):找到杀手级应用:随着自动驾驶市场发展慢于预期,并且关键的是,随着Transformer架构因GPT-3等模型的崛起而爆发,Groq识别了一个新的、巨大的机会。LLM对低延迟推理的极端规模和高需求使其成为Groq LPU的理想工作负载。LPU的命名被采用,有效地将公司的焦点从通用AI加速转变为专门主导超高速、可预测的LLM推理市场。
- 公众瞩目(2024–未来):推理主导地位:Groq通过在以Llama和Mixtral等开源LLM上展示惊人的、行业领先的每秒令牌性能,获得了广泛认可。这种突然的关注巩固了其作为大规模、低延迟AI部署中英伟达GPU的高性能替代品的地位,标志着公司从一个专业硬件提供商到AI推理速度公认领导者的巨大转折点。
- 英伟达于2025年12月24日以200亿美元收购Groq。
乔纳森·罗斯的持久贡献在于创造了一种根本不同的计算机——一种为大规模可预测性能而设计的计算机。从共同设计推动谷歌AI革命的TPU架构,到在Groq开创确定性LPU,他一直倡导这样一个理念:AI的未来需要专门为工作负载量身定制的硬件,而不是相反。
附录:数据表表2:经济与运营指标
| 指标 | Groq LPU 解决方案 | 英伟达 H100 解决方案 | 影响 |
|---|---|---|---|
| 运营支出(能耗/令牌) | 1 - 3 焦耳 | 10 - 30 焦耳 | Groq 每任务更环保。 |
| 资本支出(初始成本) | 高(机架级) | 高(服务器级) | Groq 需要更多硬件单元。 |
| 空间效率 | 低(576芯片/机架) | 高(8芯片/服务器) | Groq 需要更多地板空间。 |
| 成本效率 | 高(令牌/美元) | 低/中(令牌/美元) | Groq 在吞吐量经济性上胜出。 |
表3:内存的物理特性
| 内存类型 | 使用者 | 带宽 | 延迟 | 密度(晶体管/比特) |
|---|---|---|---|---|
| SRAM | Groq LPU | ~80 TB/s | ~1-5 ns | 6(低密度) |
| HBM3 | 英伟达 H100 | 3.35 TB/s | ~100+ ns | 1(高密度) |
| DDR5 | CPUs | ~0.1 TB/s | ~100+ ns | 1(高密度) |
- Groq 14nm Chip Gets 6x Boost: Launches Llama 3.3 70B on GroqCloud, accessed December 25, 2025, https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud
- Llama-3.3-70B-SpecDec - GroqDocs, accessed December 25, 2025, https://console.groq.com/docs/model/llama-3.3-70b-specdec
- Introducing Cerebras Inference: AI at Instant Speed, accessed December 25, 2025, https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed
- Evaluating Llama‑3.3‑70B Inference on NVIDIA H100 and A100 GPUs - Derek Lewis, accessed December 25, 2025, https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/
- Unlocking the full power of NVIDIA H100 GPUs for ML inference with TensorRT - Baseten, accessed December 25, 2025, https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/
- Why Meta AI's Llama 3 Running on Groq's LPU Inference Engine Sets a New Benchmark for Large Language Models | by Adam | Medium, accessed December 25, 2025, https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773
- Groq Says It Can Deploy 1 Million AI Inference Chips In Two Years - The Next Platform, accessed December 25, 2025, https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/
- Inside the LPU: Deconstructing Groq's Speed | Groq is fast, low cost inference., accessed December 25, 2025, https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed
- Determinism and the Tensor Streaming Processor. - Groq, accessed December 25, 2025, https://groq.sa/GroqDocs/TechDoc_Predictability.pdf
- What is a Language Processing Unit? | Groq is fast, low cost inference., accessed December 25, 2025, https://groq.com/blog/the-groq-lpu-explained
- LPU | Groq is fast, low cost inference., accessed December 25, 2025, https://groq.com/lpu-architecture
- GROQ-ROCKS-NEURAL-NETWORKS.pdf, accessed December 25, 2025, http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf
- Groq Pricing and Alternatives - PromptLayer Blog, accessed December 25, 2025, https://blog.promptlayer.com/groq-pricing-and-alternatives/
- Comparing AI Hardware Architectures: SambaNova, Groq, Cerebras vs. Nvidia GPUs & Broadcom ASICs | by Frank Wang | Medium, accessed December 25, 2025, https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e
- The fastest big model bombing site in history! Groq became popular overnight, and its self-developed LPU speed crushed Nvidia GPUs, accessed December 25, 2025, https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became
- New Rules of the Game: Groq's Deterministic LPU™ Inference Engine with Software-Scheduled Accelerator & Networking, accessed December 25, 2025, https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled
- TPU vs GPU : r/NVDA_Stock - Reddit, accessed December 25, 2025, https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/
- GPU and TPU Comparative Analysis Report | by ByteBridge - Medium, accessed December 25, 2025, https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a
- Google TPU vs NVIDIA GPU: The Ultimate Showdown in AI Hardware - fibermall.com, accessed December 25, 2025, https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm
- Cerebras CS-3 vs. Groq LPU, accessed December 25, 2025, https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu
- The Deterministic Bet: How Groq's LPU is Rewriting the Rules of AI Inference Speed, accessed December 25, 2025, https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/
- Best LLM inference providers. Groq vs. Cerebras: Which Is the Fastest AI Inference Provider? - DEV Community, accessed December 25, 2025, https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap
- Groq Launches Meta's Llama 3 Instruct AI Models on LPU™ Inference Engine, accessed December 25, 2025, https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge
- Groq vs. Nvidia: The Real-World Strategy Behind Beating a $2 Trillion Giant - Startup Stash, accessed December 25, 2025, https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602
- Performance — NVIDIA NIM LLMs Benchmarking, accessed December 25, 2025, https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html
- How Tenali is Redefining Real-Time Sales with Groq, accessed December 25, 2025, https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq
随时随地看视频