在 AI 领域,有些设计早已被视为“理所当然”——就像空气一样存在,却没人敢轻易质疑。然而最近,一家中国公司却对这个“默认设置”动了刀子,而更令人意外的是,向来毒舌的埃隆·马斯克竟亲自下场点赞。
事情起源于科技博主 Avi Chawla 在 X(原 Twitter)上发布的一篇长文,深入解析了中国大模型公司 月之暗面(Moonshot AI) 刚刚公开的一项技术突破。没过多久,马斯克在评论区留下一句:“Kimi 做出了令人印象深刻的工作(Impressive work from Kimi)。”
要知道,马斯克对 AI 圈的批评向来毫不留情——他曾嘲讽 Anthropic 的 logo “像某种人体器官”,也多次质疑 OpenAI 的方向。而他自家的 xAI 团队近期正经历动荡,Grok 模型表现平平,多位华人联合创始人相继出走。在此背景下,他竟主动肯定一家中国 AI 公司的研究成果,实属罕见。
但真正值得玩味的是:Kimi 这次根本没发布新模型,而是挑战了一个自 2015 年以来几乎无人敢碰的“基础组件”。
一、被所有人忽略的“隐藏问题”:残差连接的“平等主义”陷阱
当今所有主流大语言模型——无论是 GPT、Claude,还是国内的 DeepSeek、豆包,乃至 Kimi 自家的 K2.5——其核心架构都建立在 Transformer 之上。而 Transformer 能稳定训练上百层,全靠一个叫 残差连接(Residual Connection) 的机制。
它的原理很简单:每一层网络计算完后,把自己的输出和原始输入相加,再传给下一层。这样梯度就能通过“捷径”回传,避免因层数过深而消失。这项设计源自何恺明等人 2015 年提出的 ResNet,后来被 Transformer 直接沿用。
但这里藏着一个长期被忽视的问题:这种“加法”是完全平等的。
无论第 1 层还是第 80 层,它们的输出在最终隐藏状态中权重都是 1。没有机制判断哪一层的信息更重要,也没有能力动态忽略冗余信号。结果就是:随着层数增加,早期层的信息被不断稀释,后期层被迫输出更大数值以“抢存在感”,反而加剧训练不稳定性。
这在学术上被称为 “PreNorm 稀释”。
打个比方:想象一个百人群聊讨论晚餐吃什么,每个人发言权重完全相同——哪怕有人胡说八道,系统也必须一字不漏地读完。群主越往后看,越记不住开头说了什么。
有趣的是,这与早期 RNN 的困境惊人相似:RNN 在时间维度上等权累加信息,导致长距离依赖难以捕捉。后来 Transformer 用 注意力机制 解决了这个问题——它允许模型根据内容动态聚焦关键位置,这才引爆了大模型时代。
可讽刺的是,在 深度维度(即网络层数) 上,同样的“等权累加”问题却一直无人问津。
二、Kimi 的解法:把“加法”升级为“注意力”
月之暗面团队敏锐地指出:标准残差连接本质上是一种“深度维度上的线性注意力”。既然时间维度能用 softmax 注意力优化,为什么深度维度不行?
于是他们提出了 全注意力残差(Full Attention Residuals):
- 为每一层赋予一个可学习的查询向量;
- 该向量对之前所有层的输出做注意力计算,生成一组归一化权重;
- 当前层的输入不再是简单求和,而是按权重动态聚合历史信息。
这意味着,不同 token 在同一层可能从不同历史层提取信息——模型终于能“选择性记忆”。
但理想很丰满,现实很骨感。全注意力需要缓存所有中间层输出,在大规模训练中会带来灾难性的显存和通信开销,尤其在使用流水线并行时几乎不可行。
为此,Kimi 团队又设计了更实用的 块注意力残差(Block Attention Residuals):
- 将网络划分为若干块(如 8 个);
- 块内仍用传统残差连接;
- 块间则用注意力机制进行选择性聚合。
相当于把百人群聊拆成 8 个小组,每组先内部总结,群主只需看 8 条精华摘要。内存占用从 O(Ld) 降至 O(Nd),N 仅为块数(通常 ≤8)。
配合跨阶段缓存优化和两阶段推理策略,最终实现:
- 训练开销几乎不变;
- 推理延迟仅增加不到 2%。
三、效果如何?实验证明:全面超越基线
Kimi 团队在两个层面验证了方案有效性:
- Scaling Law 实验:在不同计算预算下,块注意力残差始终优于标准残差,性能相当于用 1.25 倍算力训练的基线模型。
- 480 亿参数大模型实战:在科学问答、数学推理、代码生成等任务上,加入新机制的版本全面胜出。
更重要的是,分析显示:
- 各层输出幅度不再随深度线性膨胀;
- 梯度分布更均匀,浅层与深层的学习信号趋于平衡;
- PreNorm 稀释问题显著缓解。
论文还从理论角度统一了各类残差变体(如 Highway Networks、DeepNet),证明它们本质上都是“深度线性注意力”的特例。换句话说,自 ResNet 问世十一年来,残差连接的核心逻辑从未被真正革新——直到 Kimi 这次出手。
这或许正是马斯克点赞的关键原因:不是炫技,而是触及了深度学习的底层逻辑。
四、资本狂奔 vs 技术争议:马斯克的赞来得正是时候
就在技术突破引发关注的同时,月之暗面正处在融资快车道上:
- 2025 年底完成 5 亿美元 C 轮,估值 43 亿;
- 2026 年初再融超 7 亿美元 C+ 轮,估值破百亿;
- 如今投前估值已达 180 亿美元,新一轮 10 亿美元融资正在进行。
商业表现同样亮眼:Kimi K2.5 发布不到一个月,收入已超 2025 全年总和。Stripe 数据显示,其个人订阅订单在 1 月环比暴增 8280%,2 月再涨 123.8%,跻身全球支付榜前十。
但高歌猛进之下也有隐忧。近日,OpenClaw 创始人彼得·斯坦伯格公开质疑月之暗面推出的 Kimi Claw 产品。
OpenClaw 的核心理念是“本地优先”——Agent 运行在用户设备,数据不出本地,大模型仅提供指令。而 Kimi Claw 却将用户操作和数据上传至云端服务器,彻底背离了这一隐私原则。
斯坦伯格直言:“他们有没有把安全文档作为必读项展示给用户?” 此言一出,已有潜在用户表示暂缓使用。
就在此时,马斯克那句“impressive”横空出世。尽管两者毫无关联,但在舆论场中,一边是安全性质疑,一边是顶级技术认可——对正在冲刺新一轮融资的月之暗面而言,时机堪称完美。
当然,我们不必过度解读马斯克的一句评论。他常在 X 上随手点赞各种技术,未必代表战略采纳。但不可否认的是,这条回复让更多人开始关注这篇本可能被埋没的架构论文。
结语:当“默认设置”被重新审视
过去十一年,残差连接如同空气般存在,无人质疑,也无人改进。而 Kimi 团队不仅指出了它的结构性缺陷,还给出了可落地、低成本、高性能的替代方案。
这不仅是工程优化,更是一次对深度学习“常识”的挑战。正如当年注意力机制颠覆 RNN 一样,真正的创新往往始于对“理所当然”的怀疑。
马斯克的点赞或许只是偶然,但它提醒我们:AI 的下一波突破,可能不在更大的模型、更多的数据,而在那些被我们习以为常的底层积木之中。