马斯克罕见点赞中国AI团队：Kimi 动了深度学习“十年不动”的底层积木@慕课网原创_慕课网

在 AI 领域，有些设计早已被视为“理所当然”——就像空气一样存在，却没人敢轻易质疑。然而最近，一家中国公司却对这个“默认设置”动了刀子，而更令人意外的是，向来毒舌的埃隆·马斯克竟亲自下场点赞。

事情起源于科技博主 Avi Chawla 在 X（原 Twitter）上发布的一篇长文，深入解析了中国大模型公司 月之暗面（Moonshot AI） 刚刚公开的一项技术突破。没过多久，马斯克在评论区留下一句：“Kimi 做出了令人印象深刻的工作（Impressive work from Kimi）。”

要知道，马斯克对 AI 圈的批评向来毫不留情——他曾嘲讽 Anthropic 的 logo “像某种人体器官”，也多次质疑 OpenAI 的方向。而他自家的 xAI 团队近期正经历动荡，Grok 模型表现平平，多位华人联合创始人相继出走。在此背景下，他竟主动肯定一家中国 AI 公司的研究成果，实属罕见。

但真正值得玩味的是：Kimi 这次根本没发布新模型，而是挑战了一个自 2015 年以来几乎无人敢碰的“基础组件”。

一、被所有人忽略的“隐藏问题”：残差连接的“平等主义”陷阱

当今所有主流大语言模型——无论是 GPT、Claude，还是国内的 DeepSeek、豆包，乃至 Kimi 自家的 K2.5——其核心架构都建立在 Transformer 之上。而 Transformer 能稳定训练上百层，全靠一个叫 残差连接（Residual Connection） 的机制。

它的原理很简单：每一层网络计算完后，把自己的输出和原始输入相加，再传给下一层。这样梯度就能通过“捷径”回传，避免因层数过深而消失。这项设计源自何恺明等人 2015 年提出的 ResNet，后来被 Transformer 直接沿用。

但这里藏着一个长期被忽视的问题：这种“加法”是完全平等的。

无论第 1 层还是第 80 层，它们的输出在最终隐藏状态中权重都是 1。没有机制判断哪一层的信息更重要，也没有能力动态忽略冗余信号。结果就是：随着层数增加，早期层的信息被不断稀释，后期层被迫输出更大数值以“抢存在感”，反而加剧训练不稳定性。

这在学术上被称为 “PreNorm 稀释”。

打个比方：想象一个百人群聊讨论晚餐吃什么，每个人发言权重完全相同——哪怕有人胡说八道，系统也必须一字不漏地读完。群主越往后看，越记不住开头说了什么。

有趣的是，这与早期 RNN 的困境惊人相似：RNN 在时间维度上等权累加信息，导致长距离依赖难以捕捉。后来 Transformer 用 注意力机制 解决了这个问题——它允许模型根据内容动态聚焦关键位置，这才引爆了大模型时代。

可讽刺的是，在 深度维度（即网络层数） 上，同样的“等权累加”问题却一直无人问津。

二、Kimi 的解法：把“加法”升级为“注意力”

月之暗面团队敏锐地指出：标准残差连接本质上是一种“深度维度上的线性注意力”。既然时间维度能用 softmax 注意力优化，为什么深度维度不行？

于是他们提出了 全注意力残差（Full Attention Residuals）：

为每一层赋予一个可学习的查询向量；
该向量对之前所有层的输出做注意力计算，生成一组归一化权重；
当前层的输入不再是简单求和，而是按权重动态聚合历史信息。

这意味着，不同 token 在同一层可能从不同历史层提取信息——模型终于能“选择性记忆”。

但理想很丰满，现实很骨感。全注意力需要缓存所有中间层输出，在大规模训练中会带来灾难性的显存和通信开销，尤其在使用流水线并行时几乎不可行。

为此，Kimi 团队又设计了更实用的 块注意力残差（Block Attention Residuals）：

将网络划分为若干块（如 8 个）；
块内仍用传统残差连接；
块间则用注意力机制进行选择性聚合。

相当于把百人群聊拆成 8 个小组，每组先内部总结，群主只需看 8 条精华摘要。内存占用从 O(Ld) 降至 O(Nd)，N 仅为块数（通常 ≤8）。

配合跨阶段缓存优化和两阶段推理策略，最终实现：

训练开销几乎不变；
推理延迟仅增加不到 2%。

三、效果如何？实验证明：全面超越基线

Kimi 团队在两个层面验证了方案有效性：

Scaling Law 实验：在不同计算预算下，块注意力残差始终优于标准残差，性能相当于用 1.25 倍算力训练的基线模型。
480 亿参数大模型实战：在科学问答、数学推理、代码生成等任务上，加入新机制的版本全面胜出。

更重要的是，分析显示：

各层输出幅度不再随深度线性膨胀；
梯度分布更均匀，浅层与深层的学习信号趋于平衡；
PreNorm 稀释问题显著缓解。

论文还从理论角度统一了各类残差变体（如 Highway Networks、DeepNet），证明它们本质上都是“深度线性注意力”的特例。换句话说，自 ResNet 问世十一年来，残差连接的核心逻辑从未被真正革新——直到 Kimi 这次出手。

这或许正是马斯克点赞的关键原因：不是炫技，而是触及了深度学习的底层逻辑。

四、资本狂奔 vs 技术争议：马斯克的赞来得正是时候

就在技术突破引发关注的同时，月之暗面正处在融资快车道上：

2025 年底完成 5 亿美元 C 轮，估值 43 亿；
2026 年初再融超 7 亿美元 C+ 轮，估值破百亿；
如今投前估值已达 180 亿美元，新一轮 10 亿美元融资正在进行。

商业表现同样亮眼：Kimi K2.5 发布不到一个月，收入已超 2025 全年总和。Stripe 数据显示，其个人订阅订单在 1 月环比暴增 8280%，2 月再涨 123.8%，跻身全球支付榜前十。

但高歌猛进之下也有隐忧。近日，OpenClaw 创始人彼得·斯坦伯格公开质疑月之暗面推出的 Kimi Claw 产品。

OpenClaw 的核心理念是“本地优先”——Agent 运行在用户设备，数据不出本地，大模型仅提供指令。而 Kimi Claw 却将用户操作和数据上传至云端服务器，彻底背离了这一隐私原则。

斯坦伯格直言：“他们有没有把安全文档作为必读项展示给用户？” 此言一出，已有潜在用户表示暂缓使用。

就在此时，马斯克那句“impressive”横空出世。尽管两者毫无关联，但在舆论场中，一边是安全性质疑，一边是顶级技术认可——对正在冲刺新一轮融资的月之暗面而言，时机堪称完美。

当然，我们不必过度解读马斯克的一句评论。他常在 X 上随手点赞各种技术，未必代表战略采纳。但不可否认的是，这条回复让更多人开始关注这篇本可能被埋没的架构论文。

结语：当“默认设置”被重新审视

过去十一年，残差连接如同空气般存在，无人质疑，也无人改进。而 Kimi 团队不仅指出了它的结构性缺陷，还给出了可落地、低成本、高性能的替代方案。

这不仅是工程优化，更是一次对深度学习“常识”的挑战。正如当年注意力机制颠覆 RNN 一样，真正的创新往往始于对“理所当然”的怀疑。

马斯克的点赞或许只是偶然，但它提醒我们：AI 的下一波突破，可能不在更大的模型、更多的数据，而在那些被我们习以为常的底层积木之中。