继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Cursor技术报告全解析:当Kimi K2.5遇上“微调魔法”,如何实现性能跃升

芜湖不芜
关注TA
已关注
手记 531
粉丝 77
获赞 356

关于Cursor与Kimi的合作,最近又有新进展。

Cursor正式发布了Composer 2技术报告,详细披露了其模型的技术路线。报告的核心结论很清晰:Composer 2基于Kimi K2.5,通过持续预训练和异步强化学习,实现了在编码任务上的显著性能提升。

不同于外界此前的一些猜测,Cursor这次在报告中明确署名了Kimi K2.5,并对该基础模型给出了高度评价。

为什么选择Kimi K2.5?

报告开篇,Cursor坦诚地分享了基础模型选型的决策过程。团队评估了多款开源模型,包括GLM5、Kimi K2.5和DeepSeek V3.2,最终选定Kimi K2.5。

理由主要有两点:一是Kimi K2.5的综合能力突出;二是它在Cursor自研基础设施上的执行效率表现优异。这个选择说明,在专业编码场景下,模型的能力边界和工程适配性同样重要。

两步训练流程:持续预训练 + 异步强化学习

选定基础模型后,Composer 2的训练分为两个独立阶段。

第一阶段:持续预训练

持续预训练的目标是提升模型在编码领域的基础知识和潜在编码能力,为后续的强化学习打下基础。这个过程分为三个子阶段:

  1. 将大部分计算资源投入到32k token序列长度的训练中
  2. 进行短期的长下文扩展训练,将序列长度提升至256k
  3. 通过小样本指令调优(SFT)完成特定代码任务的适配

此外,为了提升模型的线上推理速度,团队还新增了多token预测(MTP)层,结合投机解码技术和自蒸馏策略,确保模型收敛速度。

在训练过程中,模型在自研代码库上的损失值呈对数线性下降,且代码库困惑度与下游强化学习性能正相关——这证明了预训练阶段的有效性。

第二阶段:异步强化学习

强化学习的训练环境高度模拟真实的Cursor对话场景,构建了涵盖各类软件工程核心任务的训练集。

整体训练框架基于大规模策略梯度实现。为了保证训练稳定性,团队采用单指令多样本的策略梯度算法,并设置固定的样本组大小。同一指令只参与一次训练,使用Adam优化器,在训练过程中更新模型全部参数。

团队还优化了GRPO算法,移除了长度标准化项以避免长度偏差,同时引入KL散度实现正则化。

研究发现,最终模型的平均性能和best-of-K性能同步提升,这说明强化学习不仅重新加权了推理路径,还扩展了正确解的覆盖范围。

在奖励机制设计上,Composer 2添加了一系列辅助奖励:针对代码风格、交互表达的正向奖励,以及针对不当工具调用的产品级惩罚。奖励规则会根据训练中涌现的行为动态调整。

CursorBench:自研评估集的差异化设计

在基准测试方面,Cursor推出了自研的内部评估集——CursorBench。这个评估集有几个显著特点:

  • 任务全部来自真实的Agent使用场景
  • 评估维度多元:不仅看功能正确性,还考量代码质量、执行效率、智能体交互等
  • 代码修改量更大:中位数181行,而SWE-bench验证集和多语言版仅为7-10行
  • 指令更简洁:中位数仅390字符,远低于公开基准测试的1185-3055字符

测试结果显示,Composer 2在CursorBench-3中的准确率可达61.3%,较1.5版本相对提升37%,较1版相对提升61%。与Kimi K2.5相比,准确率也有大幅度提升。

在成本层面,Composer 2实现了帕累托最优——推理成本与更小的模型相当,而精度媲美大尺寸前沿模型。Token使用效率与其他SOTA模型持平,无额外资源消耗。

杨植麟对AI研发阶段的最新判断

就在Cursor发布技术报告的同时,Kimi创始人杨植麟在中关村论坛的演讲中,分享了对大模型训练的最新思考。

关于Scaling的三个策略

杨植麟提出,大模型的本质是将能源转化为智能,其中最重要的是规模化。但规模化不等于无脑堆算力,而要讲究方法:

  1. 提升Token效率:真正厉害的模型,比的是用同样有限的数据,学到更多的智能。
  2. 扩展上下文长度:通过Kimi Linear等新架构和专门设计的训练数据,从根本上提升长上下文能力,让模型能够处理更复杂、更长程的逻辑。
  3. 引入Agent集群:在Kimi K2.5中提出的新思路,不再死磕一个模型做到极致,而是通过一群Agent协作来解决更复杂的问题,实现规模化输入、输出、执行或编排。

关于模型架构的再思考

杨植麟提到,好的底层网络架构相当重要。他们开源的注意力残差(Attention Residuals)架构,可以理解为将注意力应用在网络深度上的LSTM变种,让模型能够更高效地利用所有层信息。

值得注意的是,注意力架构、残差学习都是多年前的经典技术。现在算力更强、研究更偏向工程化+大规模验证,就不能只靠理论想法,过去的标准答案也可以被重新挑战和改进。

开源的态度:要做,还要大力做

杨植麟明确表示,开源模型正在逐渐成为新的标准。以Kimi K2.5为代表的开源模型,已经成为全球芯片厂商测试硬件性能的基准,很多研究机构也在用它进行研究。

“我们希望通过开源,让所有人都能以非常低的门槛获取智能。最终形成开源生态系统,共同推动AI领域的发展。”

大模型训练进入第三阶段

杨植麟判断,大模型训练已经进入第三阶段:

  • 2023-2024年:以天然数据为主,少量人工标注为辅
  • 2025年:重视人工筛选高质量任务,搭建大规模的强化学习系统
  • 2026年开始:研发主体从人转向AI,AI自动合成任务、构建训练环境、探索新的模型架构,研究员更多是提供算力和Token资源

简单来说,就是从“数据靠人采”到“任务靠人选”,再到“训练全靠AI自己搞”。AI将从被训练者,逐渐变成研发参与者乃至主导者。

写在最后

Cursor技术报告的发布,某种程度上验证了一条技术路径:优秀的基础开源模型,加上针对性的垂直领域训练,可以在特定场景下实现接近甚至超越更大规模模型的效果。

而杨植麟的演讲则指向了一个更远的未来:当AI开始主导自己的训练过程,整个研发范式的变化可能会超出我们当前的想象。

对开发者而言,好消息是,无论是Cursor的“微调魔法”,还是Kimi的“开源生态”,都意味着获取和使用先进AI能力的门槛正在降低。技术红利正在从少数玩家,向更广泛的群体扩散。

打开App,阅读手记
1人推荐
发表评论
随时随地看视频慕课网APP