Cursor自研模型性能超越Opus 4.6，价格大幅下调引爆编程圈@慕课网原创_慕课网

这简直是颠覆认知啊！

Cursor推出的新模型不仅在性能上超越了Claude，价格更是直接来了个“脚踝斩”（连腰斩都算不上）。

众所周知，Cursor作为模型服务商，早期曾因提供Claude模型而收获了大量用户。

如今，它却自主研发出一款编程模型，并一举超越了Claude——

其最新编程模型Composer 2，不仅在能力上超越了Claude Opus 4.6，更重要的是价格大幅降低。

可以说，别人的降价是“腰斩”，而它这简直是“脚踝斩”。

那么问题来了，在各大厂商纷纷“涨价”的背景下，Cursor是如何做到大幅降价的呢？

（注：随着“龙虾”模型火爆全球，大模型的Token消耗量呈指数级增长，因此从年初开始，国内外云厂商和大模型公司普遍上调了价格。）

答案，Cursor也已经公布——

一种全新的强化学习方法。

性能超越Opus 4.6，价格持续下探

首先介绍已在Cursor平台上线的Composer 2模型。

从“编曲家”这一名称可以推测，该模型专注于编程辅助功能。

在“龙虾”模型引发编程任务Token消耗量激增的背景下，Cursor当前的核心目标非常明确——

实现最优的性价比。

所谓性价比，即指“在智能水平与使用成本之间取得最佳平衡”。

在能力表现方面，Cursor官方表示：

Composer 2在我们评估的所有基准测试中均实现显著提升，涵盖Terminal-Bench 2.0和SWE-bench Multilingual等权威指标。

例如在衡量智能体终端操作能力的Terminal-Bench 2.0测试中，其性能已跃升至GPT-5.4与Claude Opus 4.6之间的水平。

从Composer系列的迭代历程来看，其技术演进速度正在不断加快。

定价方面，标准版Composer 2的输入费用为每百万tokens 0.5美元（约合人民币3.5元），输出费用为每百万tokens 2.5美元（约合人民币17.2元）。

与Claude Opus 4.6相比，其价格优势极为明显。

与此同时，Cursor还推出了智能水平相当但响应速度更快的变体模型——Composer 2 Fast。

该默认模型的定价为每百万输入tokens 1.5美元（约合人民币10.3元），每百万输出tokens 7.5美元（约合人民币51.7元）。

相较于Claude Opus 4.6，它不仅保持了价格竞争力，更在响应速度上表现突出。

Cursor透露，实现性能与成本平衡的关键在于采用了一种新型强化学习方法。

需要强调的是，该方法并非推理优化技巧，而是通过模型训练获得的核心能力。

引入“做笔记”强化学习方法

如果用一句话概括这种新方法，那就是：

让模型学会“为自己做会议纪要”，从而将原本难以记住的超长任务，分阶段持续推进。

Cursor 对此的描述如下：

虽然“自我总结的强化学习方法”这一名称听起来有些拗口，但其核心思路其实非常清晰。

该方法主要解决的是以下问题：

当前大多数 AI 编程助手虽然能够处理任务，但一旦任务变得冗长或复杂，模型的表现就会逐渐不稳定。

其根本原因众所周知：上下文容量有限。

复杂的工程任务往往涉及上万行代码、数百个操作步骤，而模型的上下文窗口始终存在上限，导致许多任务难以完整执行。

为突破上下文限制，目前业界主要有两种围绕“压缩”的主流方案：

进行摘要，对内容进行总结后再继续；
通过滑动上下文窗口，直接丢弃较早的信息。

此外，也有一些新探索尝试在潜在空间中进行压缩，将上下文转化为向量而非文本（这种方法虽比文本压缩慢，但准确率更高）。

但无论采用哪种方式，初步观察都显示其可靠性不足，均可能导致模型遗忘关键信息，从而在推进长时间任务时效果下降。

换言之，任务越长，模型越容易偏离正轨。

Cursor 的解决方案是：总结至关重要，而将这种总结能力内化为模型自身能力同样关键。

因此，他们为模型引入了一套 “自我总结”机制：

模型在执行任务过程中，不是被动等待压缩，而是主动暂停，为自己撰写“阶段总结”，即所谓的“做笔记”。

具体流程大致如下：

Composer 根据提示持续生成内容，直至达到预设的 token 长度触发点；
插入一个合成查询，要求模型对当前上下文进行总结；
为模型提供一定的草稿思考空间，让其构思最佳总结，并生成压缩后的上下文；
Composer 使用压缩后的上下文（包含总结及对话状态，如规划状态、剩余任务、之前总结次数等）回到步骤1。

其中关键的一点在于，模型的自我总结能力并非通过推理技巧实现，而是通过训练获得。

在强化学习过程中，总结能力被纳入奖励机制：

总结得当 → 后续任务更易成功 → 获得更高奖励；
总结遗漏信息 → 任务失败 → 受到惩罚。

通过这一过程，模型逐渐学会识别哪些信息值得保留，哪些可以舍弃。

具体效果可通过与传统方法的对比看出：

在一组高难度软件工程任务中，“传统摘要法”仅总结提示词就需要数千个 token，且压缩后的结果仍较长，平均需 5000+ token。

而 Composer 的提示词极为简洁，基本只需一句“请总结对话内容”，且压缩后的输出平均仅约 1000 个 token。

在相同任务上，后者的 token 使用量仅为传统方法的五分之一，且因压缩导致的错误减少了约 50%。

这意味着，压缩更高效，保留的信息却更关键。

更令人印象深刻的是，它确实能够处理长链条任务。

Cursor 团队选取了一道曾难倒众多模型的经典难题——在 MIPS 架构上运行 Doom 游戏。

我已经提供了 /app/doomgeneric/，即 Doom 的源代码。我还编写了一个特殊的 doomgeneric_img.c 文件，希望您使用它；该文件会将绘制的每一帧写入 /tmp/frame.bmp。此外，我还提供了 vm.js，它会读取名为 doomgeneric_mips 的文件并运行它。其余部分需要您自行解决……

由于该任务要求模型自行修改代码、编译调试并反复试错，许多模型在过程中往往陷入僵局。

然而，Composer 在经过 170 轮交互后，成功找到了精确的解决方案，并在此过程中将超过 10 万 token 的内容总结压缩至仅 1000 token。

一系列内部测试结果表明：

通过将压缩机制整合进训练循环，Composer 学会了一种显式机制，能够高效地将关键信息向后传递，从而在高难度任务中表现出更强的能力。

此前已提到 Cursor 的开发节奏很快，其研究人员已开始透露 Composer 3 的相关消息。

可以说，发展至今，Cursor 已成为具备双重身份的角色。其 CEO 表示：

Cursor 是一家典型的新型公司，既不是纯粹的应用程序开发商，也不是传统的模型提供商。

目前尚不确定该项目是否会开源。Hugging Face 的联合创始人兼 CEO 已代为表达社区期待。