这简直是颠覆认知啊!
Cursor推出的新模型不仅在性能上超越了Claude,价格更是直接来了个“脚踝斩”(连腰斩都算不上)。
众所周知,Cursor作为模型服务商,早期曾因提供Claude模型而收获了大量用户。
如今,它却自主研发出一款编程模型,并一举超越了Claude——
其最新编程模型Composer 2,不仅在能力上超越了Claude Opus 4.6,更重要的是价格大幅降低。
可以说,别人的降价是“腰斩”,而它这简直是“脚踝斩”。
那么问题来了,在各大厂商纷纷“涨价”的背景下,Cursor是如何做到大幅降价的呢?
(注:随着“龙虾”模型火爆全球,大模型的Token消耗量呈指数级增长,因此从年初开始,国内外云厂商和大模型公司普遍上调了价格。)
答案,Cursor也已经公布——
一种全新的强化学习方法。
性能超越Opus 4.6,价格持续下探首先介绍已在Cursor平台上线的Composer 2模型。
从“编曲家”这一名称可以推测,该模型专注于编程辅助功能。
在“龙虾”模型引发编程任务Token消耗量激增的背景下,Cursor当前的核心目标非常明确——
实现最优的性价比。
所谓性价比,即指“在智能水平与使用成本之间取得最佳平衡”。
在能力表现方面,Cursor官方表示:
Composer 2在我们评估的所有基准测试中均实现显著提升,涵盖Terminal-Bench 2.0和SWE-bench Multilingual等权威指标。
例如在衡量智能体终端操作能力的Terminal-Bench 2.0测试中,其性能已跃升至GPT-5.4与Claude Opus 4.6之间的水平。
从Composer系列的迭代历程来看,其技术演进速度正在不断加快。
定价方面,标准版Composer 2的输入费用为每百万tokens 0.5美元(约合人民币3.5元),输出费用为每百万tokens 2.5美元(约合人民币17.2元)。
与Claude Opus 4.6相比,其价格优势极为明显。
与此同时,Cursor还推出了智能水平相当但响应速度更快的变体模型——Composer 2 Fast。
该默认模型的定价为每百万输入tokens 1.5美元(约合人民币10.3元),每百万输出tokens 7.5美元(约合人民币51.7元)。
相较于Claude Opus 4.6,它不仅保持了价格竞争力,更在响应速度上表现突出。
Cursor透露,实现性能与成本平衡的关键在于采用了一种新型强化学习方法。
需要强调的是,该方法并非推理优化技巧,而是通过模型训练获得的核心能力。
如果用一句话概括这种新方法,那就是:
让模型学会“为自己做会议纪要”,从而将原本难以记住的超长任务,分阶段持续推进。
Cursor 对此的描述如下:
虽然“自我总结的强化学习方法”这一名称听起来有些拗口,但其核心思路其实非常清晰。
该方法主要解决的是以下问题:
当前大多数 AI 编程助手虽然能够处理任务,但一旦任务变得冗长或复杂,模型的表现就会逐渐不稳定。
其根本原因众所周知:上下文容量有限。
复杂的工程任务往往涉及上万行代码、数百个操作步骤,而模型的上下文窗口始终存在上限,导致许多任务难以完整执行。
为突破上下文限制,目前业界主要有两种围绕“压缩”的主流方案:
- 进行摘要,对内容进行总结后再继续;
- 通过滑动上下文窗口,直接丢弃较早的信息。
此外,也有一些新探索尝试在潜在空间中进行压缩,将上下文转化为向量而非文本(这种方法虽比文本压缩慢,但准确率更高)。
但无论采用哪种方式,初步观察都显示其可靠性不足,均可能导致模型遗忘关键信息,从而在推进长时间任务时效果下降。
换言之,任务越长,模型越容易偏离正轨。
Cursor 的解决方案是:总结至关重要,而将这种总结能力内化为模型自身能力同样关键。
因此,他们为模型引入了一套 “自我总结”机制:
模型在执行任务过程中,不是被动等待压缩,而是主动暂停,为自己撰写“阶段总结”,即所谓的“做笔记”。
具体流程大致如下:
- Composer 根据提示持续生成内容,直至达到预设的 token 长度触发点;
- 插入一个合成查询,要求模型对当前上下文进行总结;
- 为模型提供一定的草稿思考空间,让其构思最佳总结,并生成压缩后的上下文;
- Composer 使用压缩后的上下文(包含总结及对话状态,如规划状态、剩余任务、之前总结次数等)回到步骤1。
其中关键的一点在于,模型的自我总结能力并非通过推理技巧实现,而是通过训练获得。
在强化学习过程中,总结能力被纳入奖励机制:
- 总结得当 → 后续任务更易成功 → 获得更高奖励;
- 总结遗漏信息 → 任务失败 → 受到惩罚。
通过这一过程,模型逐渐学会识别哪些信息值得保留,哪些可以舍弃。
具体效果可通过与传统方法的对比看出:
在一组高难度软件工程任务中,“传统摘要法”仅总结提示词就需要数千个 token,且压缩后的结果仍较长,平均需 5000+ token。
而 Composer 的提示词极为简洁,基本只需一句“请总结对话内容”,且压缩后的输出平均仅约 1000 个 token。
在相同任务上,后者的 token 使用量仅为传统方法的五分之一,且因压缩导致的错误减少了约 50%。
这意味着,压缩更高效,保留的信息却更关键。
更令人印象深刻的是,它确实能够处理长链条任务。
Cursor 团队选取了一道曾难倒众多模型的经典难题——在 MIPS 架构上运行 Doom 游戏。
我已经提供了 /app/doomgeneric/,即 Doom 的源代码。我还编写了一个特殊的 doomgeneric_img.c 文件,希望您使用它;该文件会将绘制的每一帧写入 /tmp/frame.bmp。此外,我还提供了 vm.js,它会读取名为 doomgeneric_mips 的文件并运行它。其余部分需要您自行解决……
由于该任务要求模型自行修改代码、编译调试并反复试错,许多模型在过程中往往陷入僵局。
然而,Composer 在经过 170 轮交互后,成功找到了精确的解决方案,并在此过程中将超过 10 万 token 的内容总结压缩至仅 1000 token。
一系列内部测试结果表明:
通过将压缩机制整合进训练循环,Composer 学会了一种显式机制,能够高效地将关键信息向后传递,从而在高难度任务中表现出更强的能力。
此前已提到 Cursor 的开发节奏很快,其研究人员已开始透露 Composer 3 的相关消息。
可以说,发展至今,Cursor 已成为具备双重身份的角色。其 CEO 表示:
Cursor 是一家典型的新型公司,既不是纯粹的应用程序开发商,也不是传统的模型提供商。
目前尚不确定该项目是否会开源。Hugging Face 的联合创始人兼 CEO 已代为表达社区期待。