Cursor 自研 Composer 2 模型性能反超 Opus 4.6,价格大幅降低
Cursor 推出自研编程模型 Composer 2,在 Terminal-Bench 2.0 和 SWE-bench Multilingual 等基准测试中表现超越 Claude Opus 4.6。该模型通过引入“自我总结”的强化学习方法,有效解决了长上下文任务中的信息丢失问题,实现了高难度任务的稳定执行。定价方面,Composer 2 标准版输入价格为 0.5 美元/百万 tokens,输出为 2.5 美元/百万 tokens,相比竞品价格显著下降。
事件概述
Cursor 最新推出的自研编程模型 Composer 2 在性能与成本之间取得了突破性平衡。该模型不仅能力全面超越 Claude Opus 4.6,且定价策略极具颠覆性,被形容为“脚踝斩”。
核心性能与数据
- 基准测试表现:在衡量智能体终端操作能力的 Terminal-Bench 2.0 以及多语言软件工程基准 SWE-bench Multilingual 上,Composer 2 的表现跃居 GPT-5.4 与 Claude Opus 4.6 之间。
- 定价对比:
- Composer 2 标准版:输入 0.5 美元/百万 tokens(约 3.5 元人民币),输出 2.5 美元/百万 tokens(约 17.2 元人民币)。
- Composer 2 Fast:速度更快,输入 1.5 美元/百万 tokens,输出 7.5 美元/百万 tokens。
- 相比之下,Claude Opus 4.6 的价格远高于此,Composer 2 实现了显著的性价比优势。
技术突破:自我总结强化学习
Cursor 能够在不牺牲性能的前提下大幅降低成本,核心在于引入了一种新的强化学习方法——让模型学会“自己给自己做会议纪要”。
解决痛点
传统 AI 编程助手在处理超长、复杂任务时,常因上下文窗口限制而“掉链子”。业界常见的压缩方案(如摘要、滑动窗口、潜在空间压缩)往往导致关键信息丢失,使模型在长链条任务中跑偏。
机制原理
Composer 2 将“总结能力”内化为模型训练的一部分,而非仅靠推理时的提示词技巧:
- 触发机制:当生成达到固定 token 长度时,插入合成查询要求模型总结当前上下文。
- 主动思考:模型利用草稿思考空间构思最佳总结,生成压缩后的上下文。
- 奖励反馈:在强化学习过程中,总结质量直接影响后续任务成功率。总结得好获得高奖励,丢信息则受惩罚。这使得模型学会了筛选关键信息。
效果验证
- Token 效率:在高难度软件工程任务中,传统摘要法需数千 tokens 进行总结,平均压缩后仍达 5000+ tokens;而 Composer 2 仅需简单指令,平均压缩输出仅 1000 tokens,用量仅为前者的 1/5。
- 准确率提升:压缩带来的错误率直接减少约 50%。
- 长任务攻克:在经典的“将 Doom 游戏运行在 MIPS 架构”难题中,面对需要反复试错、修改代码的复杂流程,Composer 2 经过 170 轮交互找到精确解法,成功将 10 万 + tokens 的上下文压缩至 1000 tokens 并完成任务。
未来展望
Cursor 已透露 Composer 3 的研发计划。公司 CEO 表示 Cursor 兼具应用程序开发商与模型提供商的双重身份,正加速迭代以应对全球大模型 Token 消耗量激增带来的成本挑战。
