Cursor 自研 Composer 2 模型性能反超 Opus 4.6，价格大幅降低

2026/03/20 12:09阅读量 52

Cursor 推出自研编程模型 Composer 2，在 Terminal-Bench 2.0 和 SWE-bench Multilingual 等基准测试中表现超越 Claude Opus 4.6。该模型通过引入“自我总结”的强化学习方法，有效解决了长上下文任务中的信息丢失问题，实现了高难度任务的稳定执行。定价方面，Composer 2 标准版输入价格为 0.5 美元/百万 tokens，输出为 2.5 美元/百万 tokens，相比竞品价格显著下降。

事件概述

Cursor 最新推出的自研编程模型 Composer 2 在性能与成本之间取得了突破性平衡。该模型不仅能力全面超越 Claude Opus 4.6，且定价策略极具颠覆性，被形容为“脚踝斩”。

核心性能与数据

基准测试表现：在衡量智能体终端操作能力的 Terminal-Bench 2.0 以及多语言软件工程基准 SWE-bench Multilingual 上，Composer 2 的表现跃居 GPT-5.4 与 Claude Opus 4.6 之间。
定价对比：
- Composer 2 标准版：输入 0.5 美元/百万 tokens（约 3.5 元人民币），输出 2.5 美元/百万 tokens（约 17.2 元人民币）。
- Composer 2 Fast：速度更快，输入 1.5 美元/百万 tokens，输出 7.5 美元/百万 tokens。
- 相比之下，Claude Opus 4.6 的价格远高于此，Composer 2 实现了显著的性价比优势。

技术突破：自我总结强化学习

Cursor 能够在不牺牲性能的前提下大幅降低成本，核心在于引入了一种新的强化学习方法——让模型学会“自己给自己做会议纪要”。

解决痛点

传统 AI 编程助手在处理超长、复杂任务时，常因上下文窗口限制而“掉链子”。业界常见的压缩方案（如摘要、滑动窗口、潜在空间压缩）往往导致关键信息丢失，使模型在长链条任务中跑偏。

机制原理

Composer 2 将“总结能力”内化为模型训练的一部分，而非仅靠推理时的提示词技巧：

触发机制：当生成达到固定 token 长度时，插入合成查询要求模型总结当前上下文。
主动思考：模型利用草稿思考空间构思最佳总结，生成压缩后的上下文。
奖励反馈：在强化学习过程中，总结质量直接影响后续任务成功率。总结得好获得高奖励，丢信息则受惩罚。这使得模型学会了筛选关键信息。

效果验证

Token 效率：在高难度软件工程任务中，传统摘要法需数千 tokens 进行总结，平均压缩后仍达 5000+ tokens；而 Composer 2 仅需简单指令，平均压缩输出仅 1000 tokens，用量仅为前者的 1/5。
准确率提升：压缩带来的错误率直接减少约 50%。
长任务攻克：在经典的“将 Doom 游戏运行在 MIPS 架构”难题中，面对需要反复试错、修改代码的复杂流程，Composer 2 经过 170 轮交互找到精确解法，成功将 10 万 + tokens 的上下文压缩至 1000 tokens 并完成任务。

未来展望

Cursor 已透露 Composer 3 的研发计划。公司 CEO 表示 Cursor 兼具应用程序开发商与模型提供商的双重身份，正加速迭代以应对全球大模型 Token 消耗量激增带来的成本挑战。

阅读原文详情