马斯克花 100 亿想清楚一件事:不做 coding agent 就是等死

2026/05/18 22:10阅读量 20

SpaceX 宣布与 Cursor 达成 100 亿美元战略合作,并获得以 600 亿美元收购 Cursor 的权利,核心目的为获取 Cursor 在真实编程场景中产生的高质量训练数据。事件起因是 Anthropic 切断对 xAI 的 Claude 模型调用,促使 xAI 意识到:没有自有的 coding agent 产品,就无法获取 on-policy 过程监督数据,模型在编程能力上难以持续进化。文章通过 Cursor 实时强化学习案例及行业排名,论证了自建 coding agent 对模型厂商的战略必要性。

事件概述

月初,Anthropic 与马斯克意外结盟,此前双方并不融洽。今年 2 月马斯克曾在 X 平台指责 Anthropic 为“邪恶”“反人类”。直接导火索是:Anthropic 更新政策,要求 Cursor 不得向主要竞争对手提供 Claude 模型调用能力,导致 xAI 内部使用的 Cursor 账号中 Claude 模型失效。xAI 联合创始人吴宇怀在全员信中表示:“这是坏消息也是好消息……敦促我们开发自己的编码产品和模型。”

核心信息

上月底,SpaceX 与 Cursor 宣布在编程和知识类 AI 模型训练上展开战略合作,SpaceX 获得以 600 亿美元收购 Cursor 的权利,或支付 100 亿美元合作费用。100 亿美元的核心价值在于获取 Cursor 的用户数据——即完整的 Agentic Loop(用户提示、模型思考、agent 规划、输出代码、验证)所形成的高质量训练数据,用于强化学习。

coding agent 产品的战略必要性

  1. 过程监督 vs 结果监督:仅靠 GitHub 等公开代码训练只能获得“结果监督”信号,容易导致“奖励黑客”(模型写出可运行但脆弱的代码)。而编程任务需要过程监督——用户的接受、拒绝、补全、撤销、追问等交互信号,这些只有在 coding agent 运行环境中才能诞生。

  2. on-policy 数据的稀缺性:策略梯度定理要求优化样本最好由当前模型自己产生(on-policy 数据)。通过蒸馏别家模型或使用他人产品的 off-policy 数据,无法学到内部概率分布,一旦推理偏离便可能出错。

  3. Cursor 实时强化学习案例:Cursor 的 Composer 2 模型基于 Kimi K2.5 底座,但 3/4 的算力来自自研训练。其核心创新是“实时强化学习”:将模型 checkpoint 直接部署到真实 Cursor 生产环境,收集用户反馈,最快每 5 小时迭代一次。该功能 Tab 每日处理超 4 亿次请求,采用在线 RL,拒绝率降低 21%,接受率提高 28%。这表明即使不自研基座,拥有 coding agent 产品仍可通过数据飞轮 RL 出超越基座的专有模型。

  4. 行业证据:在 SWE-bench 等权威榜单上,霸榜前十的模型(Claude、GPT、Gemini、Kimi)均拥有自有的 coding agent 产品。反例(如 DeepSeek)在更接近真实场景的 SWE-bench Pro 上分数大幅下降(从 70% 降至 15%)。OpenRouter 数据显示 Claude 的 token 80% 用于编程,而 DeepSeek 主要用于闲聊,印证了缺乏 coding agent 的厂商在真实工程任务上的劣势。

  5. Anthropic 的相似做法:Anthropic 在论文中披露,他们在自家生产编程环境中训练,即用 Claude Code 的员工交互数据反哺模型。

结论

对于希望掌握顶级编程能力的模型厂商,自建 coding agent 产品已成为确保模型持续进化的核心生命线。缺乏自主 coding 产品意味着无法获取高质量过程监督数据,最终被迫高价购买合作(如 SpaceX)。国内厂商已有布局:字节跳动的 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate、月之暗面的 Kimi Code(CLI 界面)等。Kimi 曾表示 CLI 不会是终局。另一种思路是通过提供 API 服务或 Coding Plan 来获取过程数据,但效率可能不及原生产品。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。