马斯克花 100 亿想清楚一件事：不做 coding agent 就是等死

2026/05/18 22:10阅读量 20

SpaceX 宣布与 Cursor 达成 100 亿美元战略合作，并获得以 600 亿美元收购 Cursor 的权利，核心目的为获取 Cursor 在真实编程场景中产生的高质量训练数据。事件起因是 Anthropic 切断对 xAI 的 Claude 模型调用，促使 xAI 意识到：没有自有的 coding agent 产品，就无法获取 on-policy 过程监督数据，模型在编程能力上难以持续进化。文章通过 Cursor 实时强化学习案例及行业排名，论证了自建 coding agent 对模型厂商的战略必要性。

事件概述

月初，Anthropic 与马斯克意外结盟，此前双方并不融洽。今年 2 月马斯克曾在 X 平台指责 Anthropic 为“邪恶”“反人类”。直接导火索是：Anthropic 更新政策，要求 Cursor 不得向主要竞争对手提供 Claude 模型调用能力，导致 xAI 内部使用的 Cursor 账号中 Claude 模型失效。xAI 联合创始人吴宇怀在全员信中表示：“这是坏消息也是好消息……敦促我们开发自己的编码产品和模型。”

核心信息

上月底，SpaceX 与 Cursor 宣布在编程和知识类 AI 模型训练上展开战略合作，SpaceX 获得以 600 亿美元收购 Cursor 的权利，或支付 100 亿美元合作费用。100 亿美元的核心价值在于获取 Cursor 的用户数据——即完整的 Agentic Loop（用户提示、模型思考、agent 规划、输出代码、验证）所形成的高质量训练数据，用于强化学习。

coding agent 产品的战略必要性

过程监督 vs 结果监督：仅靠 GitHub 等公开代码训练只能获得“结果监督”信号，容易导致“奖励黑客”（模型写出可运行但脆弱的代码）。而编程任务需要过程监督——用户的接受、拒绝、补全、撤销、追问等交互信号，这些只有在 coding agent 运行环境中才能诞生。
on-policy 数据的稀缺性：策略梯度定理要求优化样本最好由当前模型自己产生（on-policy 数据）。通过蒸馏别家模型或使用他人产品的 off-policy 数据，无法学到内部概率分布，一旦推理偏离便可能出错。
Cursor 实时强化学习案例：Cursor 的 Composer 2 模型基于 Kimi K2.5 底座，但 3/4 的算力来自自研训练。其核心创新是“实时强化学习”：将模型 checkpoint 直接部署到真实 Cursor 生产环境，收集用户反馈，最快每 5 小时迭代一次。该功能 Tab 每日处理超 4 亿次请求，采用在线 RL，拒绝率降低 21%，接受率提高 28%。这表明即使不自研基座，拥有 coding agent 产品仍可通过数据飞轮 RL 出超越基座的专有模型。
行业证据：在 SWE-bench 等权威榜单上，霸榜前十的模型（Claude、GPT、Gemini、Kimi）均拥有自有的 coding agent 产品。反例（如 DeepSeek）在更接近真实场景的 SWE-bench Pro 上分数大幅下降（从 70% 降至 15%）。OpenRouter 数据显示 Claude 的 token 80% 用于编程，而 DeepSeek 主要用于闲聊，印证了缺乏 coding agent 的厂商在真实工程任务上的劣势。
Anthropic 的相似做法：Anthropic 在论文中披露，他们在自家生产编程环境中训练，即用 Claude Code 的员工交互数据反哺模型。

结论

对于希望掌握顶级编程能力的模型厂商，自建 coding agent 产品已成为确保模型持续进化的核心生命线。缺乏自主 coding 产品意味着无法获取高质量过程监督数据，最终被迫高价购买合作（如 SpaceX）。国内厂商已有布局：字节跳动的 TRAE、阿里巴巴的 Qoder、腾讯的 CodeBuddy、百度的文心快码 Comate、月之暗面的 Kimi Code（CLI 界面）等。Kimi 曾表示 CLI 不会是终局。另一种思路是通过提供 API 服务或 Coding Plan 来获取过程数据，但效率可能不及原生产品。

阅读原文详情

事件概述

核心信息

coding agent 产品的战略必要性

结论

准备好启动您的定制项目了吗？