后语料时代的分歧:Sutskever和LeCun押注两种截然不同的AI进化路径
2026/07/01 11:04阅读量 2
随着高质量文本语料即将耗尽,AI大模型预训练时代面临终结。Ilya Sutskever创办SSI(估值320亿美元)押注推理模型,通过可验证奖励强化学习在代码、数学等确定性任务中自我进化;Yann LeCun获得10.3亿美元种子轮,押注世界模型,让AI从视频和物理世界互动中学习。两人赌注的核心是“裁判”——谁拥有更好的反馈机制,谁就能让AI继续变强。这标志着AI竞争从数据规模转向任务反馈和场景闭环。
事件概述
Ilya Sutskever(OpenAI前首席科学家)创立的Safe Superintelligence(SSI)在未发布产品情况下完成20亿美元融资,估值达320亿美元。他表示“在做出真正安全的超级智能前不会发布产品”,并认为预训练时代已经终结,未来需靠算法创新。与此同时,Yann LeCun(深度学习三大教父之一)离开Meta后融资10.3亿美元,投前估值35亿美元,押注“世界模型”——AI通过观看视频和与真实世界互动来学习,而非仅靠文本。两人的路线分歧代表后语料时代最核心的技术方向:推理模型 vs. 世界模型。
核心信息
- 语料枯竭现实:Epoch AI估算,公开高质量人类文本语料可能在2026至2032年间被现有训练方法“用完”。同时,互联网上越来越多内容由AI生成,可能导致“模型崩溃”(2024年《自然》研究显示,递归生成数据会放大错误和偏见)。
- Sutskever路线:推理模型+确定性裁判
- 核心方法:可验证奖励强化学习(RLVR),在数学、代码等有明确对错的任务上,AI自我对弈并筛选正确结果。
- 典型成果:OpenAI o1/o3、DeepSeek-R1等推理模型已证明该路线的有效性。
- 局限性:仅适用于能编译成形式逻辑或规则的任务,无法处理审美、常识等模糊性问题。
- LeCun路线:世界模型+物理现实作为裁判
- 核心方法:从大规模视频学习世界表征,再结合机器人数据进行后训练。Meta的V-JEPA 2已展示零样本机器人操作能力。
- 优势:物理定律提供硬性裁判,AI可通过与真实环境交互获得经验。
- 挑战:真实世界数据采集成本高,人形机器人等进展缓慢;高阶判断仍需人类作为模糊性裁判。
- 竞争重心的转移:过去AI公司争夺优质文本数据,未来将争夺“真实任务反馈”。Agent(智能体)成为关键——通过完成订票、写代码等真实任务产生任务轨迹,这些数据比网页文本更有价值。应用公司的护城河不再是模型能力,而是特定场景下的数据闭环(如法律AI记录律师修改、教育AI追踪学生错误模式)。
- 裁判的双重性:确定性裁判(编译、测试通过、棋类胜负)让AI快速进化;模糊性裁判(用户点击、审美、商业决策)反馈主观、滞后,仍需人类介入。AI自我进化将不均匀分布。
值得关注
- 两条路线并非对立,而是接力:确定性裁判先穷尽可验证领域,模糊性裁判和物理世界作为裁判处理剩余问题。硅谷资金同时下注(SSI 320亿美元,LeCun 10.3亿美元),表明市场认为两者均不可忽视。
- 对创业者启示:通用大模型门槛过高,但场景反馈才是新护城河。AI应用价值将从“生成内容”转向“完成结果”,能定义结果并积累数据闭环的公司将拥有定价权。
- 人类角色不会弱化:作为最终极的模糊性裁判,人类的标准、判断和价值观在审美、商业决策等领域不可或缺。
