智源王仲远:世界模型是具身智能的未来,VLA仍有价值

2026/06/15 09:50阅读量 2

智源研究院院长王仲远在专访中指出,世界模型是AI从数字世界进入物理世界的下一代基座模型,当前技术路线尚未收敛,真正的世界模型需要具备物理正确、因果推理、长时间序列一致性及通用泛化能力。VLA在当下仍有用,但长期需靠世界模型突破。世界模型与具身智能类似2012年的深度学习阶段,仍需3-5年才能爆发。

事件概述

智源研究院院长王仲远近期接受专访,深入解读了世界模型(World Model)与具身智能的关系、当前技术路线分化、关键能力要求及未来落地路径。王仲远认为,世界模型是AI从数字世界进入物理世界必须面对的下一代基座模型,但当前仍处于类似深度学习2012年的早期阶段。

核心观点

世界模型四条主流技术路线

  1. 以语言为中心(如Gemini3):通过语言思考并描述下一状态,具备规划决策能力,但学到的是语言描述的世界。
  2. 以像素为中心(如Sora):适合视频生成,但不懂物理因果。
  3. 以三维结构为中心(如World Labs的Marble):瞄准数字世界仿真,但3D结构不等于物理状态。
  4. 以视觉表征为中心(如LeCun的V-JEPA系列):预测视觉表征压缩,但视觉嵌入演化不等于物理规律演化。

智源研究院尝试第五个方向:以语言和视觉为中心,融合进统一的潜空间表征。所有模态压缩进同一潜空间,再由不同解码器按需输出。王仲远认为,语言是人类知识的载体,放弃语言等于放弃积累的物理常识。

真正世界模型必备能力

  • 物理正确:必须符合真实物理规律(如重力、流体),不能生成“会飞上天的猪”。
  • 动作因果可溯:模型需理解动作与结果之间的关系(如杯子有无盖子掉落时的不同后果)。
  • 长时间序列一致性:能连续描述状态变化,而非儿秒短视频。
  • 通用泛化能力:能作为基座模型应用于具身、物理仿真、科学预测等多种场景。

世界模型与具身智能的关系

王仲远判断:“VLA是当下,世界模型是未来。”VLA在特定场景(如工厂分拣)有效,但存在泛化不足、长程任务弱、物理规律理解差等局限。世界模型要解决更底层的问题:基于当前状态预测未来,做出最优决策(类似《奇异博士》预视不同未来)。他期待世界模型最终成为真正的机器人大脑,但这是一个长期过程,可能需要三年甚至更长时间。

当前阶段与差距

世界模型大致处在深度学习2012年前后的阶段:数据孤岛、路线未定、benchmark未收敛。数据是核心难点,尤其是真实物理世界数据(交互数据、动作轨迹、执行反馈等)严重缺乏;仿真数据虽有用,但精度存疑。未来可能需要混合互联网数据、视频数据、仿真数据、真实机器人数据等训练。

在竞争关键点方面,王仲远认为:模型能否具备真实物理可验证能力、长时序一致性、因果逻辑推断,以及能否作为通用基座模型在不同场景微调应用。世界模型路线尚未收敛,中国与海外站在同一起跑线。大模型算力基础设施、训练框架可复用,但Action/State的采集、表达、训练是新的挑战。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。