智源王仲远：世界模型是具身智能的未来，VLA仍有价值

2026/06/15 09:50阅读量 2

智源研究院院长王仲远在专访中指出，世界模型是AI从数字世界进入物理世界的下一代基座模型，当前技术路线尚未收敛，真正的世界模型需要具备物理正确、因果推理、长时间序列一致性及通用泛化能力。VLA在当下仍有用，但长期需靠世界模型突破。世界模型与具身智能类似2012年的深度学习阶段，仍需3-5年才能爆发。

事件概述

智源研究院院长王仲远近期接受专访，深入解读了世界模型（World Model）与具身智能的关系、当前技术路线分化、关键能力要求及未来落地路径。王仲远认为，世界模型是AI从数字世界进入物理世界必须面对的下一代基座模型，但当前仍处于类似深度学习2012年的早期阶段。

核心观点

世界模型四条主流技术路线

以语言为中心（如Gemini3）：通过语言思考并描述下一状态，具备规划决策能力，但学到的是语言描述的世界。
以像素为中心（如Sora）：适合视频生成，但不懂物理因果。
以三维结构为中心（如World Labs的Marble）：瞄准数字世界仿真，但3D结构不等于物理状态。
以视觉表征为中心（如LeCun的V-JEPA系列）：预测视觉表征压缩，但视觉嵌入演化不等于物理规律演化。

智源研究院尝试第五个方向：以语言和视觉为中心，融合进统一的潜空间表征。所有模态压缩进同一潜空间，再由不同解码器按需输出。王仲远认为，语言是人类知识的载体，放弃语言等于放弃积累的物理常识。

真正世界模型必备能力

物理正确：必须符合真实物理规律（如重力、流体），不能生成“会飞上天的猪”。
动作因果可溯：模型需理解动作与结果之间的关系（如杯子有无盖子掉落时的不同后果）。
长时间序列一致性：能连续描述状态变化，而非儿秒短视频。
通用泛化能力：能作为基座模型应用于具身、物理仿真、科学预测等多种场景。

世界模型与具身智能的关系

王仲远判断：“VLA是当下，世界模型是未来。”VLA在特定场景（如工厂分拣）有效，但存在泛化不足、长程任务弱、物理规律理解差等局限。世界模型要解决更底层的问题：基于当前状态预测未来，做出最优决策（类似《奇异博士》预视不同未来）。他期待世界模型最终成为真正的机器人大脑，但这是一个长期过程，可能需要三年甚至更长时间。

当前阶段与差距

世界模型大致处在深度学习2012年前后的阶段：数据孤岛、路线未定、benchmark未收敛。数据是核心难点，尤其是真实物理世界数据（交互数据、动作轨迹、执行反馈等）严重缺乏；仿真数据虽有用，但精度存疑。未来可能需要混合互联网数据、视频数据、仿真数据、真实机器人数据等训练。

在竞争关键点方面，王仲远认为：模型能否具备真实物理可验证能力、长时序一致性、因果逻辑推断，以及能否作为通用基座模型在不同场景微调应用。世界模型路线尚未收敛，中国与海外站在同一起跑线。大模型算力基础设施、训练框架可复用，但Action/State的采集、表达、训练是新的挑战。

阅读原文详情