智源王仲远:世界模型是通往物理AGI之桥
2026/06/18 19:11阅读量 2
智源研究院在第八届智源大会上发布了悟界·Physis-v0.1(全球首个通用世界基座模型)与悟界·RoboBrain Orca具身大脑,王仲远提出视频生成不等于世界模型,核心在于“预测下一个物理状态”。他认为世界模型是解决具身智能泛化性和物理推理的终局方案,并对当前技术路线进行了四类划分,指出物理理解、时间一致性和行动闭环是主要卡点,同时认为在世界模型赛道上中美没有差距。
事件概述
智源研究院在第八届智源大会上集中发布多项成果,其中包括世界模型方向的悟界·Physis-v0.1(全球首个通用世界基座模型)与悟界·RoboBrain Orca(具身大脑)。王仲远在访谈中系统阐释了世界模型的技术定义、分类、卡点及应用前景。
核心信息
- 世界模型定义与地位:王仲远认为世界模型是面向真实物理世界的下一代基座模型,核心是从“预测下一个Token”转向“预测下一个物理状态”。这是通向物理AGI的必经之路,也是具身智能可行的技术解决方案。
- 技术路线四分类:
- 以语言为中心(如LLM、VLM、VLA)
- 以像素为中心(如Sora,被广泛误用,视频生成不等于世界模型)
- 以三维结构为中心(如World Labs的空间智能)
- 以视觉表征为中心(如JEPA系列)
智源尝试第五类:以潜空间(Latent)表征为中心的融合路线,将全模态信息统一编码为物理状态Token。
- 三大卡点:
- 物理理解:视频模型画面符合但物理规律错误。
- 时间一致性:长时间序列的状态变量必须一致。
- 行动闭环:从“看懂”到“会做”,需要打通多模态感知、物理规律理解和动作执行。
- 数据需求:视频数据是底座(携带物理因果),但还需真实物理交互数据(关节、力矩、触觉等)进行精调。两者缺一不可。
- 与VLA的关系:VLA是阶段性的过渡方案,适用于特定场景,但难以解决泛化性和长程物理推理。世界模型是终局,两者是接力关系。
- 算力与中美差距:智源走的潜空间学习路线极致压缩,算力需求相对可控。王仲远认为在世界模型赛道,中美没有差距,该领域处于非常早期(0.1版本),成熟至少还需三到五年。
