智源王仲远：世界模型是通往物理AGI之桥

2026/06/18 19:11阅读量 2

智源研究院在第八届智源大会上发布了悟界·Physis-v0.1（全球首个通用世界基座模型）与悟界·RoboBrain Orca具身大脑，王仲远提出视频生成不等于世界模型，核心在于“预测下一个物理状态”。他认为世界模型是解决具身智能泛化性和物理推理的终局方案，并对当前技术路线进行了四类划分，指出物理理解、时间一致性和行动闭环是主要卡点，同时认为在世界模型赛道上中美没有差距。

事件概述

智源研究院在第八届智源大会上集中发布多项成果，其中包括世界模型方向的悟界·Physis-v0.1（全球首个通用世界基座模型）与悟界·RoboBrain Orca（具身大脑）。王仲远在访谈中系统阐释了世界模型的技术定义、分类、卡点及应用前景。

核心信息

世界模型定义与地位：王仲远认为世界模型是面向真实物理世界的下一代基座模型，核心是从“预测下一个Token”转向“预测下一个物理状态”。这是通向物理AGI的必经之路，也是具身智能可行的技术解决方案。
技术路线四分类：
- 以语言为中心（如LLM、VLM、VLA）
- 以像素为中心（如Sora，被广泛误用，视频生成不等于世界模型）
- 以三维结构为中心（如World Labs的空间智能）
- 以视觉表征为中心（如JEPA系列）
  智源尝试第五类：以潜空间（Latent）表征为中心的融合路线，将全模态信息统一编码为物理状态Token。
三大卡点：
- 物理理解：视频模型画面符合但物理规律错误。
- 时间一致性：长时间序列的状态变量必须一致。
- 行动闭环：从“看懂”到“会做”，需要打通多模态感知、物理规律理解和动作执行。
数据需求：视频数据是底座（携带物理因果），但还需真实物理交互数据（关节、力矩、触觉等）进行精调。两者缺一不可。
与VLA的关系：VLA是阶段性的过渡方案，适用于特定场景，但难以解决泛化性和长程物理推理。世界模型是终局，两者是接力关系。
算力与中美差距：智源走的潜空间学习路线极致压缩，算力需求相对可控。王仲远认为在世界模型赛道，中美没有差距，该领域处于非常早期（0.1版本），成熟至少还需三到五年。

阅读原文详情

事件概述

核心信息

准备好启动您的定制项目了吗？