李飞飞团队为世界模型“正名”:基于POMDP提出渲染器、模拟器、规划器三大功能分类
2026/06/12 22:10阅读量 2
李飞飞团队针对当前世界模型定义混乱的问题,基于部分可观测马尔可夫决策过程(POMDP)框架,提出世界模型的三大功能类型:渲染器、模拟器、规划器。文章指出三者所需的底层世界知识高度重合,未来将融合为大统一世界模型,最终实现AI的空间智能。
事件概述
2026年6月初,李飞飞与World Labs团队发布最新文章,针对AI领域“世界模型”定义混乱的局面提出功能分类体系。此前(2025年11月),李飞飞曾指出空间智能是AI下一前沿,世界模型是必经之路。
核心信息
问题背景
计算机视觉、机器人、强化学习、生成式AI等不同领域均将自己研究冠以“世界模型”之名,但技术内涵差异极大。语言模型学习文本统计结构,而世界模型钻研时空统计规律(如光线、物理定律、未知视角画面),亟需精确定义。
基于POMDP的技术内核
世界模型的最初定义源于部分可观测马尔可夫决策过程(POMDP),核心是“智能体→行动→状态→观测→智能体”的循环交互机制。智能体无法直接观测完整世界状态,仅能获取局部观测,并基于此做出行动改变世界状态。该循环至今仍是解读世界模型的核心框架。
三大功能类型
- 渲染器:以像素形式输出可供人观看的观测,核心指标为视觉保真度。商业化程度最高,如谷歌Nano Banana已服务数亿用户。但不具备对三维空间结构的显式理解,仅模拟可见画面(如航拍城市楼群完美,但低空视角易现漏洞),无法用于建筑设计或机器人训练。
- 模拟器:输出符合几何、物理、动态真实性的世界状态。服务两类对象:专业用户(建筑师、设计师等)需要精确性;程序(强化学习智能体、机器人控制器、自动驾驶系统)作为训练场。潜在市场规模超万亿美元,覆盖机器人训练、自动驾驶测试、数字孪生、药物研发等领域。面临四大技术难题:标注数据稀缺(相比网络视频低数个数量级)、模实鸿沟、生成几何体结构错误(自相交/尺度错误)、多物理场模拟计算成本高。
- 规划器:给定观测和目标,输出智能体下一步行动。与渲染器互为逆过程(渲染器以行动输入输出观测,规划器以观测输入输出行动),实现感知-行动闭环,是通用机器人自主工作的核心。当前大多成果局限于实验室环境(任务简短、物体种类有限),距离现实部署仍有漫长道路,但全行业已大量押注。
融合趋势与未来方向
业内已形成共识:渲染、模拟、规划三者所需的底层世界知识(几何结构、物理规律、动态演化)高度重合,本质是同一套底层理解的三重投影。近年来已出现交互式渲染器、可控模拟器、主动推演规划器等融合迹象。发展的逻辑终点是大统一世界模型:单个基础模型可按需切换输出模态,实现AI的空间智能——让机器真正理解、构想、推演世界并与之交互。
