李飞飞团队为世界模型“正名”：基于POMDP提出渲染器、模拟器、规划器三大功能分类

2026/06/12 22:10阅读量 2

李飞飞团队针对当前世界模型定义混乱的问题，基于部分可观测马尔可夫决策过程（POMDP）框架，提出世界模型的三大功能类型：渲染器、模拟器、规划器。文章指出三者所需的底层世界知识高度重合，未来将融合为大统一世界模型，最终实现AI的空间智能。

事件概述

2026年6月初，李飞飞与World Labs团队发布最新文章，针对AI领域“世界模型”定义混乱的局面提出功能分类体系。此前（2025年11月），李飞飞曾指出空间智能是AI下一前沿，世界模型是必经之路。

核心信息

问题背景

计算机视觉、机器人、强化学习、生成式AI等不同领域均将自己研究冠以“世界模型”之名，但技术内涵差异极大。语言模型学习文本统计结构，而世界模型钻研时空统计规律（如光线、物理定律、未知视角画面），亟需精确定义。

基于POMDP的技术内核

世界模型的最初定义源于部分可观测马尔可夫决策过程（POMDP），核心是“智能体→行动→状态→观测→智能体”的循环交互机制。智能体无法直接观测完整世界状态，仅能获取局部观测，并基于此做出行动改变世界状态。该循环至今仍是解读世界模型的核心框架。

三大功能类型

渲染器：以像素形式输出可供人观看的观测，核心指标为视觉保真度。商业化程度最高，如谷歌Nano Banana已服务数亿用户。但不具备对三维空间结构的显式理解，仅模拟可见画面（如航拍城市楼群完美，但低空视角易现漏洞），无法用于建筑设计或机器人训练。
模拟器：输出符合几何、物理、动态真实性的世界状态。服务两类对象：专业用户（建筑师、设计师等）需要精确性；程序（强化学习智能体、机器人控制器、自动驾驶系统）作为训练场。潜在市场规模超万亿美元，覆盖机器人训练、自动驾驶测试、数字孪生、药物研发等领域。面临四大技术难题：标注数据稀缺（相比网络视频低数个数量级）、模实鸿沟、生成几何体结构错误（自相交/尺度错误）、多物理场模拟计算成本高。
规划器：给定观测和目标，输出智能体下一步行动。与渲染器互为逆过程（渲染器以行动输入输出观测，规划器以观测输入输出行动），实现感知-行动闭环，是通用机器人自主工作的核心。当前大多成果局限于实验室环境（任务简短、物体种类有限），距离现实部署仍有漫长道路，但全行业已大量押注。

融合趋势与未来方向

业内已形成共识：渲染、模拟、规划三者所需的底层世界知识（几何结构、物理规律、动态演化）高度重合，本质是同一套底层理解的三重投影。近年来已出现交互式渲染器、可控模拟器、主动推演规划器等融合迹象。发展的逻辑终点是大统一世界模型：单个基础模型可按需切换输出模态，实现AI的空间智能——让机器真正理解、构想、推演世界并与之交互。

阅读原文详情