CVPR 2026 世界模型演进：从像素生成到物理与几何建模的范式转移

2026/04/30 10:28阅读量 2

CVPR 2026 展示了视频生成领域从单纯拟合像素分布向构建统一时空与物理规律的世界模型转变。研究重点涵盖 4D 几何控制、长序列流式重建、基于真实数据的可迁移知识学习以及显式物理对齐机制。同时，行业开始建立多维度评测体系以衡量模型的推理、决策及因果一致性能力，推动技术向自动驾驶和具身智能等实际场景落地。

CVPR 2026 世界模型论文全景梳理：从生成到建模的关键转变

事件概述

在 CVPR 2026 中，视觉生成领域的核心范式正经历深刻变革：从传统的“生成看起来真实的结果”转向“建模一个本质上合理的世界”。这一转变旨在解决现有方法在相机运动控制、多物体交互一致性、长时间结构漂移及违背物理规律等方面的根本局限。研究重心已扩展至 3D/4D 几何结构、因果关系、物理一致性及可交互性，并建立了更全面的评估体系。

核心进展：建模范式与控制能力

1. 4D 几何与世界状态统一

VerseCrafter（复旦大学、香港大学、Tencent ARC）：提出基于 4D Geometric Control 的框架，将视频表示为“3D 空间 + 时间”的统一状态。利用静态背景点云描述场景，带时间信息的 3D 高斯轨迹描述动态物体，实现了对相机路径和多物体运动的精确统一控制，显著提升了时序稳定性。
NeoVerse / Neoverse（中科院自动化所、CreateAI）：突破对多视角数据的依赖，提出利用“野外采集的单目视频”构建 4D 世界模型。通过无位姿前馈式重建恢复 3D 结构，支持新视角视频生成及多种下游任务，大幅提升了方法的扩展性与泛化能力。
GeoWorld（ANU、MBZUAI）：将世界模型从欧几里得空间扩展至具有层级结构的几何空间。引入双曲空间（hyperbolic space）表示状态关系，并通过能量模型沿测地线进行推理，有效缓解了长时预测中的误差累积问题。

2. 长序列与流式建模

LongStream（港科大广州、地平线、浙大、中南大学）：针对长序列 3D 重建中的尺度漂移和误差累积问题，提出流式、规范解耦（gauge-decoupled）的视觉几何模型。采用关键帧相对建模策略，将尺度学习与几何预测解耦，支持在严格在线条件下处理上千帧数据，适用于自动驾驶和 AR/VR 场景。
Free-Lunch Long Video Generation（西湖大学）：针对长视频生成的分布外（O.O.D）问题，提出无需重新训练的推理阶段修正框架。通过视频相对位置重编码、分层稀疏注意力及层自适应探测机制，解决了帧间位置超出训练分布及上下文长度限制导致的画质下降问题。

核心进展：物理一致性与知识迁移

1. 物理规律显式建模

ProPhy（中山大学、鹏城实验室）：引入渐进式物理对齐机制，分两阶段将文本语义层面的物理规律对齐到视频具体区域。结合物理专家混合机制与视觉语言模型推理能力，使生成内容在复杂动态场景中遵循真实物理规律。
Chain of Event-Centric Causal Thought（四川大学、港理工、电子科大、阿德莱德大学）：提出以“事件为中心”的生成框架，将物理过程拆解为具有明确因果关系的子事件链。引入物理公式作为约束，并结合跨模态过渡建模，确保生成视频在时间连续性和因果逻辑上的合理性。

2. 可迁移知识与真实世界学习

VideoWorld 2（北京交通大学、字节）：直接从大规模无标注真实视频中学习可迁移的世界知识。模型不依赖人工标注，自主学习物体运动规律、交互关系及时间变化，实现了从“会生成”到“会理解”的跨越，增强了在新场景中的泛化能力。

核心进展：应用驱动与决策规划

1. 自动驾驶与机器人操作

DriveLaW（华中科技大学、小米 EV）：提出统一潜在驾驶世界的框架，将视频生成与运动规划整合在同一过程中。通过在潜在空间直接进行决策推理，避免了预测与决策分离带来的信息损耗，提升了复杂场景下的鲁棒性。
ABot-PhysWorld（AMAP CV Lab）：构建具备物理对齐能力的交互式世界模型，用于机器人操作。基于扩散 Transformer 架构引入物理约束，支持动作可控生成，解决了物体穿透、违背重力等物理错误，实现了视觉真实感与物理合理性的统一。
SimScale（中科院自动化所、港大 OpenDriveLab、小米 EV）：利用真实数据构建可扩展仿真环境，自动生成大量关键危险场景数据。通过真实与仿真数据联合训练，有效解决了自动驾驶中长尾场景稀缺的问题。

2. 零样本控制增强

Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control（西湖大学、南阳理工大学）：提出 WorldForge 框架，无需重新训练即可通过推理阶段优化实现精确相机控制。利用递归优化、光流区分运动与外观、双路径对比机制，解决了控制与质量难以兼顾的问题，支持即插即用。

值得关注：统一评测体系

为解决现有评估标准单一的问题，多项工作提出了系统化的评测框架：

4DWorldBench（中国科学技术大学、浙江大学、北京智源研究院）：建立统一评测标准，涵盖视觉感知质量、条件与 4D 对齐、物理真实感及时空一致性等多个维度，支持多模态输入的直接比较。
WorldLens（WorldBench Team）：面向自动驾驶世界模型，从生成、重建、动作跟随及下游任务表现等多角度进行综合评估，结合人类偏好与自动评估模型，揭示当前模型在不同能力间的权衡关系。