中山大学梁小丹团队提出 ProPhy：推动视频生成从视觉拟真迈向物理一致

2026/03/30 14:53阅读量 50

中山大学梁小丹团队在 CVPR 2026 提出 ProPhy 方法，通过分层建模与视觉语言模型（VLM）监督，解决视频生成中“视觉真实但物理错误”的难题。该方法引入语义级（SEB）和细粒度空间级（REB）物理专家模块，使模型能区分不同区域的物理现象并遵循因果规律。实验显示，在 Wan2.1 和 CogVideoX 等模型上，ProPhy 显著提升了物理常识符合度（PC），并在复杂交互场景中表现出更强的动量守恒与流体约束能力。

事件概述

针对当前视频生成模型“视觉逼真但物理逻辑缺失”的痛点，中山大学梁小丹团队提出了 ProPhy (Progressive Physical Alignment for Dynamic World Simulation) 框架。该研究旨在让生成模型从单纯拟合视觉纹理，转向理解并遵循现实世界的物理因果规律，实现从“看起来真实”到“物理上正确”的跨越。

核心机制：分层物理建模与 VLM 监督

ProPhy 的核心创新在于构建了一条从语义到空间的物理建模链路，主要包含以下关键设计：

1. 分层物理专家系统

语义级物理模块 (SEB)：负责全局物理分类。内部包含 32 个物理专家（如燃烧、流体、碰撞等），通过路由器为不同场景分配权重，提取文本提示中的宏观物理先验。
细粒度物理模块 (REB)：负责 token 级的空间物理建模。每个 token 动态选择 top-k 个专家进行计算，输出空间物理分布图，使模型能识别同一画面中不同区域（如火焰在左、水流在右）的物理属性差异。

2. 视觉语言模型 (VLM) 监督机制

为解决生成模型在“物理定位”上的不足，研究利用 VLM 作为教师提供监督信号：

流程：向 VLM 提问特定物理现象的位置（如“燃烧在哪里”），获取对应的视觉 token 注意力图；通过背景扣除得到纯粹的物理区域矩阵。
作用：将 VLM 的空间理解能力转化为训练信号，指导 REB 学习物理现象在时空中的精确分布。

3. 多目标训练策略

训练过程采用三个损失函数以平衡不同维度的对齐：

Lcoarse：语义级对齐，确保同类物理样本表示相似。
Lfine-align：空间级对齐，使 token 预测接近 VLM 标注。
Lfine-balance：专家平衡，避免少数专家被过度激活。

实验结果与评估

研究采用了专门面向物理合理性的评测体系 VideoPhy2，包含三个关键指标：

PC (Physical Commonsense)：衡量是否违反基本物理规律（如重力、碰撞）。
SA (Semantic Adherence)：衡量是否符合文本描述的语义任务。
Joint：同时满足 PC 和 SA 的综合指标。

定量表现：

Wan2.1 (1.3B) 模型：引入 ProPhy 后，PC 从 57.8 提升至 65.0（提升 7.2），SA 从 30.0 提升至 32.0，Joint 从 24.8 提升至 26.5。PC 的显著提升表明模型大幅减少了物体穿透、水倒流等物理错误。
CogVideoX 模型：Joint 指标从约 22.3 提升至 26.7，超越 WISA 和 VideoREPA 等基线方法。
HARD 子集（高难度场景）：在多物体交互、高速运动等复杂场景下，Joint 指标仍有明显提升（Wan2.1 从 5.6 升至 7.2），证明其在强物理推理场景下的有效性。
VBench 质量评估：动态程度从 46.8 提升至 72，总体质量评分从 76.8 提升至 81，说明物理一致性直接改善了视觉自然度。

定性案例：

扬尘场景：传统模型在球未落地时即产生灰尘，ProPhy 仅在接触地面后触发，体现了“接触导致结果”的因果关系。
碰撞场景：ProPhy 能正确表现动量传递，小球受撞击后开始运动，避免了穿透或静止不动的错误。
流体场景：流动行为更符合环境约束，不再出现违反物理规律的异常形态。

局限性与未来方向

尽管 ProPhy 取得了显著进展，研究也指出了当前局限性：

依赖 VLM 标注噪声：物理监督信号源自 VLM，其标注不可避免地存在噪声，可能影响训练效果。
近似模拟而非严格方程：模型目前学习的是物理现象的表层统计模式，尚未基于严格的物理方程进行推理。

未来研究方向包括引入更严格的物理方程约束，以及构建更强的因果建模能力，推动 AI 从经验式学习走向可靠的物理推理。

阅读原文详情