中山大学梁小丹团队提出 ProPhy:推动视频生成从视觉拟真迈向物理一致

2026/03/30 14:53阅读量 3

中山大学梁小丹团队在 CVPR 2026 提出 ProPhy 方法,通过分层建模与视觉语言模型(VLM)监督,解决视频生成中“视觉真实但物理错误”的难题。该方法引入语义级(SEB)和细粒度空间级(REB)物理专家模块,使模型能区分不同区域的物理现象并遵循因果规律。实验显示,在 Wan2.1 和 CogVideoX 等模型上,ProPhy 显著提升了物理常识符合度(PC),并在复杂交互场景中表现出更强的动量守恒与流体约束能力。

事件概述

针对当前视频生成模型“视觉逼真但物理逻辑缺失”的痛点,中山大学梁小丹团队提出了 ProPhy (Progressive Physical Alignment for Dynamic World Simulation) 框架。该研究旨在让生成模型从单纯拟合视觉纹理,转向理解并遵循现实世界的物理因果规律,实现从“看起来真实”到“物理上正确”的跨越。

核心机制:分层物理建模与 VLM 监督

ProPhy 的核心创新在于构建了一条从语义到空间的物理建模链路,主要包含以下关键设计:

1. 分层物理专家系统

  • 语义级物理模块 (SEB):负责全局物理分类。内部包含 32 个物理专家(如燃烧、流体、碰撞等),通过路由器为不同场景分配权重,提取文本提示中的宏观物理先验。
  • 细粒度物理模块 (REB):负责 token 级的空间物理建模。每个 token 动态选择 top-k 个专家进行计算,输出空间物理分布图,使模型能识别同一画面中不同区域(如火焰在左、水流在右)的物理属性差异。

2. 视觉语言模型 (VLM) 监督机制

为解决生成模型在“物理定位”上的不足,研究利用 VLM 作为教师提供监督信号:

  • 流程:向 VLM 提问特定物理现象的位置(如“燃烧在哪里”),获取对应的视觉 token 注意力图;通过背景扣除得到纯粹的物理区域矩阵。
  • 作用:将 VLM 的空间理解能力转化为训练信号,指导 REB 学习物理现象在时空中的精确分布。

3. 多目标训练策略

训练过程采用三个损失函数以平衡不同维度的对齐:

  • Lcoarse:语义级对齐,确保同类物理样本表示相似。
  • Lfine-align:空间级对齐,使 token 预测接近 VLM 标注。
  • Lfine-balance:专家平衡,避免少数专家被过度激活。

实验结果与评估

研究采用了专门面向物理合理性的评测体系 VideoPhy2,包含三个关键指标:

  • PC (Physical Commonsense):衡量是否违反基本物理规律(如重力、碰撞)。
  • SA (Semantic Adherence):衡量是否符合文本描述的语义任务。
  • Joint:同时满足 PC 和 SA 的综合指标。

定量表现:

  • Wan2.1 (1.3B) 模型:引入 ProPhy 后,PC 从 57.8 提升至 65.0(提升 7.2),SA 从 30.0 提升至 32.0,Joint 从 24.8 提升至 26.5。PC 的显著提升表明模型大幅减少了物体穿透、水倒流等物理错误。
  • CogVideoX 模型:Joint 指标从约 22.3 提升至 26.7,超越 WISA 和 VideoREPA 等基线方法。
  • HARD 子集(高难度场景):在多物体交互、高速运动等复杂场景下,Joint 指标仍有明显提升(Wan2.1 从 5.6 升至 7.2),证明其在强物理推理场景下的有效性。
  • VBench 质量评估:动态程度从 46.8 提升至 72,总体质量评分从 76.8 提升至 81,说明物理一致性直接改善了视觉自然度。

定性案例:

  • 扬尘场景:传统模型在球未落地时即产生灰尘,ProPhy 仅在接触地面后触发,体现了“接触导致结果”的因果关系。
  • 碰撞场景:ProPhy 能正确表现动量传递,小球受撞击后开始运动,避免了穿透或静止不动的错误。
  • 流体场景:流动行为更符合环境约束,不再出现违反物理规律的异常形态。

局限性与未来方向

尽管 ProPhy 取得了显著进展,研究也指出了当前局限性:

  • 依赖 VLM 标注噪声:物理监督信号源自 VLM,其标注不可避免地存在噪声,可能影响训练效果。
  • 近似模拟而非严格方程:模型目前学习的是物理现象的表层统计模式,尚未基于严格的物理方程进行推理。

未来研究方向包括引入更严格的物理方程约束,以及构建更强的因果建模能力,推动 AI 从经验式学习走向可靠的物理推理。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。