中山大学梁小丹团队提出事件链因果推理框架,推动视频生成迈向物理正确
2026/03/30 14:36阅读量 2
中山大学梁小丹团队在 CVPR 2026 发表论文,提出基于事件链与关键帧机制的“以事件为中心的因果思维”方法,解决视频生成缺乏物理规律理解的问题。该方法在 PhyGenBench 数据集上取得 0.66 的得分,较此前最优方法提升约 8.19%,尤其在流体和热学场景中表现显著。研究通过引入物理公式约束、构建离散事件序列及关键帧插值,使模型从单纯模拟画面外观转向模拟真实物理演化过程。
事件概述
针对当前视频生成模型(如 Sora、Kling 等)虽具备高视觉质量但缺乏物理逻辑一致性的问题,中山大学梁小丹团队提出了名为《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》的研究工作。该研究旨在让视频生成从“看起来真实”进阶到“物理上正确”,通过显式建模物理过程和因果关系来提升时序与因果一致性。
核心方法:从文本到物理过程的建模
研究摒弃了直接从文本生成图像序列的传统路径,转而采用分阶段的结构化生成流程:
- 物理规律识别与检索:输入文本描述后,模型首先识别其中涉及的物理范畴(如流体力学、热学),并从知识库中检索对应的物理公式作为约束条件。
- 事件链构建(Event Chain):利用 PECR 模块将连续的物理过程拆解为离散的因果事件序列。例如,“蜂蜜倒入杯中”被分解为“开始倒入”、“接触杯壁”、“液体堆积”、“液面上升”等阶段。每个事件包含语义描述、物理参数(如高度、体积变化)及物体空间关系。
- 因果语义提示生成:将离散事件整合为具有明确时间顺序(如“首先...然后...最后”)的自然语言描述,确保逻辑连贯。
- 关键帧视觉锚定:针对每个事件生成对应的关键帧图像,并通过图像编辑技术控制变化幅度(如液体增量),避免随机生成的不稳定性。
- 中间帧插值与扩散生成:在相邻关键帧之间插入中间帧构建连续过渡,最终输入扩散模型生成完整视频。
该架构的核心组件包括物理公式模块、事件分解模块、文本渐进生成模块及关键帧生成模块。消融实验显示,移除关键帧生成模块会导致性能下降约 17%,表明其在维持视觉连续性方面起决定性作用;事件数量控制在 4 个时效果最佳,过少无法表达完整过程,过多则因误差累积导致性能下降。
实验结果与性能评估
研究团队在多个基准数据集上进行了系统评估,验证了方法的有效性:
-
PhyGenBench 数据集(涵盖力学、光学、热学、材料四类场景):
- 整体得分达到 0.66,优于此前最优方法 PhysHPO(0.61),绝对提升 0.05(相对提升约 8.19%)。
- 相比基础视频生成模型优势显著:Kling (0.49)、Gen-3 (0.51)、CogVideoX (0.45),本研究方法相对提升超过 30%。
- 分领域表现:力学 (0.67)、光学 (0.72)、热学 (0.65) 均取得第一,材料方向 (0.60) 接近最高水平。
- 细粒度指标:在物理顺序正确性上提升尤为明显,例如力学场景中从对比方法的 0.53 提升至 0.79(+0.26)。
-
VideoPhy 数据集(688 条复杂交互提示):
- 同时满足语义一致性和物理合理性的比例达到 49.3%,优于此前最优方法(45.9%)。
- 相比 CogVideoX (39.6%) 提升 9.7%,在流体相关场景(如液体流动、蜂蜜倾倒)中提升超过 10%。
实验设置与基线对比
- 模型配置:视频生成 backbone 采用 CogVideoX-5B,分辨率 1360×768,时长 161 帧;语言推理使用 GPT-OSS-20B;图像编辑与关键帧生成使用 Qwen-Image。
- 对比对象:包括通用视频生成模型(Kling, Gen-3)及物理增强模型(DiffPhy, PhysHPO)。
应用前景与局限
- 应用场景:该技术可显著提升短视频创作的真实感、教育场景中物理过程的可视化展示、游戏虚拟世界的沉浸感,以及自动驾驶和机器人训练中的环境模拟精度。
- 当前局限:面对多重物理规律同时作用的复杂场景(如牛顿摆与水爆炸并发),模型仍存在失效风险,组合物理推理能力有待进一步提升。
参考文献
- 论文地址:https://arxiv.org/pdf/2603.09094
- 通讯作者:雷印杰(四川大学教授,国家级青年人才项目入选者)
