中山大学梁小丹团队提出事件链因果推理框架，推动视频生成迈向物理正确

2026/03/30 14:36阅读量 37

中山大学梁小丹团队在 CVPR 2026 发表论文，提出基于事件链与关键帧机制的“以事件为中心的因果思维”方法，解决视频生成缺乏物理规律理解的问题。该方法在 PhyGenBench 数据集上取得 0.66 的得分，较此前最优方法提升约 8.19%，尤其在流体和热学场景中表现显著。研究通过引入物理公式约束、构建离散事件序列及关键帧插值，使模型从单纯模拟画面外观转向模拟真实物理演化过程。

事件概述

针对当前视频生成模型（如 Sora、Kling 等）虽具备高视觉质量但缺乏物理逻辑一致性的问题，中山大学梁小丹团队提出了名为《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》的研究工作。该研究旨在让视频生成从“看起来真实”进阶到“物理上正确”，通过显式建模物理过程和因果关系来提升时序与因果一致性。

核心方法：从文本到物理过程的建模

研究摒弃了直接从文本生成图像序列的传统路径，转而采用分阶段的结构化生成流程：

物理规律识别与检索：输入文本描述后，模型首先识别其中涉及的物理范畴（如流体力学、热学），并从知识库中检索对应的物理公式作为约束条件。
事件链构建（Event Chain）：利用 PECR 模块将连续的物理过程拆解为离散的因果事件序列。例如，“蜂蜜倒入杯中”被分解为“开始倒入”、“接触杯壁”、“液体堆积”、“液面上升”等阶段。每个事件包含语义描述、物理参数（如高度、体积变化）及物体空间关系。
因果语义提示生成：将离散事件整合为具有明确时间顺序（如“首先...然后...最后”）的自然语言描述，确保逻辑连贯。
关键帧视觉锚定：针对每个事件生成对应的关键帧图像，并通过图像编辑技术控制变化幅度（如液体增量），避免随机生成的不稳定性。
中间帧插值与扩散生成：在相邻关键帧之间插入中间帧构建连续过渡，最终输入扩散模型生成完整视频。

该架构的核心组件包括物理公式模块、事件分解模块、文本渐进生成模块及关键帧生成模块。消融实验显示，移除关键帧生成模块会导致性能下降约 17%，表明其在维持视觉连续性方面起决定性作用；事件数量控制在 4 个时效果最佳，过少无法表达完整过程，过多则因误差累积导致性能下降。

实验结果与性能评估

研究团队在多个基准数据集上进行了系统评估，验证了方法的有效性：

PhyGenBench 数据集（涵盖力学、光学、热学、材料四类场景）：
- 整体得分达到 0.66，优于此前最优方法 PhysHPO（0.61），绝对提升 0.05（相对提升约 8.19%）。
- 相比基础视频生成模型优势显著：Kling (0.49)、Gen-3 (0.51)、CogVideoX (0.45)，本研究方法相对提升超过 30%。
- 分领域表现：力学 (0.67)、光学 (0.72)、热学 (0.65) 均取得第一，材料方向 (0.60) 接近最高水平。
- 细粒度指标：在物理顺序正确性上提升尤为明显，例如力学场景中从对比方法的 0.53 提升至 0.79（+0.26）。
VideoPhy 数据集（688 条复杂交互提示）：
- 同时满足语义一致性和物理合理性的比例达到 49.3%，优于此前最优方法（45.9%）。
- 相比 CogVideoX (39.6%) 提升 9.7%，在流体相关场景（如液体流动、蜂蜜倾倒）中提升超过 10%。

实验设置与基线对比

模型配置：视频生成 backbone 采用 CogVideoX-5B，分辨率 1360×768，时长 161 帧；语言推理使用 GPT-OSS-20B；图像编辑与关键帧生成使用 Qwen-Image。
对比对象：包括通用视频生成模型（Kling, Gen-3）及物理增强模型（DiffPhy, PhysHPO）。

应用前景与局限

应用场景：该技术可显著提升短视频创作的真实感、教育场景中物理过程的可视化展示、游戏虚拟世界的沉浸感，以及自动驾驶和机器人训练中的环境模拟精度。
当前局限：面对多重物理规律同时作用的复杂场景（如牛顿摆与水爆炸并发），模型仍存在失效风险，组合物理推理能力有待进一步提升。

参考文献

论文地址：https://arxiv.org/pdf/2603.09094
通讯作者：雷印杰（四川大学教授，国家级青年人才项目入选者）

阅读原文详情