CVPR 2026 视频模型趋势梳理:从生成下一帧到理解动态世界

2026/05/16 21:23阅读量 2

CVPR 2026上多篇视频模型研究显示,视频AI正从追求视觉质量转向对时间、空间和物理规律的建模。重点包括运动编辑(MotionV2V、3D point tracks)、单图生成环绕视频、自改进文生视频(VISTA)、自适应视频Token化(AdapTok)、长期运动嵌入、频闪去除、热成像信号分离以及地球观测基础模型等,标志着视频智能进入理解动态世界的新阶段。

视频智能正从画面生成走向运动控制、动态建模、信号理解与真实场景应用。研究者不再满足于生成清晰流畅的帧序列,而是试图让模型理解视频中隐含的运动逻辑、3D结构、物理规律和信号来源。以下梳理了CVPR 2026中几项代表性工作。

从改画面到改运动

MotionV2V: Editing Motion in a Video(谷歌、石溪大学)
提出直接编辑视频中的运动。通过将视频运动表示为稀疏轨迹点,用户编辑这些轨迹,系统根据原始轨迹与目标轨迹的差异(motion edit)指导视频扩散模型生成新视频,同时保留原内容。支持物体运动、相机运动、时间控制和连续多次编辑。用户研究中获得约70%偏好率。
论文:https://arxiv.org/pdf/2511.20640v1

Generative Video Motion Editing with 3D Point Tracks(Adobe、马里兰大学帕克分校)
使用3D点轨迹作为统一运动控制表示,同时改变相机运动和物体运动。3D轨迹提供深度信息,帮助判断遮挡关系和真实空间运动。采用两阶段训练:先合成数据学习基础运动控制,再用真实单目视频缩小差距。支持运动迁移、非刚性变形、物体移除等。
论文:https://arxiv.org/pdf/2512.02015v1

Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors(澳大利亚国立大学、亚马逊)
从单张物体图像生成环绕视频。引入3D foundation model的形状先验,提取全局latent vector和体积特征投影,辅助视频扩散模型生成结构稳定、多视角一致的环绕视频。
论文:https://arxiv.org/pdf/2604.12309

VISTA: A Test-Time Self-Improving Video Generation Agent(谷歌、新加坡国立大学)
实现文生视频的测试时自我改进。将用户想法拆分为带时间结构的场景计划,生成候选视频后通过pairwise tournament选出最佳,再由多维度评审智能体提出意见,reasoning agent改写prompt进入下一轮生成。自动评测最高60% pairwise win率,人工评测66.4%偏好率。
论文:https://arxiv.org/pdf/2510.15831

让模型先学会“怎么动”

AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space(上海交通大学、香港中文大学多媒体实验室、上海人工智能实验室OpenGVLab、同济大学、清华大学)
自适应视频tokenization。根据视频内容动态分配token数量,运动剧烈的片段获得更多token。使用1D latent space表示视频,引入temporal causality支持流式处理。在UCF-101和Kinetics-600上提升了重建质量和生成表现。
论文:https://arxiv.org/pdf/2505.17011v2

Learning Long-term Motion Embeddings for Efficient Kinematics Generation(CompVis @ LMU、MCML、苹果)
学习紧凑的长期运动嵌入,从轨迹数据中压缩运动空间,实现64倍时间压缩。在运动latent空间训练conditional flow-matching模型,根据文本或spatial pokes生成长期运动,无需逐帧生成像素。在开放域视频和LIBERO机器人基准上优于轨迹预测方法以及Wan、Veo 3等视频模型基线。
论文:https://arxiv.org/pdf/2604.11737

从修复画面到理解信号来源

It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal(南开大学国际先进研究院、鹏城实验室、南开大学计算机学院、香港理工大学、OPPO研究院)
解决短曝光连拍中的频闪伪影。利用闪烁的周期性和方向性,设计PFM、AFFN和WDAM模块,在BurstDeflicker基准上取得31.226 PSNR、0.920 SSIM、0.045 LPIPS。
论文:https://arxiv.org/pdf/2603.22794v1

Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions(卡内基梅隆大学)
热成像中的发射/反射分离。使用双长波红外子波段视频,利用光谱和时间线索区分物体自身热辐射与背景反射。在酒杯和咖啡壶视频中非校准温度估计误差分别约为1.72%和5.34%。
论文:https://arxiv.org/pdf/2509.11334

让视觉模型进入真实世界任务

Helios: Stable Latent Image Modeling for Multimodal Earth Observation(艾伦人工智能研究所、华盛顿大学、亚利桑那州立大学、不列颠哥伦比亚大学)
面向地球观测的多模态视觉模型,采用稳定潜在图像建模处理时间序列、多源数据和地图标注,旨在提升遥感场景中的理解与推理能力。
论文:原文未提供完整链接

以上工作共同表明,视频模型的竞争重心正在从视觉质量转向对时间、空间和物理规律的建模能力。视频AI的下一步是让模型理解运动从哪里来、结构为什么稳定、信号如何形成,以及复杂场景中的变化如何被预测和控制。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。