CVPR 2026 视频模型趋势梳理：从生成下一帧到理解动态世界

2026/05/16 21:23阅读量 2

CVPR 2026上多篇视频模型研究显示，视频AI正从追求视觉质量转向对时间、空间和物理规律的建模。重点包括运动编辑（MotionV2V、3D point tracks）、单图生成环绕视频、自改进文生视频（VISTA）、自适应视频Token化（AdapTok）、长期运动嵌入、频闪去除、热成像信号分离以及地球观测基础模型等，标志着视频智能进入理解动态世界的新阶段。

视频智能正从画面生成走向运动控制、动态建模、信号理解与真实场景应用。研究者不再满足于生成清晰流畅的帧序列，而是试图让模型理解视频中隐含的运动逻辑、3D结构、物理规律和信号来源。以下梳理了CVPR 2026中几项代表性工作。

从改画面到改运动

MotionV2V: Editing Motion in a Video（谷歌、石溪大学）
提出直接编辑视频中的运动。通过将视频运动表示为稀疏轨迹点，用户编辑这些轨迹，系统根据原始轨迹与目标轨迹的差异（motion edit）指导视频扩散模型生成新视频，同时保留原内容。支持物体运动、相机运动、时间控制和连续多次编辑。用户研究中获得约70%偏好率。
论文：https://arxiv.org/pdf/2511.20640v1

Generative Video Motion Editing with 3D Point Tracks（Adobe、马里兰大学帕克分校）
使用3D点轨迹作为统一运动控制表示，同时改变相机运动和物体运动。3D轨迹提供深度信息，帮助判断遮挡关系和真实空间运动。采用两阶段训练：先合成数据学习基础运动控制，再用真实单目视频缩小差距。支持运动迁移、非刚性变形、物体移除等。
论文：https://arxiv.org/pdf/2512.02015v1

Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors（澳大利亚国立大学、亚马逊）
从单张物体图像生成环绕视频。引入3D foundation model的形状先验，提取全局latent vector和体积特征投影，辅助视频扩散模型生成结构稳定、多视角一致的环绕视频。
论文：https://arxiv.org/pdf/2604.12309

VISTA: A Test-Time Self-Improving Video Generation Agent（谷歌、新加坡国立大学）
实现文生视频的测试时自我改进。将用户想法拆分为带时间结构的场景计划，生成候选视频后通过pairwise tournament选出最佳，再由多维度评审智能体提出意见，reasoning agent改写prompt进入下一轮生成。自动评测最高60% pairwise win率，人工评测66.4%偏好率。
论文：https://arxiv.org/pdf/2510.15831

让模型先学会“怎么动”

AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space（上海交通大学、香港中文大学多媒体实验室、上海人工智能实验室OpenGVLab、同济大学、清华大学）
自适应视频tokenization。根据视频内容动态分配token数量，运动剧烈的片段获得更多token。使用1D latent space表示视频，引入temporal causality支持流式处理。在UCF-101和Kinetics-600上提升了重建质量和生成表现。
论文：https://arxiv.org/pdf/2505.17011v2

Learning Long-term Motion Embeddings for Efficient Kinematics Generation（CompVis @ LMU、MCML、苹果）
学习紧凑的长期运动嵌入，从轨迹数据中压缩运动空间，实现64倍时间压缩。在运动latent空间训练conditional flow-matching模型，根据文本或spatial pokes生成长期运动，无需逐帧生成像素。在开放域视频和LIBERO机器人基准上优于轨迹预测方法以及Wan、Veo 3等视频模型基线。
论文：https://arxiv.org/pdf/2604.11737

从修复画面到理解信号来源

It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal（南开大学国际先进研究院、鹏城实验室、南开大学计算机学院、香港理工大学、OPPO研究院）
解决短曝光连拍中的频闪伪影。利用闪烁的周期性和方向性，设计PFM、AFFN和WDAM模块，在BurstDeflicker基准上取得31.226 PSNR、0.920 SSIM、0.045 LPIPS。
论文：https://arxiv.org/pdf/2603.22794v1

Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions（卡内基梅隆大学）
热成像中的发射/反射分离。使用双长波红外子波段视频，利用光谱和时间线索区分物体自身热辐射与背景反射。在酒杯和咖啡壶视频中非校准温度估计误差分别约为1.72%和5.34%。
论文：https://arxiv.org/pdf/2509.11334

让视觉模型进入真实世界任务

Helios: Stable Latent Image Modeling for Multimodal Earth Observation（艾伦人工智能研究所、华盛顿大学、亚利桑那州立大学、不列颠哥伦比亚大学）
面向地球观测的多模态视觉模型，采用稳定潜在图像建模处理时间序列、多源数据和地图标注，旨在提升遥感场景中的理解与推理能力。
论文：原文未提供完整链接

以上工作共同表明，视频模型的竞争重心正在从视觉质量转向对时间、空间和物理规律的建模能力。视频AI的下一步是让模型理解运动从哪里来、结构为什么稳定、信号如何形成，以及复杂场景中的变化如何被预测和控制。

阅读原文详情

从改画面到改运动

让模型先学会“怎么动”

从修复画面到理解信号来源

让视觉模型进入真实世界任务

准备好启动您的定制项目了吗？