西湖大学张驰团队提出 WorldForge：零样本相机控制推动视频 AI 从合成转向空间理解

2026/04/22 14:19阅读量 2

西湖大学 AGI Lab 团队在 CVPR 2026 提出 WorldForge，一种无需重新训练即可实现精确相机轨迹控制的视频生成方法。该方法通过推理阶段的约束机制，显著提升了 3D 静态场景和 4D 动态视频的几何一致性与语义真实性，FID 与 FVD 指标分别下降约 20% 和 15%。研究证实了潜在空间通道功能的可分离性，并展示了其在多种基础模型上的通用迁移能力，标志着视频生成技术正从单纯的视觉合成向具备三维结构约束的动态世界建模转变。

事件概述

西湖大学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》，该工作入选 CVPR 2026 Highlight。针对当前视频生成模型缺乏空间结构稳定建模能力、视角变化时物体几何一致性差的问题，团队提出 WorldForge 方法。该方法不依赖额外的模型重训练，而是将相机轨迹作为推理阶段的约束条件，使模型在生成过程中持续对齐同一空间结构，实现了从“二维视觉合成”到“三维结构约束动态世界建模”的范式转变。

核心信息

1. 性能表现与数据验证

研究团队在 3D 静态场景（单图多视角）和 4D 动态视频（输入视频重指定轨迹）任务中进行了广泛测试，主要数据集包括 LLFF、Tanks & Temples、MipNeRF 360、DAVIS 及电影片段等。

3D 静态场景生成：
- 真实感：WorldForge 的 FID 为 96.08（最低），相比 TrajectoryCrafter (111.49) 和 NVS-Solver (118.64) 有显著提升，降幅约 20%。
- 语义一致性：CLIPsim 达到 0.948（最高），优于对比方法。
- 轨迹精度：ATE 为 0.077，RPE-T 为 0.086，RPE-R 为 0.221。相比 ViewCrafter (ATE 0.236)，相机路径误差降低了约 3 倍。
4D 动态视频生成：
- 视频质量：FVD 为 93.17（最低），相比 ViewExtrapolator (108.48) 提升约 15%；CLIP-Vsim 为 0.938（最高）。
- 轨迹控制：ATE 为 0.527，相比 ViewExtrapolator (1.040) 降低近一半，证明了在动态条件下仍能保持稳定的轨迹控制效果。

2. 方法论创新

零样本控制 (Zero Shot)：无需微调模型参数，直接在推理阶段引入相机轨迹约束。
时间调度机制：
- IRR (Iterative Refinement/Correction)：集中作用于生成的前 35%-45% 步骤（约前 20 步），负责建立整体结构和运动趋势，不断修正生成方向以贴近目标相机路径。
- FLF (Feature Layer Filtering)：采用分阶段策略，初期关闭以利用全通道建立全局布局，中后期启用以筛选仅对运动相关通道施加约束，平衡结构稳定性与细节保真度。
模块互补性：消融实验显示，DSG 和 FLF 模块均带来约 10%-20% 的性能提升。若移除 DSG 或 FLF，FID 和 FVD 均显著恶化；若使用传统 CFG 替代 DSG，FID 甚至高达 120.91，证明传统图像生成控制思路不适用于视频任务。

3. 通用性与工程挑战

模型无关性 (Model-Agnostic)：方法成功迁移至不同架构的视频生成模型，包括主模型 Wan2.1 (14B)、轻量级对照模型 SVD 以及 LongCat-Video，证明其不依赖特定模型结构。
硬件成本：主实验基于 Wan2.1 (14B) 模型，需至少 69GB 显存的 GPU，且生成过程采用 50 步采样，目前更适用于高质量离线渲染，尚未达到实时轻量级应用水平。
轨迹泛化：支持圆弧 (arc)、推进 (dolly)、旋转 (orbit) 及自由探索等多种复杂相机运动路径，验证了方法在处理不规则运动时的鲁棒性。

值得关注

理论突破：实验结果（特别是 FLF 模块的表现）进一步证明了潜在空间 (latent space) 内部并非混同不可分，不同通道确实承担着区分明显的功能（如运动信息与外观细节信息的分离）。
行业影响：该技术将视频生成的竞争焦点从“生成更多内容”转向“空间一致性与可控性”。未来有望大幅降低专业摄影门槛，使普通用户仅需一张图片或一段视频即可生成具有电影镜头语言（如环绕、推拉、自由视角）的高质量内容。
团队背景：
- 通讯作者：张驰（西湖大学助理教授、AGI Lab 负责人），连续入选斯坦福全球前 2% 科学家榜单，长期深耕生成式人工智能与多模态智能体研究。
- 第一作者：宋晨曦（西湖大学 AGI Lab 博士后），专注于 3D/4D 场景建模与可控视频生成，博士毕业于吉林大学。

论文地址：https://arxiv.org/pdf/2509.15130

阅读原文详情