Apple 提出 STARFlow-V:基于归一化流的端到端视频生成新范式
Apple Machine Learning Research 发布 STARFlow-V,一种基于归一化流(Normalizing Flows)的端到端视频生成模型,旨在解决扩散模型在视频领域的高计算成本与误差累积问题。该模型通过时空潜在空间中的全局 - 局部架构和创新的流分数匹配技术,实现了高效的自回归视频生成。实验表明,STARFlow-V 在视觉保真度、时间一致性以及采样吞吐量上均展现出优于扩散基线的潜力,为构建世界模型提供了新的研究方向。
事件概述
Apple Machine Learning Research 发布了 STARFlow-V,这是首个证明归一化流(Normalizing Flows, NFs)能够胜任高质量自回归视频生成的研究。尽管归一化流在图像生成领域已取得进展,但在视频生成这一时空复杂度高、计算成本巨大的领域,现有系统几乎完全依赖扩散模型。STARFlow-V 的出现填补了这一空白,展示了其在端到端学习、鲁棒因果预测及原生似然估计方面的显著优势。
核心技术与架构
- 时空潜在空间架构:基于此前提出的 STARFlow,STARFlow-V 在时空潜在空间中运行,采用全局 - 局部架构。该架构将因果依赖性限制在全局潜在空间中,同时保留帧内丰富的局部交互信息。这种设计有效缓解了标准自回归扩散模型中常见的随时间推移产生的误差累积问题。
- 流分数匹配 (Flow-Score Matching):提出了一种轻量级因果去噪器,以自回归方式提升视频生成的一致性。
- 视频感知 Jacobi 迭代:为提高采样效率,采用了视频感知的 Jacobi 迭代方案,将内部更新重构为可并行化的迭代过程,且在不破坏因果性的前提下加速了收敛。
- 通用性:得益于其可逆结构,同一模型原生支持文本到视频(Text-to-Video)、图像到视频(Image-to-Video)以及视频到视频(Video-to-Video)等多种生成任务。
关键结论与影响
-
性能表现:实证结果显示,STARFlow-V 在视觉保真度和时间一致性方面表现强劲,且相对于扩散模型的基线方法,具有更实用的采样吞吐量。
-
行业意义:这是目前已知的首个证据,表明归一化流具备进行高质量自回归视频生成的能力。该成果确立了归一化流作为构建“世界模型”(World Models)的有前景的研究方向,挑战了当前扩散模型在该领域的垄断地位。
-
主要作者:Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Ángel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai。
-
机构:宾夕法尼亚大学、伊利诺伊大学厄巴纳 - 香槟分校,部分工作于 Apple 期间完成。
-
发布时间:2026 年 4 月(CVPR)。
