Apple ML Research 推出 StereoFoley：首个实现视频感知对象立体声生成的端到端框架

2026/04/28 08:00阅读量 3

Apple Machine Learning Research 发布了 StereoFoley，这是一个能从视频中生成语义对齐、时间同步且空间准确的 48kHz 立体声音频的框架。针对现有模型缺乏专业混音数据导致无法实现对象感知立体声成像的问题，研究团队构建了一套结合视频分析、目标跟踪和动态声像控制的合成数据生成管线。该框架在语义准确性和同步性上达到最先进水平，并通过引入新的立体声对象感知度指标及人类听觉实验验证了其有效性。

事件概述

Apple Machine Learning Research 提出了 StereoFoley，这是首个面向视频生成对象感知的立体声音频（Object-Aware Stereo Audio Generation）的端到端框架。该框架能够生成与视频内容语义对齐、时间同步且空间定位准确的立体声音频，采样率为 48 kHz。

核心挑战与解决方案

尽管现有的生成式视频转音频模型在语义和时间保真度方面表现强劲，但受限于缺乏专业混音且空间准确的视频 - 音频数据集，它们大多仅能生成单声道音频，或无法提供基于对象的立体声声像。

为突破这一瓶颈，研究团队采取了以下技术路径：

基础模型训练：开发并训练了一个从视频生成立体声音频的基础模型，在语义准确性和时间同步性上均达到了当前最先进水平（State-of-the-art）。
合成数据管线：为解决真实数据不足的问题，引入了一套合成数据生成流程。该流程整合了视频分析、目标跟踪以及音频合成技术，通过动态声像控制（dynamic panning）和基于距离的响度控制，实现了空间准确的对象感知声音生成。
微调优化：利用上述合成数据集对基础模型进行微调，显著提升了“对象 - 音频”之间的对应关系清晰度。

评估与验证

由于目前业界尚无成熟的立体声对象感知度评估指标，本研究团队专门引入了新的度量标准，并通过人类听觉实验进行了验证。实验结果表明，新指标与人类的感知结果具有强相关性。

研究意义

StereoFoley 填补了立体声对象感知视频转音频领域的关键空白，为该领域设立了新的基准（Benchmark）。该工作由 Tornike Karchkhadze、Kuan-Lin Chen、Mojtaba Heydari 等作者完成，相关论文发表于 ICASSP 会议（2026年4月），部分研究人员当时任职于 UC San Diego。

关联研究背景

该成果与 Apple 在空间音频领域的其他探索一脉相承，例如此前发布的 ImmerseDiffusion（一种基于空间、时间和环境条件生成三维沉浸式声景的生成式音频模型）以及 Learning Spatially-Aware Language and Audio Embeddings（学习空间感知的语言与音频嵌入），共同推动了机器对声学场景理解的进步。

阅读原文详情

事件概述

核心挑战与解决方案

评估与验证

研究意义

关联研究背景

准备好启动您的定制项目了吗？