4步出声、单卡0.24秒:AudioX-Turbo开源,音频生成迈入实时可控时代
2026/06/15 14:52阅读量 36
Noiz AI联合港科大、清华推出开源音频大模型AudioX-Turbo,通过分布匹配蒸馏和对抗蒸馏将采样步数从50-200步降至4步,单张RTX 4090生成10秒音频仅需0.24秒。模型支持文本、视频、图像多模态输入,并基于920万带时间戳指令数据集实现精确时序控制,在指令跟随多项指标上大幅超越现有模型。
事件概述
Noiz AI联合香港科技大学、清华大学推出多模态极速音频生成大模型AudioX-Turbo,模型权重、训练及推理代码已全部开源。该模型针对音频生成“慢”和“不可控”两大痛点,将扩散生成步数从50-200步暴降至4步,单张RTX 4090生成10秒音频仅需0.24秒(RTF 0.02),同时首次实现精确时间戳控制。
核心信息
- 极速推理:采用分布匹配对抗蒸馏(DMD + 对抗蒸馏)将Flow Matching框架下的采样步数压缩至4步,并消除CFG额外开销。4步模型音质逼近100步教师模型,部分指标反超。
- 多模态输入:以2.7B参数的Multimodal Diffusion Transformer (MMDiT)为骨干,支持文本、视频、图像等多种模态输入生成音频。
- 强指令数据集:团队构建了约920万样本的IF-caps-Pro数据集,利用Gemini 2.5 Pro生成带时间戳的结构化模板,再用Qwen2-Audio大规模扩写,使模型能正确理解声音类别、数量、先后顺序和精确时间点。
- 指令跟随能力:在自建T2A-bench基准上,AudioX-Turbo在类别、数量、时间戳和顺序任务上大幅超越现有方法(部分指标提升超一倍);在AudioCaps、MusicCaps等标准测试集中音质指标也达到或超越需要50-200步的基线模型。
- 开源:完整代码、预训练模型权重、数据集构造方案均在GitHub和项目主页公开。
值得关注
AudioX-Turbo将音频生成从数秒等待压缩至亚秒级实时,为互动剧配音、游戏引擎实时拟音、AI直播伴奏等低延迟场景提供了技术基础。其开源策略和强指令数据集的发布有望加速音频生成在专业工作流中的落地。
