面壁智能开源2B语音模型VoxCPM 2:复刻郭德纲贯口,支持30国语言与9种方言

2026/04/08 14:10阅读量 2

面壁智能联合OpenBMB及清华大学发布免费开源的2B参数语音模型VoxCPM 2,该模型成功复刻了高难度的郭德纲《莽撞人》贯口及东北话等方言片段。模型采用扩散自回归连续表征技术,支持48kHz CD音质输出,具备音色可控、多语种演绎及参考音频降噪等核心能力。目前模型已开源权重并提供在线体验工具链,适用于游戏、影视及有声书等领域。

事件概述

国产2B参数开源语音模型 VoxCPM 2(由面壁智能联合 OpenBMB 开源社区、清华大学人机语音交互实验室发布)在近期展示了卓越的多语言与方言处理能力。该模型不仅成功复刻了被公认为难度顶尖的郭德纲《莽撞人》贯口,还实现了四川话、粤语等九种方言及三十门外语的精准演绎。

核心性能与技术突破

  • 音质提升:采样率提升至 48000Hz(CD音质),显著优于市面常见的24000Hz标准,能更好保留原始声音的声学细节与情感基调。
  • 架构创新:摒弃传统的 Token-based 方案,采用 Diffusion Autoregressive Continuous Representation(扩散自回归连续表征)。这种端到端架构实现了隐式语义与声学的解耦,有效避免了语音转换中的信息损失,从而完美还原方言特色与人物音色。
  • 基座优势:基于面壁智能自研的 MiniCPM 基座打造,延续了“小身板、大能量”的特性,在仅2B参数规模下实现了行业领先的表现力。

功能特性与应用场景

  • 多模态演绎:支持同一段语音素材用不同国家语言(如韩语、泰语、西班牙语)或不同方言进行演绎,同时保持原声的情感色彩。
  • 音色控制与克隆
    • 支持自由生成音色设计。
    • 提供 参考音频降噪 功能,可去除背景杂音。
    • 建议上传≥5秒的参考音频以保证克隆质量,支持通过提示词调整情绪和语速(注:无法改变性别)。
  • 精细控制参数
    • 文本规范化:自动处理日期、符号、数字等易读错内容。
    • CFG Value:调节AI对指令的遵循程度与自由发挥空间。
    • LocDiT:平衡生成速度与音频效果。
    • 音效标签:支持 [laughing](笑声)、[sigh](叹气)等标签控制停顿与语气。
  • 部署便捷性:提供从一键上手到大规模部署的全套工具链,支持原生 Torch 推理、LoRA 及全参数微调,并适配多端 UI 扩展。

资源链接

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。