面壁智能开源2B语音模型VoxCPM 2：复刻郭德纲贯口，支持30国语言与9种方言

2026/04/08 14:10阅读量 55

面壁智能联合OpenBMB及清华大学发布免费开源的2B参数语音模型VoxCPM 2，该模型成功复刻了高难度的郭德纲《莽撞人》贯口及东北话等方言片段。模型采用扩散自回归连续表征技术，支持48kHz CD音质输出，具备音色可控、多语种演绎及参考音频降噪等核心能力。目前模型已开源权重并提供在线体验工具链，适用于游戏、影视及有声书等领域。

事件概述

国产2B参数开源语音模型 VoxCPM 2（由面壁智能联合 OpenBMB 开源社区、清华大学人机语音交互实验室发布）在近期展示了卓越的多语言与方言处理能力。该模型不仅成功复刻了被公认为难度顶尖的郭德纲《莽撞人》贯口，还实现了四川话、粤语等九种方言及三十门外语的精准演绎。

核心性能与技术突破

音质提升：采样率提升至 48000Hz（CD音质），显著优于市面常见的24000Hz标准，能更好保留原始声音的声学细节与情感基调。
架构创新：摒弃传统的 Token-based 方案，采用 Diffusion Autoregressive Continuous Representation（扩散自回归连续表征）。这种端到端架构实现了隐式语义与声学的解耦，有效避免了语音转换中的信息损失，从而完美还原方言特色与人物音色。
基座优势：基于面壁智能自研的 MiniCPM 基座打造，延续了“小身板、大能量”的特性，在仅2B参数规模下实现了行业领先的表现力。

功能特性与应用场景

多模态演绎：支持同一段语音素材用不同国家语言（如韩语、泰语、西班牙语）或不同方言进行演绎，同时保持原声的情感色彩。
音色控制与克隆：
- 支持自由生成音色设计。
- 提供 参考音频降噪 功能，可去除背景杂音。
- 建议上传≥5秒的参考音频以保证克隆质量，支持通过提示词调整情绪和语速（注：无法改变性别）。
精细控制参数：
- 文本规范化：自动处理日期、符号、数字等易读错内容。
- CFG Value：调节AI对指令的遵循程度与自由发挥空间。
- LocDiT：平衡生成速度与音频效果。
- 音效标签：支持 [laughing]（笑声）、[sigh]（叹气）等标签控制停顿与语气。
部署便捷性：提供从一键上手到大规模部署的全套工具链，支持原生 Torch 推理、LoRA 及全参数微调，并适配多端 UI 扩展。

资源链接

在线体验：https://voxcpm.modelbest.cn/
GitHub 仓库：https://github.com/OpenBMB/VoxCPM/
HuggingFace 地址：https://huggingface.openbmb.com/model/openbmb/VoxCPM2

阅读原文详情

事件概述

核心性能与技术突破

功能特性与应用场景

资源链接

准备好启动您的定制项目了吗？