网易有道开源Confucius4-TTS:14语种零样本语音克隆,无需参考文本即可复刻任意音色
2026/06/23 13:57阅读量 2
网易有道发布Confucius4-TTS语音合成模型,首次实现无需参考文本的14语种零口音跨语种语音克隆。模型仅需3秒音频即可克隆音色,支持情感迁移,并已通过Apache开源协议开放54G完整权重,开发者可本地部署商用。
事件概述
网易有道正式推出“子曰4.0”大模型体系下的TTS语音合成引擎——Confucius4-TTS,并已面向全球开源。该模型采用1.3B参数,在零样本语音克隆、跨语种无痕音色迁移和情感复刻方面实现突破,支持14种语言的自然流利表达,且不依赖参考文本即可完成语音克隆。
核心信息
- 零样本克隆:用户仅需3秒音频即可完成克隆,音色相似度超85%,任务准确度达97%。
- 14语种覆盖:支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语,跨语种发音无口音——用户上传中文音频,AI能以该音色流利说出日语、英语等外语,发音地道。
- 情感迁移:支持音频Prompt情感克隆,系统自动提取参考音频中的情感标签并精准复刻语调、韵律,且能跨语种无损迁移。
- 技术架构:采用GPT式语义大模型为主干,搭配SSL预训练特征和ECAPA-TDNN说话人编码器,使用Flow Matching流匹配生成框架,替代传统HiFi-GAN声码器和Speaker ID查表方案。
- 开源信息:采用Apache开源协议,完整模型权重与配套工具链已开放,54G资源包可本地下载部署,商用无限制。GitHub地址已公开。
值得关注
- 社区实测反馈积极:技术博主@dsd2077测试日语人声生成中文语音,整体听感自然流畅;@XAMTO_AI评价“你拿中文声音去讲日语,听着就像地道日本人说话,彻底告别外国口音”。
- 模型可广泛应用于多语种内容创作、数字人配音、跨语言教学及本地化运营等场景。
- 网易有道表示,通过全量开源降低语音克隆和情感合成的门槛,期待社区探索更多应用。
