火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

网易有道开源Confucius4-TTS：14语种零样本语音克隆，无需参考文本即可复刻任意音色

2026/06/23 13:57阅读量 2

网易有道发布Confucius4-TTS语音合成模型，首次实现无需参考文本的14语种零口音跨语种语音克隆。模型仅需3秒音频即可克隆音色，支持情感迁移，并已通过Apache开源协议开放54G完整权重，开发者可本地部署商用。

事件概述

网易有道正式推出“子曰4.0”大模型体系下的TTS语音合成引擎——Confucius4-TTS，并已面向全球开源。该模型采用1.3B参数，在零样本语音克隆、跨语种无痕音色迁移和情感复刻方面实现突破，支持14种语言的自然流利表达，且不依赖参考文本即可完成语音克隆。

核心信息

零样本克隆：用户仅需3秒音频即可完成克隆，音色相似度超85%，任务准确度达97%。
14语种覆盖：支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语，跨语种发音无口音——用户上传中文音频，AI能以该音色流利说出日语、英语等外语，发音地道。
情感迁移：支持音频Prompt情感克隆，系统自动提取参考音频中的情感标签并精准复刻语调、韵律，且能跨语种无损迁移。
技术架构：采用GPT式语义大模型为主干，搭配SSL预训练特征和ECAPA-TDNN说话人编码器，使用Flow Matching流匹配生成框架，替代传统HiFi-GAN声码器和Speaker ID查表方案。
开源信息：采用Apache开源协议，完整模型权重与配套工具链已开放，54G资源包可本地下载部署，商用无限制。GitHub地址已公开。

值得关注

社区实测反馈积极：技术博主@dsd2077测试日语人声生成中文语音，整体听感自然流畅；@XAMTO_AI评价“你拿中文声音去讲日语，听着就像地道日本人说话，彻底告别外国口音”。
模型可广泛应用于多语种内容创作、数字人配音、跨语言教学及本地化运营等场景。
网易有道表示，通过全量开源降低语音克隆和情感合成的门槛，期待社区探索更多应用。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例