火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

有道全面开源“子曰4”多模态与TTS引擎：27B数理SOTA、3秒情感克隆

2026/05/20 18:03阅读量 3

网易有道发布“子曰4.0”大模型，并全面开源其多模态模型与语音合成（TTS）引擎。多模态模型在27B参数下达到视觉数理SOTA，推理成本降低43.2%；TTS引擎支持14种语言、3秒声音克隆，克隆准确度超97%、音色相似度达85%以上。翻译模型同步升级，推理速度提升80%。

事件概述

网易有道宣布“子曰”大模型升级至4.0版本，正式进入全模态时代，支持文本、图片、音频融合交互，并开源核心多模态模型与TTS引擎。

核心信息

多模态模型：27B参数规模下，视觉数理能力达SOTA水平，中文纯文本数理难题准确率81.4%。通过精细化思维链重构，推理输出长度压缩43.2%，显著降低推理成本。针对国内学生真实学习场景进行了深度优化。
TTS引擎：基于“语音编码器+LLM”架构，开源。支持中文、英语、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语共14种语言。可在3秒内完成声音克隆，克隆准确度超97%，音色相似度达85%以上，支持跨语种音色自然迁移且无口音泄露，精准还原情感色彩。
翻译模型：收集清洗上亿级多语言数据，采用“多专家OPD”模式与强化学习，解决脱靶和语种混出问题。推理速度提升80%，在文本、图片、文档翻译等场景中兼具速度与质量。

开源地址

多模态模型：https://huggingface.co/netease-youdao/Confucius4
TTS模型：https://github.com/netease-youdao/Confucius4-TTS

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例