有道全面开源“子曰4”多模态与TTS引擎:27B数理SOTA、3秒情感克隆
2026/05/20 18:03阅读量 3
网易有道发布“子曰4.0”大模型,并全面开源其多模态模型与语音合成(TTS)引擎。多模态模型在27B参数下达到视觉数理SOTA,推理成本降低43.2%;TTS引擎支持14种语言、3秒声音克隆,克隆准确度超97%、音色相似度达85%以上。翻译模型同步升级,推理速度提升80%。
事件概述
网易有道宣布“子曰”大模型升级至4.0版本,正式进入全模态时代,支持文本、图片、音频融合交互,并开源核心多模态模型与TTS引擎。
核心信息
- 多模态模型:27B参数规模下,视觉数理能力达SOTA水平,中文纯文本数理难题准确率81.4%。通过精细化思维链重构,推理输出长度压缩43.2%,显著降低推理成本。针对国内学生真实学习场景进行了深度优化。
- TTS引擎:基于“语音编码器+LLM”架构,开源。支持中文、英语、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语共14种语言。可在3秒内完成声音克隆,克隆准确度超97%,音色相似度达85%以上,支持跨语种音色自然迁移且无口音泄露,精准还原情感色彩。
- 翻译模型:收集清洗上亿级多语言数据,采用“多专家OPD”模式与强化学习,解决脱靶和语种混出问题。推理速度提升80%,在文本、图片、文档翻译等场景中兼具速度与质量。
