网易有道“子曰4”全量开源:思维链压缩43.2%,多模态与TTS模型同步开放
2026/05/20 18:04阅读量 4
网易有道升级“子曰”大模型至4.0版本,全面支持文本、图片、音频融合交互,并开源多模态模型与语音合成模型。新模型通过精细化思维链重构,将推理输出长度压缩43.2%,有效降低落地成本;翻译模型推理速度提升80%,TTS引擎支持14种语言、3秒克隆原声。
事件概述
网易有道近日宣布“子曰”大模型升级至4.0版本,正式进入全模态时代,支持文本、图片、音频的融合交互,并将核心多模态模型与语音合成(TTS)模型全量开源。
核心信息
- 多模态模型:27B参数规模,面向教育场景,视觉数理能力在同类模型中达到SOTA。中文纯文本数理难题准确率达81.4%。
- 思维链重构:通过大规模优质精简推理样本深度优化,推理思维链输出长度压缩43.2%,用更少Token、更短路径给出答案,大幅降低推理成本。
- 语音合成(TTS)模型:基于“语音编码器+LLM”架构,支持中文、英语、日语、韩语、德语、法语、西班牙语、印尼语、意大利语、泰语、葡萄牙语、俄语、马来语、越南语共14种语言。3秒内完成原声克隆,克隆准确度超97%,音色相似度达85%以上,支持情感合成与跨语种音色迁移。
- 翻译模型:收集清洗上亿级别多语言数据,采用“多专家OPD”模式,引入格式奖励和语言检测机制解决脱靶与语种混出问题。推理速度提升80%。
值得关注
有道此次开源核心模型,降低了开发者在多模态与语音合成领域的应用门槛。同时,通过思维链压缩技术直接降低了实际业务中的推理成本,对教育场景下的高精度、高并发应用具有实际意义。
