阿里发布Fun-ASR1.5:单模型支持30语种及方言,强化古诗词识别
2026/04/20 14:34阅读量 4
阿里巴巴于4月20日发布端到端语音识别大模型Fun-ASR1.5,该模型无需预设语种标签即可高精度识别30种语言。相比前代版本,1.5版新增覆盖中文七大方言体系及二十余种地方口音,并专项优化了古诗词诵读的识别能力。此前Fun-ASR1.0已应用于钉钉AI听记等硬件,新版本的升级将把应用场景拓展至跨国企业、国际会议及县域政务服务等领域。
事件概述
4月20日,阿里巴巴正式推出端到端语音识别大模型 Fun-ASR1.5。该模型在架构上实现了无需预设语种标签即可进行多语言识别的突破。
核心信息
- 多语言能力:单一模型即可高精度识别全球 30种语言,打破了传统模型需针对特定语种单独训练的限制。
- 方言与口音覆盖:全新版本重点强化了中文场景,覆盖 中文七大方言体系 及 二十余种地方口音。
- 专项识别优化:针对 古诗词诵读 进行了专项识别能力的强化,提升了在传统文化场景下的准确率。
- 技术演进:基于此前已投入应用的 Fun-ASR1.0(曾用于钉钉AI听记、DingTalk A1录音机等智能硬件)进行升级迭代。
应用前景
Fun-ASR1.5的发布标志着语音识别技术在复杂场景下的进一步落地,主要应用场景包括:
- 跨国企业与国际会议:解决多语言实时转写需求。
- 多语直播:提升跨语言内容的自动化处理能力。
- 县域政务服务:通过方言识别降低沟通门槛。
- 教育领域:特别是古诗词教学与诵读评估场景。
