阶跃 StepAudio 2.5 TTS 登顶 Artificial Analysis 中国语音模型榜首,全球前三

2026/05/09 18:29阅读量 65

5 月 9 日,Artificial Analysis Speech Arena Leaderboard 更新,阶跃 StepAudio 2.5 TTS 跻身全球前三,成为中国排名最高的语音生成模型。该榜单采用盲测 Elo 评分机制,强调真实用户听感。阶跃同步发布了 ASR 与 Realtime 模型,并已在吉利银河 M9 等车型实现量产落地。

事件概述

2026 年 5 月 9 日,全球权威 TTS 评测榜单 Artificial Analysis Speech Arena Leaderboard 更新,阶跃语音生成模型 StepAudio 2.5 TTS 位列全球第三,成为当前榜单排名最高的中国大模型。

核心信息

  • 评测机制:该榜单采用盲测 Elo 评分机制,用户在不知模型身份的情况下对同一文本生成的两段语音进行听感判断,覆盖客服、知识分享、数字助手、娱乐等真实场景。StepAudio 2.5 TTS 的领先并非仅参数指标提升,而是在真实用户听感中表现更自然、更接近真人。
  • 模型系列:阶跃近期发布 StepAudio 2.5 系列,包括 TTS(高自然度语音生成)、ASR(高速高精度识别)和 Realtime(实时语音交互)三款模型。其中 Realtime 模型强调“有活人感”的 AI 聊天搭子,具备副语言能力、千万人设自定义等特点。
  • 其他战绩:阶跃开源的原生推理语音模型 Step Audio R1.1 已连续 4 个月霸榜 Artificial Analysis Speech Reasoning,目前仍居全球第一;开源模型 Step Audio EditX 为 zero-shot TTS,仅用 3 秒复刻的音色效果可打败许多闭源 TTS 模型主音色,目前位列 Artificial Analysis Speech Arena Leaderboard 开源榜全球第二。
  • 商业化落地:阶跃语音模型已在多个终端场景规模化商业落地,例如搭载吉利银河 M9,实现端到端语音大模型量产上车;为整车智能体超级 Eva 提供语音交互能力,首发搭载极氪 8X 也已量产上市。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。