Gemini 3.1 Flash TTS 发布:引入音频标签实现高保真多语言语音生成

2026/04/16 00:03阅读量 2

Google DeepMind 推出新一代文本转语音模型 Gemini 3.1 Flash TTS,在自然度、表现力和控制精度上显著提升。该模型支持 70 多种语言,首创通过自然语言指令嵌入的“音频标签”技术,允许开发者精细调节语速、语调及场景氛围。所有生成音频均集成 SynthID 隐形水印以标识 AI 来源,目前已在 Google AI Studio、Vertex AI 和 Google Vids 等平台开启预览。

事件概述

Google DeepMind 正式推出 Gemini 3.1 Flash TTS,这是一款旨在提升 AI 语音自然度、表现力与控制精度的新一代文本转语音(TTS)模型。该模型于 2026 年 4 月 15 日启动分发,标志着 AI 语音生成技术在多语言支持与细粒度控制方面的重大突破。

核心性能与基准

  • 自然度与质量:在 Artificial Analysis 的 TTS 排行榜中,Gemini 3.1 Flash TTS 获得了 1,211 的 Elo 评分,该榜单基于数千次盲测人类偏好评估。模型被评价为在“高质量语音生成”与“低成本”之间实现了理想平衡。
  • 多语言支持:原生支持 70+ 种语言,涵盖全球主要市场,能够处理复杂的口音与本地化表达。
  • 多角色对话:具备原生的多说话人对话能力,支持不同角色间的自然互动。

部署渠道与安全机制

  • 可用平台
    • 开发者:通过 Gemini API 和 Google AI Studio 提供预览版。
    • 企业用户:在 Vertex AI 平台开启预览。
    • Workspace 用户:可通过 Google Vids 直接使用。
  • 安全水印:所有由 Gemini 3.1 Flash TTS 生成的音频均嵌入了 SynthID 隐形水印。该技术将水印直接交织在音频输出中,用于可靠地检测 AI 生成内容,从而辅助防止虚假信息传播。

开发者体验

Google AI Studio 提供了可配置的控件,使开发者能够像导演一样掌控语音生成过程。早期测试者反馈显示,音频标签技术将简单的文本转化为高保真的语音表演,显著提升了创意实现的精准度。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。