Gemini 3.1 Flash TTS 发布：引入音频标签实现高保真多语言语音生成

2026/04/16 00:03阅读量 169

Google DeepMind 推出新一代文本转语音模型 Gemini 3.1 Flash TTS，在自然度、表现力和控制精度上显著提升。该模型支持 70 多种语言，首创通过自然语言指令嵌入的“音频标签”技术，允许开发者精细调节语速、语调及场景氛围。所有生成音频均集成 SynthID 隐形水印以标识 AI 来源，目前已在 Google AI Studio、Vertex AI 和 Google Vids 等平台开启预览。

事件概述

Google DeepMind 正式推出 Gemini 3.1 Flash TTS，这是一款旨在提升 AI 语音自然度、表现力与控制精度的新一代文本转语音（TTS）模型。该模型于 2026 年 4 月 15 日启动分发，标志着 AI 语音生成技术在多语言支持与细粒度控制方面的重大突破。

核心性能与基准

自然度与质量：在 Artificial Analysis 的 TTS 排行榜中，Gemini 3.1 Flash TTS 获得了 1,211 的 Elo 评分，该榜单基于数千次盲测人类偏好评估。模型被评价为在“高质量语音生成”与“低成本”之间实现了理想平衡。
多语言支持：原生支持 70+ 种语言，涵盖全球主要市场，能够处理复杂的口音与本地化表达。
多角色对话：具备原生的多说话人对话能力，支持不同角色间的自然互动。

部署渠道与安全机制

可用平台：
- 开发者：通过 Gemini API 和 Google AI Studio 提供预览版。
- 企业用户：在 Vertex AI 平台开启预览。
- Workspace 用户：可通过 Google Vids 直接使用。
安全水印：所有由 Gemini 3.1 Flash TTS 生成的音频均嵌入了 SynthID 隐形水印。该技术将水印直接交织在音频输出中，用于可靠地检测 AI 生成内容，从而辅助防止虚假信息传播。

开发者体验

Google AI Studio 提供了可配置的控件，使开发者能够像导演一样掌控语音生成过程。早期测试者反馈显示，音频标签技术将简单的文本转化为高保真的语音表演，显著提升了创意实现的精准度。

阅读原文详情

事件概述

核心性能与基准

部署渠道与安全机制

开发者体验

准备好启动您的定制项目了吗？