Gemini 3.5 Live Translate 发布:实时语音翻译更流畅自然
2026/06/09 23:16阅读量 4
Google DeepMind 推出 Gemini 3.5 Live Translate,可实现端到端的实时语音翻译,支持多种语言,延迟低至数百毫秒,并保留说话者语气和情感。该功能已集成至 Gemini 应用,面向 Pro 用户开放。
事件概述
Google DeepMind 于近日发布 Gemini 3.5 Live Translate,这是一项基于 Gemini 3.5 大语言模型的实时语音翻译功能。与传统的分步式翻译(语音识别→文本翻译→语音合成)不同,Live Translate 采用端到端的方式,直接处理原始音频并生成目标语言的语音输出,显著降低了翻译延迟并提高了自然度。
核心信息
- 技术特点:模型能够感知并保留原说话者的语调、情感和语速,翻译后的语音听起来更自然、富有表现力,而非机械的合成音。
- 性能表现:翻译延迟通常在数百毫秒内,支持对话场景中的实时交互。支持语言包括英语、西班牙语、法语、德语、日语、中文等多语种。
- 可用性:该功能已集成至 Gemini 应用(Android/iOS)中,以“Live Translate”模式提供。目前面向 Gemini Advanced 订阅用户开放,未来计划扩展至更多地区。
值得关注
- 端到端语音翻译代表了多模态 AI 的重要进展,有望降低跨语言交流的门槛。
- 保留语气和情感的设计提升了翻译的自然度,在商务会议、旅行沟通等场景中有实际价值。
