Gemini 3.5 Live Translate 发布:实时语音翻译更流畅自然

2026/06/09 23:16阅读量 4

Google DeepMind 推出 Gemini 3.5 Live Translate,可实现端到端的实时语音翻译,支持多种语言,延迟低至数百毫秒,并保留说话者语气和情感。该功能已集成至 Gemini 应用,面向 Pro 用户开放。

事件概述

Google DeepMind 于近日发布 Gemini 3.5 Live Translate,这是一项基于 Gemini 3.5 大语言模型的实时语音翻译功能。与传统的分步式翻译(语音识别→文本翻译→语音合成)不同,Live Translate 采用端到端的方式,直接处理原始音频并生成目标语言的语音输出,显著降低了翻译延迟并提高了自然度。

核心信息

  • 技术特点:模型能够感知并保留原说话者的语调、情感和语速,翻译后的语音听起来更自然、富有表现力,而非机械的合成音。
  • 性能表现:翻译延迟通常在数百毫秒内,支持对话场景中的实时交互。支持语言包括英语、西班牙语、法语、德语、日语、中文等多语种。
  • 可用性:该功能已集成至 Gemini 应用(Android/iOS)中,以“Live Translate”模式提供。目前面向 Gemini Advanced 订阅用户开放,未来计划扩展至更多地区。

值得关注

  • 端到端语音翻译代表了多模态 AI 的重要进展,有望降低跨语言交流的门槛。
  • 保留语气和情感的设计提升了翻译的自然度,在商务会议、旅行沟通等场景中有实际价值。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。