OpenAI 推出新一代语音模型：GPT-Realtime-2、实时翻译与流式转录

2026/05/07 18:00阅读量 66

OpenAI 在 API 中新增三个音频模型：具备 GPT-5 级推理的 GPT-Realtime-2、支持 70+ 输入语言实时翻译的 GPT-Realtime-Translate，以及低延迟流式转录模型 GPT-Realtime-Whisper。新模型增强了工具调用、上下文管理、语音情感控制等能力，已在 Zillow、Deutsche Telekom 等企业测试中取得显著效果。

事件概述

OpenAI 于 2026 年 5 月 7 日宣布在 API 中推出三个新音频模型，旨在帮助开发者构建更自然、智能的实时语音应用。这三个模型分别是：

GPT-Realtime-2：首个具备 GPT-5 级推理能力的实时语音模型，可处理复杂请求并自然推进对话。
GPT-Realtime-Translate：实时翻译模型，支持 70+ 种输入语言和 13 种输出语言，翻译过程与说话者保持同步。
GPT-Realtime-Whisper：流式语音转文本模型，可在说话同时进行低延迟转录。

核心能力与改进

GPT-Realtime-2 的主要增强包括：

引导语（Preambles）：可在主响应前插入简短短语（如“让我查一下”），提升用户感知。
并行工具调用与可见性：可同时调用多个工具，并以语音提示（如“正在查看日历”）让用户了解进展。
更强恢复能力：在出错时能优雅回应（如“我现在遇到点问题”），避免对话中断。
上下文窗口扩展：从 32K 提升至 128K，支持更长的复杂任务流程。
领域理解增强：更好保留专业术语、专有名词、医疗词汇等。
语调和表达控制：可根据场景调整语气，如冷静、共情或兴奋。
可调节推理努力：提供 minimal、low、medium、high、xhigh 五级推理强度，默认 low，在简单交互中保持低延迟，复杂请求则启用更深度推理。

性能方面：GPT-Realtime-2 (high) 在 Big Bench Audio 音频推理评估中比 GPT-Realtime-1.5 高出 15.2%；GPT-Realtime-2 (xhigh) 在 Audio MultiChallenge 指令跟随评估中提升 13.8%，展现出更强的推理、上下文管理和控制能力。

GPT-Realtime-Translate 支持 70+ 输入语言和 13 输出语言，适用于客户支持、跨境销售、教育、活动等场景。它能在保持语义的同时跟上说话者速度，处理自然语言切换、区域发音和领域特定表达。

GPT-Realtime-Whisper 是流式语音转文本模型，可在说话同时实时生成字幕或会议笔记，使语音可直接用于业务工作流。

合作伙伴反馈

Zillow（SVP & Head of AI, Josh Weisberg）：在复杂语音交互中，GPT-Realtime-2 的工具调用可靠性带来 26 个百分点的呼叫成功提升（经提示优化后 95% vs 69%），并在公平住房合规方面表现更强。
BolnaAI（Co-founder & CTO, Prateek Sachan）：针对印度多语言场景，GPT-Realtime-Translate 在印地语、泰米尔语、泰卢固语中的词错误率比竞品低 12.5%，且任务完成率更高。
Deutsche Telekom、Priceline 等企业正在测试将模型用于实时多语言支持和旅行全流程语音管理。

安全与可用性

OpenAI 在原文中提及安全性及定价与可用性部分，但未给出具体细节。模型已通过 API 开放给开发者使用。

阅读原文详情

事件概述

核心能力与改进

合作伙伴反馈

安全与可用性

准备好启动您的定制项目了吗？