OpenAI 推出新一代语音模型:GPT-Realtime-2、实时翻译与流式转录
2026/05/07 18:00阅读量 66
OpenAI 在 API 中新增三个音频模型:具备 GPT-5 级推理的 GPT-Realtime-2、支持 70+ 输入语言实时翻译的 GPT-Realtime-Translate,以及低延迟流式转录模型 GPT-Realtime-Whisper。新模型增强了工具调用、上下文管理、语音情感控制等能力,已在 Zillow、Deutsche Telekom 等企业测试中取得显著效果。
事件概述
OpenAI 于 2026 年 5 月 7 日宣布在 API 中推出三个新音频模型,旨在帮助开发者构建更自然、智能的实时语音应用。这三个模型分别是:
- GPT-Realtime-2:首个具备 GPT-5 级推理能力的实时语音模型,可处理复杂请求并自然推进对话。
- GPT-Realtime-Translate:实时翻译模型,支持 70+ 种输入语言和 13 种输出语言,翻译过程与说话者保持同步。
- GPT-Realtime-Whisper:流式语音转文本模型,可在说话同时进行低延迟转录。
核心能力与改进
GPT-Realtime-2 的主要增强包括:
- 引导语(Preambles):可在主响应前插入简短短语(如“让我查一下”),提升用户感知。
- 并行工具调用与可见性:可同时调用多个工具,并以语音提示(如“正在查看日历”)让用户了解进展。
- 更强恢复能力:在出错时能优雅回应(如“我现在遇到点问题”),避免对话中断。
- 上下文窗口扩展:从 32K 提升至 128K,支持更长的复杂任务流程。
- 领域理解增强:更好保留专业术语、专有名词、医疗词汇等。
- 语调和表达控制:可根据场景调整语气,如冷静、共情或兴奋。
- 可调节推理努力:提供 minimal、low、medium、high、xhigh 五级推理强度,默认 low,在简单交互中保持低延迟,复杂请求则启用更深度推理。
性能方面:GPT-Realtime-2 (high) 在 Big Bench Audio 音频推理评估中比 GPT-Realtime-1.5 高出 15.2%;GPT-Realtime-2 (xhigh) 在 Audio MultiChallenge 指令跟随评估中提升 13.8%,展现出更强的推理、上下文管理和控制能力。
GPT-Realtime-Translate 支持 70+ 输入语言和 13 输出语言,适用于客户支持、跨境销售、教育、活动等场景。它能在保持语义的同时跟上说话者速度,处理自然语言切换、区域发音和领域特定表达。
GPT-Realtime-Whisper 是流式语音转文本模型,可在说话同时实时生成字幕或会议笔记,使语音可直接用于业务工作流。
合作伙伴反馈
- Zillow(SVP & Head of AI, Josh Weisberg):在复杂语音交互中,GPT-Realtime-2 的工具调用可靠性带来 26 个百分点的呼叫成功提升(经提示优化后 95% vs 69%),并在公平住房合规方面表现更强。
- BolnaAI(Co-founder & CTO, Prateek Sachan):针对印度多语言场景,GPT-Realtime-Translate 在印地语、泰米尔语、泰卢固语中的词错误率比竞品低 12.5%,且任务完成率更高。
- Deutsche Telekom、Priceline 等企业正在测试将模型用于实时多语言支持和旅行全流程语音管理。
安全与可用性
OpenAI 在原文中提及安全性及定价与可用性部分,但未给出具体细节。模型已通过 API 开放给开发者使用。
