OpenAI 推出新一代语音模型:GPT-Realtime-2、实时翻译与流式转录

2026/05/07 18:00阅读量 66

OpenAI 在 API 中新增三个音频模型:具备 GPT-5 级推理的 GPT-Realtime-2、支持 70+ 输入语言实时翻译的 GPT-Realtime-Translate,以及低延迟流式转录模型 GPT-Realtime-Whisper。新模型增强了工具调用、上下文管理、语音情感控制等能力,已在 Zillow、Deutsche Telekom 等企业测试中取得显著效果。

事件概述

OpenAI 于 2026 年 5 月 7 日宣布在 API 中推出三个新音频模型,旨在帮助开发者构建更自然、智能的实时语音应用。这三个模型分别是:

  • GPT-Realtime-2:首个具备 GPT-5 级推理能力的实时语音模型,可处理复杂请求并自然推进对话。
  • GPT-Realtime-Translate:实时翻译模型,支持 70+ 种输入语言和 13 种输出语言,翻译过程与说话者保持同步。
  • GPT-Realtime-Whisper:流式语音转文本模型,可在说话同时进行低延迟转录。

核心能力与改进

GPT-Realtime-2 的主要增强包括:

  • 引导语(Preambles):可在主响应前插入简短短语(如“让我查一下”),提升用户感知。
  • 并行工具调用与可见性:可同时调用多个工具,并以语音提示(如“正在查看日历”)让用户了解进展。
  • 更强恢复能力:在出错时能优雅回应(如“我现在遇到点问题”),避免对话中断。
  • 上下文窗口扩展:从 32K 提升至 128K,支持更长的复杂任务流程。
  • 领域理解增强:更好保留专业术语、专有名词、医疗词汇等。
  • 语调和表达控制:可根据场景调整语气,如冷静、共情或兴奋。
  • 可调节推理努力:提供 minimal、low、medium、high、xhigh 五级推理强度,默认 low,在简单交互中保持低延迟,复杂请求则启用更深度推理。

性能方面:GPT-Realtime-2 (high) 在 Big Bench Audio 音频推理评估中比 GPT-Realtime-1.5 高出 15.2%;GPT-Realtime-2 (xhigh) 在 Audio MultiChallenge 指令跟随评估中提升 13.8%,展现出更强的推理、上下文管理和控制能力。

GPT-Realtime-Translate 支持 70+ 输入语言和 13 输出语言,适用于客户支持、跨境销售、教育、活动等场景。它能在保持语义的同时跟上说话者速度,处理自然语言切换、区域发音和领域特定表达。

GPT-Realtime-Whisper 是流式语音转文本模型,可在说话同时实时生成字幕或会议笔记,使语音可直接用于业务工作流。

合作伙伴反馈

  • Zillow(SVP & Head of AI, Josh Weisberg):在复杂语音交互中,GPT-Realtime-2 的工具调用可靠性带来 26 个百分点的呼叫成功提升(经提示优化后 95% vs 69%),并在公平住房合规方面表现更强。
  • BolnaAI(Co-founder & CTO, Prateek Sachan):针对印度多语言场景,GPT-Realtime-Translate 在印地语、泰米尔语、泰卢固语中的词错误率比竞品低 12.5%,且任务完成率更高。
  • Deutsche TelekomPriceline 等企业正在测试将模型用于实时多语言支持和旅行全流程语音管理。

安全与可用性

OpenAI 在原文中提及安全性及定价与可用性部分,但未给出具体细节。模型已通过 API 开放给开发者使用。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。