OpenAI连发三款语音模型：实时推理、翻译、转写全面升级

2026/05/08 12:59阅读量 214

OpenAI发布GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三款音频模型。GPT-Realtime-2具备GPT-5级推理能力，上下文窗口提升至128K；GPT-Realtime-Translate支持70+语言实时翻译；GPT-Realtime-Whisper提供低延迟转写。Zillow等企业测试显示任务成功率大幅提升，OpenAI正加速语音AI商业化。

事件概述

2026年5月8日，OpenAI发布三款面向开发者的实时音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。这是OpenAI在语音AI领域的又一次重要迭代，从早期的体验功能转向企业级API服务。

核心模型详解

GPT-Realtime-2：面向实时语音Agent场景，是首个具备“GPT-5级推理”的语音模型。支持128K上下文窗口（上一代为32K），可处理复杂请求、调用外部工具、处理中途打断，并维持长会话上下文。定价按token计费，音频输入32美元/百万token，输出64美元/百万token。模型支持可调推理强度：低强度优先保证响应速度，高强度用于复杂任务。在Big Bench Audio上性能比前代高15.2%，在Audio MultiChallenge上高13.8%。

GPT-Realtime-Translate：实时语音到语音翻译，支持70多种输入语言翻译为13种输出语言。自动识别输入语言并输出翻译后的语音和文本，适用于直播、电话、视频会议等场景。支持广播式（讲座、财报电话会）和对话式（呼叫中心、视频通话）两类应用。定价0.034美元/分钟。

GPT-Realtime-Whisper：实时流式语音转写，可在说话时生成字幕、会议记录。定价0.017美元/分钟，是三款门槛最低的模型。

企业应用案例

美国房地产平台Zillow正在测试GPT-Realtime-2用于住房咨询语音助手，在对抗性测试中，电话任务成功率从69%提升至95%，且Fair Housing合规表现更稳定。旅行平台Priceline利用该模型处理航班、酒店预订等长链查询。德国电信将其用于客服系统。此外，视频平台Vimeo、企业知识管理工具Glean、客服软件Intercom、语音Agent创业公司BolnaAI等也已接入该系列模型。

商业与市场影响

OpenAI此举将语音AI能力全面推向API市场和企业工作流。当前语音AI赛道竞争激烈：ElevenLabs年化收入超5亿美元、估值110亿美元；Deepgram估值13亿美元，服务1300多家客户；Cartesia完成6400万美元A轮融资，其Sonic模型延迟低至90毫秒、支持42种语言。行业趋势已从早期“声音自然度”竞争转向实时低延迟（首段语音低于100毫秒成为新基线），OpenAI凭借完整模型栈和统一开发者平台试图占据优势。

OpenAI CEO Sam Altman在X上表示，GPT-Realtime-2进入API是“相当大的一步前进”，并承诺将继续改进ChatGPT的语音体验。

阅读原文详情

事件概述

核心模型详解

企业应用案例

商业与市场影响

准备好启动您的定制项目了吗？