OpenAI连发三款语音模型:实时推理、翻译、转写全面升级
OpenAI发布GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三款音频模型。GPT-Realtime-2具备GPT-5级推理能力,上下文窗口提升至128K;GPT-Realtime-Translate支持70+语言实时翻译;GPT-Realtime-Whisper提供低延迟转写。Zillow等企业测试显示任务成功率大幅提升,OpenAI正加速语音AI商业化。
事件概述
2026年5月8日,OpenAI发布三款面向开发者的实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。这是OpenAI在语音AI领域的又一次重要迭代,从早期的体验功能转向企业级API服务。
核心模型详解
GPT-Realtime-2:面向实时语音Agent场景,是首个具备“GPT-5级推理”的语音模型。支持128K上下文窗口(上一代为32K),可处理复杂请求、调用外部工具、处理中途打断,并维持长会话上下文。定价按token计费,音频输入32美元/百万token,输出64美元/百万token。模型支持可调推理强度:低强度优先保证响应速度,高强度用于复杂任务。在Big Bench Audio上性能比前代高15.2%,在Audio MultiChallenge上高13.8%。
GPT-Realtime-Translate:实时语音到语音翻译,支持70多种输入语言翻译为13种输出语言。自动识别输入语言并输出翻译后的语音和文本,适用于直播、电话、视频会议等场景。支持广播式(讲座、财报电话会)和对话式(呼叫中心、视频通话)两类应用。定价0.034美元/分钟。
GPT-Realtime-Whisper:实时流式语音转写,可在说话时生成字幕、会议记录。定价0.017美元/分钟,是三款门槛最低的模型。
企业应用案例
美国房地产平台Zillow正在测试GPT-Realtime-2用于住房咨询语音助手,在对抗性测试中,电话任务成功率从69%提升至95%,且Fair Housing合规表现更稳定。旅行平台Priceline利用该模型处理航班、酒店预订等长链查询。德国电信将其用于客服系统。此外,视频平台Vimeo、企业知识管理工具Glean、客服软件Intercom、语音Agent创业公司BolnaAI等也已接入该系列模型。
商业与市场影响
OpenAI此举将语音AI能力全面推向API市场和企业工作流。当前语音AI赛道竞争激烈:ElevenLabs年化收入超5亿美元、估值110亿美元;Deepgram估值13亿美元,服务1300多家客户;Cartesia完成6400万美元A轮融资,其Sonic模型延迟低至90毫秒、支持42种语言。行业趋势已从早期“声音自然度”竞争转向实时低延迟(首段语音低于100毫秒成为新基线),OpenAI凭借完整模型栈和统一开发者平台试图占据优势。
OpenAI CEO Sam Altman在X上表示,GPT-Realtime-2进入API是“相当大的一步前进”,并承诺将继续改进ChatGPT的语音体验。
