OpenAI发布三款实时语音模型:GPT-5级推理融入语音,同传成本降至每分钟两毛五
2026/05/08 12:35阅读量 68
OpenAI推出GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper三款语音模型。GPT-Realtime-2首次搭载GPT-5级推理,支持128K上下文和并行工具调用;GPT-Realtime-Translate支持70+语言输入,实时同声传译成本仅约0.25元/分钟;GPT-Realtime-Whisper实现低延迟流式转写。三款模型将语音交互从简单问答推向可执行复杂任务的智能界面。
事件概述
OpenAI于2026年5月8日发布三款实时语音模型的API,分别为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,将端到端推理语音、同声传译和流式转写打包在同一套API中。其中GPT-Realtime-2首次将GPT-5级别的推理能力融入语音模型,GPT-Realtime-Translate将同声传译成本降至每分钟约0.25元人民币($0.034/分钟),GPT-Realtime-Whisper实现低延迟语音转录,定价为每分钟约0.12元人民币($0.017/分钟)。
核心信息
1. GPT-Realtime-2
- 首款搭载GPT-5级推理的端到端语音模型,上下文窗口从32K提升至128K,支撑更长对话与复杂任务流。
- 推理强度分5档调节:minimal、low、medium、high、xhigh,默认low。
- 支持并行工具调用,可在说话同时后台调用地图、日历等多工具。
- 引入“Preambles”前置语(如“让我核实一下”),缓解等待焦虑。语气可调(平静、共情、兴奋)。
- 定价:$32/百万音频输入token,$64/百万音频输出token,缓存输入$0.40。
- 性能提升:Big Bench Audio评分96.6%(上代81.4%),Audio MultiChallenge评分48.5%(上代34.7%)。企业实测中,Zillow通话成功率从69%提升至95%。
2. GPT-Realtime-Translate
- 流式同声传译:支持70+种语言输入,13种语言输出,无需等待讲话人说完整句即可实时翻译。
- 定价:$0.034/分钟(约0.25元人民币/分钟),连续翻译8小时成本不到120元。
- 口音与方言包容度高:印度AI公司BolnaAI测试显示,印地语、泰米尔语等口音词错误率(WER)比其他模型低12.5%。
3. GPT-Realtime-Whisper
- 流式实时转录:边说话边输出文字,低延迟speech-to-text。
- 定价:$0.017/分钟(约0.12元/分钟),适用于实时字幕、会议速记、客服通话等。
值得关注
- 对同传行业的冲击:传统人工同声传译英语语种一天费用1.2万-2.1万元,非英语语种1.8万元起,需2-3名译员轮换。而GPT-Realtime-Translate连续翻译8小时成本不到120元,价格差约66倍。基础、高频、标准化的翻译需求将被API大规模替代,人类译员的价值将向上迁移至文化语境、创意表达、法律精确性等机器短期难以替代的领域。
- 快速接入:用户可通过OpenAI Playground直接测试三款模型,无需写代码;开发者可使用官方Codex prompt模板集成至现有项目。
- 使用场景:Zillow等企业已将其应用于复杂语音交互与合规业务场景;个人开发者可搭建语音驱动的浏览器操控、文档生成等应用。
