OpenAI 发布 Realtime API 全家桶:GPT-5 推理能力加持,语音助手终于会说“人话”

2026/05/08 08:08阅读量 13

OpenAI 推出了 Realtime API 系列新模型,包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。GPT-Realtime-2 内置 GPT-5 级别的推理能力,支持并行工具调用和自然停顿开场白,大幅提升复杂任务处理能力;GPT-Realtime-Translate 支持 70+ 语言实时翻译;GPT-Realtime-Whisper 实现极低延迟语音转文字。定价方面,GPT-Realtime-Whisper 每分钟 0.017 美元,Translate 每分钟 0.034 美元,GPT-Realtime-2 音频输入 32 美元/百万 token、输出 64 美元/百万 token。

事件概述

OpenAI 发布了 Realtime API 实时语音模型全家桶,核心有三款模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。这些模型旨在让语音交互更自然、更智能,尤其 GPT-Realtime-2 直接植入 GPT-5 的推理能力,能处理多步骤、多工具调用的复杂指令,并与用户进行更人性化的对话。

核心信息

  • GPT-Realtime-2:具备 GPT-5 级推理的语音智能体。基准测试中,Big Bench Audio 得分比上一代高 15.2%,Audio MultiChallenge 高 13.8%。Zillow 内部测试显示调用成功率从 69% 提升至 95%。关键特性包括「并行工具调用」(一边说话一边同时调用多个工具,如地图、日历、租房软件)和「开场白」(处理时主动说“稍等一下”等自然停顿,缓解用户等待焦虑)。开发者可调整推理强度(从 minimal 到 xhigh)。
  • GPT-Realtime-Translate:实时翻译模型,支持 70+ 种输入语言和 13 种输出语言,对浓重口音包容度高(如 BolnaAI 的印地语测试准确率远超竞品)。可实现近乎同步的双向翻译,适合跨国会议、无字幕视频等场景。
  • GPT-Realtime-Whisper:极低延迟的语音转文字模型,可实时生成字幕和会议纪要。
  • 定价:GPT-Realtime-Whisper 每分钟 0.017 美元;GPT-Realtime-Translate 每分钟 0.034 美元;GPT-Realtime-2 按 token 计费,音频输入 32 美元/百万 token,输出 64 美元/百万 token。

值得关注

OpenAI 将 GPT-5 的推理能力直接注入语音模型,使 AI 能理解多条件、多步骤的复杂请求并边执行边自然交互。同时,实时翻译和极低延迟语音转写进一步降低了语言和技术门槛。这标志着语音正从辅助功能向主要交互界面转变,未来可能只需语音即可完成大多数工作和生活操作。

附官方博客:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。