GPT-5.5实测:从“回答问题”转向“执行任务”,AGI雏形初现
2026/04/24 10:22阅读量 2
OpenAI发布最新模型GPT-5.5,其核心定位从单纯的知识问答转向自主规划与执行复杂工作流。基准测试显示,该模型在真实职业任务(GDPval)和操作系统操作(OSWorld)等关键指标上均超越竞品,并创下ARC-AGI-2新纪录。尽管API定价翻倍,但凭借更高的执行效率和更低的Token消耗,OpenAI认为其实际使用成本并未显著增加。
事件概述
OpenAI正式推出当前最强模型 GPT-5.5,标志着大模型能力从“生成答案”向“自主执行”的关键转变。该模型被设计为能够理解模糊的多步骤指令,自主规划路径、调用工具、检索信息、分析数据并操作软件,直至完成任务闭环。目前,GPT-5.5已逐步向 ChatGPT Plus、Pro、团队版及企业版用户开放,API 版本尚未上线。
核心性能数据
GPT-5.5 在多项侧重“任务级评估”的基准测试中表现优异,超越了 GPT-5.4 及主要竞争对手(如 Claude Opus 4.7、Gemini 3.1 Pro):
- GDPval(真实职业任务):得分 84.9%(GPT-5.4 为 83.0%),高于 Claude Opus 4.7 (80.3%) 和 Gemini 3.1 Pro (67.3%)。该测试涵盖数据分析、报告撰写等 44 种真实职业场景。
- OSWorld(操作系统操作):得分 78.7%(GPT-5.4 为 75.0%)。衡量模型在真实电脑环境中点击界面、切换工具及执行多步骤操作的能力。
- Tau2 Telecom(电信客服流程):无需微调即达到 98.0%,展现了对复杂上下文依赖流程的处理能力。
- 编程能力:Terminal-Bench 2.0 得分 82.7%,SWE-Bench Pro 得分 58.6%。
- 知识工作:FinanceAgent 得分 60.0%,内部投行建模任务得分 88.5%,OfficeQA Pro 得分 54.1%。
- AGI 基准:根据 ARC Prize 官方验证,在 ARC-AGI-2 测试中取得 85.0% 准确率,成为新的 SOTA(State of the Art)模型。
效率与成本策略
- Token 效率:虽然 GPT-5.5 的基础响应速度与 GPT-5.4 持平,但在完成同等 Codex 任务时消耗的 Token 明显减少。
- 定价调整:API 定价调整为输入每百万 token 5 美元、输出 30 美元(Pro 版本更高),约为 GPT-5.4 的两倍。OpenAI 方面表示,由于任务完成效率提升,总成本未必上升。
- 安全升级:模型经历了包括红队测试、网络安全及生物高风险能力专项验证在内的完整安全评估,并结合近 200 个真实场景进行了调整。
实际应用场景演示
- 代码工程:在 Codex 中,GPT-5.5 能处理大型任务的上下文保持,自动推理故障原因并贯穿整个代码库进行修复。示例包括利用 WebGL 和 Vite 构建包含真实天体数据的 Web 应用,以及生成基于 Three.js 的 3D 游戏原型(含战斗系统与界面反馈)。
- 办公自动化:在文档、表格及演示文稿生成方面表现优于前代。OpenAI 内部数据显示,超过 85% 的员工每周使用 Codex 进行财务建模、市场分析及产品设计等工作。
- 创意与设计:能够根据单一指令生成高端品牌网站(注重排版与视觉风格)或复杂的 Unity 风格 SVG 动画。
演进趋势分析
GPT-5.5 代表了模型交互模式的根本性变化:
- 统一化:延续了 GPT-4o 的多模态统一思路,将文本、图像、语音及工具调用整合于同一系统。
- 自主化:不再被动等待提问,而是主动判断任务复杂度,决定是否需要调用工具或进行多步推理。
- 执行者角色:从“一次性问答工具”转变为“后台持续运转的系统”。用户只需下达目标,模型即可自主拆解步骤、执行操作并交付结果。
这种转变使得评价标准从“单次回答质量”转向“任务完成的稳定性与效率”,更符合真实工作场景的需求。
