OpenAI 深夜发布 GPT-5.5:智能体能力跃升,综合性能反超竞品

2026/04/24 19:45阅读量 3

OpenAI 于 4 月 24 日未预告突然发布 GPT-5.5,该模型在 Agent 编程、知识工作及网络安全等核心领域表现卓越。实测数据显示其 Expert-SWE 成功率达 73.1%,Terminal-Bench 评分 82.7%,显著超越 Claude Opus 4.7 和 Gemini 3.1 Pro,同时 Token 消耗降至前代 1/36。尽管任务边界依赖性强且部分编程测试略逊,但其效率与成本的平衡优化标志着 AI 从辅助决策向自主执行的关键转变。

事件概述

OpenAI 于 2026 年 4 月 24 日深夜无预警发布 GPT-5.5 模型。该版本定位为面向实际工作场景的智能体(Agent),主打 Agent 编程、知识工作处理及科学研究支持。目前该模型已面向 ChatGPT Plus、Business 及 Enterprise 用户开放,API 接口随后上线。

核心性能数据

GPT-5.5 在多项权威基准测试中展现出对主要竞争对手的领先优势:

  • 软件工程能力:在 Expert-SWE 测评中成功率为 73.1%,高于上一代 GPT-5.4 的 68.5%。
  • 命令行操作:Terminal-Bench 2.0 评分达到 82.7%,远超 Claude Opus 4.7 的 69.4%。
  • 网络安全:CyberGym 测试得分 81.8%(Opus 4.7 为 73.1%);CTF 夺旗挑战得分高达 881%(GPT-5.4 为 83.7%)。
  • 编程短板:在 SweetBench Pro 测试中得分为 58.6%,略低于 Opus 4.7 的 64.3%,但 OpenAI 指出该评测存在过拟合现象,不能完全代表真实编程能力。
  • 其他维度:在 GDPval、FrontierMath 及 OSWorld-Verified 等知识任务与真实电脑操作测试中均保持领先。

智能体与工作流升级

GPT-5.5 的核心突破在于实现了从“辅助决策”到“参与执行”的转变,具备全流程自主执行能力:

  • 执行逻辑:能够理解复杂目标、拆解步骤、调用工具并修正过程,最终交付结果。
  • 内部应用案例:OpenAI 财务团队利用该模型完成了 24,771 份税表审核(共 7 万余页),效率提升 200%,比往年提前两年完工。
  • 普及率:公司内部超过 85% 的员工每周跨部门使用集成 GPT-5.5 的 Codex 版本。

成本与效率优化

  • Token 消耗:相比前代降低至 1/36,大幅减少了资源占用。
  • API 定价:虽然单价上涨至 5 美元/百万 Token(Pro 版 30 美元),但因效率提升和 Token 消耗锐减,实际使用成本增幅有限。
  • 响应速度:在智能水平大幅提升的同时,真实服务中的响应速度与 GPT-5.4 保持一致,实现了性能与速度的平衡。

局限性与行业影响

  • 任务边界依赖:模型对模糊需求的补全能力较弱,若需求描述不清,不会主动追问或补全,而是严格按现有信息执行。这种特性被评价为“双刃剑”。
  • 竞争格局变化:随着 OpenAI 算力充足带来的体验提升,与其死对头 Anthropic 形成鲜明对比。后者近期因安全丑闻、限流封号及高昂 Token 费用导致用户体验下滑,双方差距正在拉大。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。