OpenAI 深夜发布 GPT-5.5：智能体能力跃升，综合性能反超竞品

2026/04/24 19:45阅读量 3

OpenAI 于 4 月 24 日未预告突然发布 GPT-5.5，该模型在 Agent 编程、知识工作及网络安全等核心领域表现卓越。实测数据显示其 Expert-SWE 成功率达 73.1%，Terminal-Bench 评分 82.7%，显著超越 Claude Opus 4.7 和 Gemini 3.1 Pro，同时 Token 消耗降至前代 1/36。尽管任务边界依赖性强且部分编程测试略逊，但其效率与成本的平衡优化标志着 AI 从辅助决策向自主执行的关键转变。

事件概述

OpenAI 于 2026 年 4 月 24 日深夜无预警发布 GPT-5.5 模型。该版本定位为面向实际工作场景的智能体（Agent），主打 Agent 编程、知识工作处理及科学研究支持。目前该模型已面向 ChatGPT Plus、Business 及 Enterprise 用户开放，API 接口随后上线。

核心性能数据

GPT-5.5 在多项权威基准测试中展现出对主要竞争对手的领先优势：

软件工程能力：在 Expert-SWE 测评中成功率为 73.1%，高于上一代 GPT-5.4 的 68.5%。
命令行操作：Terminal-Bench 2.0 评分达到 82.7%，远超 Claude Opus 4.7 的 69.4%。
网络安全：CyberGym 测试得分 81.8%（Opus 4.7 为 73.1%）；CTF 夺旗挑战得分高达 881%（GPT-5.4 为 83.7%）。
编程短板：在 SweetBench Pro 测试中得分为 58.6%，略低于 Opus 4.7 的 64.3%，但 OpenAI 指出该评测存在过拟合现象，不能完全代表真实编程能力。
其他维度：在 GDPval、FrontierMath 及 OSWorld-Verified 等知识任务与真实电脑操作测试中均保持领先。

智能体与工作流升级

GPT-5.5 的核心突破在于实现了从“辅助决策”到“参与执行”的转变，具备全流程自主执行能力：

执行逻辑：能够理解复杂目标、拆解步骤、调用工具并修正过程，最终交付结果。
内部应用案例：OpenAI 财务团队利用该模型完成了 24,771 份税表审核（共 7 万余页），效率提升 200%，比往年提前两年完工。
普及率：公司内部超过 85% 的员工每周跨部门使用集成 GPT-5.5 的 Codex 版本。

成本与效率优化

Token 消耗：相比前代降低至 1/36，大幅减少了资源占用。
API 定价：虽然单价上涨至 5 美元/百万 Token（Pro 版 30 美元），但因效率提升和 Token 消耗锐减，实际使用成本增幅有限。
响应速度：在智能水平大幅提升的同时，真实服务中的响应速度与 GPT-5.4 保持一致，实现了性能与速度的平衡。

局限性与行业影响

任务边界依赖：模型对模糊需求的补全能力较弱，若需求描述不清，不会主动追问或补全，而是严格按现有信息执行。这种特性被评价为“双刃剑”。
竞争格局变化：随着 OpenAI 算力充足带来的体验提升，与其死对头 Anthropic 形成鲜明对比。后者近期因安全丑闻、限流封号及高昂 Token 费用导致用户体验下滑，双方差距正在拉大。

阅读原文详情

事件概述

核心性能数据

智能体与工作流升级

成本与效率优化

局限性与行业影响

准备好启动您的定制项目了吗？