OpenAI正式发布GPT-5.4，整合编程、推理与电脑操控能力

2026/03/06 08:00阅读量 28

OpenAI正式推出GPT-5.4，将编程、推理、计算机原生操控、网页搜索及百万Token上下文无缝整合至单一模型，显著提升了知识工作、代码生成及系统操作的表现。该模型在多项基准测试中超越人类专家水平，并引入“执行中调整”功能以优化长任务处理体验。尽管其强大的推理能力导致部分用户因简单指令产生高额费用，但整体标志着AI从问答系统向自主完成任务系统的重大转变。

今天过后，这种分裂感终于有了一个答案。
就在刚刚，OpenAI正式发布GPT-5.4，把编程、推理、计算机操控、网页搜索和百万Token上下文全部整合进同一个模型，且没有为了整合而牺牲任何一项的能力。

OpenAI CEO山姆·奥特曼也在X平台发了一条简短推文，点出了五个方向：知识工作更强、网页搜索更出色、原生计算机操控、支持百万Token上下文、响应过程中随时可介入。

寥寥数语，对应的恰好是过去两年AI应用落地中最集中的五个痛点。

知识工作：十次有八次，AI赢了专业人士
理解GPT-5.4在知识工作上的进步，需要先了解GDPval这个基准的设计逻辑。
它横跨美国GDP贡献最大的9个行业、44种职业。任务是那些职场里每天真实发生的工作：给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿。
任务完成后，把输出结果交给行业内的真实从业者盲测打分，看AI的产出能赢过多少比例的人类同行。

GPT-5.4的答案是83.0%，意味着十次对比中有八次以上，行业专业人士认为AI的产出达到或超过了人类同行水准。上代GPT-5.2是70.9%，差距将近13个百分点。
进步在电子表格建模上表现得最为具体。GPT-5.4模拟初级投行分析师完成建模任务，平均得分87.3%，GPT-5.2是68.4%，GPT-5.3-Codex是79.3%，差距将近20个百分点。

法律平台Harvey的BigLaw Bench测试结果同样亮眼，GPT-5.4得分91%，专业服务评测平台Mercor的APEX-Agents基准中也拿下了第一。
准确性方面同样值得关注。幻觉问题一直是AI进入专业场景最大的拦路虎，每降低一个百分点，都意味着更多场景可以放心用它。
数据显示，与GPT-5.2相比，GPT-5.4单条陈述出错的概率低了33%，完整回复含有错误的概率低了18%。
编程：一个模型，写代码测代码全包了
GPT-5.4把GPT-5.3-Codex的编程能力整合进主线，对开发者来说，这意味着你不再需要为了写代码单独开一个模型，而且编程能力本身也没有因此打任何折扣。
SWE-Bench Pro专门测试真实软件工程任务，GPT-5.4得分57.7%，GPT-5.3-Codex是56.8%，GPT-5.2是55.6%。整合之后，编程分数不降反升，同时还顺带获得了计算机操控等一整套通用能力，几乎找不到明显的弱点。

知名AI评测博主Dan Shipper试用后写道：「这是我们最近一段时间里见过OpenAI最出色的规划能力，代码审查也很强，而且成本大约只有Opus的一半。」

他点出了两个具体维度。其一，规划能力是长任务成败的关键，GPT-5.4在任务拆解和持续推进上明显更有条理。其二，与Claude Opus相比约一半的成本，对需要大规模API调用的开发者来说，这个差距在账单上会非常直观。
开启Codex中的/fast模式后，可使GPT‑5.4的token生成速度提升最高1.5倍，使得用户可以在编码、迭代和调试过程中保持流畅的工作状态。

与此同时，新推出的实验性功能Playwright Interactive把GPT-5.4的编程体验又推进了一步。
GPT-5.4在构建Web或Electron应用时，能够通过可视化浏览器进行实时调试，模型可以边写代码、边测试自己正在构建的应用，同时承担开发者和测试员两个角色。
OpenAI展示了一个典型案例：仅凭一条轻量提示词，GPT-5.4生成了一个完整的等距视角主题公园模拟游戏，涵盖基于瓦片的路径铺设与景点建设系统、游客AI寻路与排队行为，以及资金、游客数、满意度、清洁度四项指标全部实时动态更新的综合评分。
Playwright Interactive在整个过程中承担了多轮自动化测试，验证路径铺设、摄像机导航、游客响应及UI指标的正确性。从写代码到测试验收，模型全程自己完成。
博主Angel同样用GPT-5.4写了一个Minecraft克隆版，模型花了约24分钟，运行流畅，过程中没有卡住。他在推文里写道「Minecraft基本上被攻克了，我现在得找个新测试了」。

沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他用同一条提示词，让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景，全程没有报错，只额外追加了一句「把它做得更好」的指令。他随后把结果和两年前GPT-4生成的版本并排放在一起，差距一眼可见。
操控电脑这件事，它现在比你做得好
这是GPT-5.4这次发布里最值得单独说一说的变化。此前OpenAI的计算机操控能力是一个独立模块，跟模型的语言理解、代码生成之间有一道明显的分隔。
两套系统各管各的，信息要来回传递，效率自然打折。现在这道分隔没了，GPT-5.4操控电脑时，用的就是模型本身的推理能力，不需要再绕一圈。
这也是OpenAI第一款将计算机使用（computer use）能力原生内置进通用模型的产品，以后谈AI Agent，相信这会是一个新的起点。
基准测试结果显示，OSWorld-Verified基准测试桌面导航能力，用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4达到75.0%的成功率，人类基线是72.4%，GPT-5.2是47.3%。

简言之，它不仅追上了人类，还超过了人类。
在只用截图模式测试浏览器操控的Online-Mind2Web基准中，GPT-5.4达到92.8%，对比对象ChatGPT Atlas的Agent Mode是70.9%，真实部署案例更能说明问题。Mainstay将GPT-5.4用于约三万个物业税务门户网站的自动表单填写，首次成功率达95%，三次以内成功率100%，而此前同类模型仅在73%至79%之间。会话完成速度提升约三倍，Token消耗降低约70%。
这背后绕不开视觉感知能力的改进。操控电脑说到底是一件需要「看清楚」的事——看清楚界面上有什么、按钮在哪里、点击是否准确。
GPT-5.4在这一层做了专项加强，引入了原始图像（original）输入模式，支持最高1024万像素或6000像素最大边长的高保真图像输入；原有的高清（high）模式上限也从此前的标准提升至256万像素或2048像素最大边长。
工具调用与网页搜索：持续性是核心竞争力
一个复杂的AI Agent系统，背后可能挂着几十个MCP工具。过去的做法是每次对话开始前，把所有工具的说明一股脑塞进去，不管这次用不用得上，Token先花了再说。
GPT-5.4换了个思路：先给模型一份简单的工具清单（即引入工具搜索机制），真正需要用哪个，再去把那个工具的详细说明取过来，用过一次的还能直接缓存，下次不用重新拿。
在250项任务的测试中，启用36个MCP服务器的完整配置下，工具搜索模式在保持准确率完全不变的前提下，将总Token消耗降低了47%。将近一半的成本节省，精度一点没少。

网页搜索方面，GPT-5.4在BrowseComp基准上得分82.7%，比GPT-5.2的65.8%高出17个百分点，Pro版更达到89.3%，创下业界最高分。Zapier CEO评价说，GPT-5.4会在其他模型放弃的地方继续搜索下去，是他们测试过持续性最强的模型。

百万Token上下文：长长长长长长
GPT-5.4在API中支持最高100万Token的上下文窗口，相当于可以把一个完整项目的所有相关文档一次性塞进同一次对话。
但从测试结果来看，128K至272K是表现最稳定的区间，适合日常使用。
256K以上准确率开始下滑，需要针对具体任务验证后再用。512K至1M区间的得分降至36.6%，目前更接近实验性质，不适合直接用于对精度要求高的生产任务。

还有一个实际的成本问题需要注意：超过272K的请求会按两倍用量计入配额。也就是说，发一次超长上下文的请求，额度消耗等于两次普通请求，用之前值得想清楚是否真的需要这么长。
至于在视觉抽象推理基准ARC-AGI-2上，GPT-5.4 Pro得分83.3%，而上代GPT-5.2 Pro仅为54.2%。

再比如FrontierMath Tier 4是目前公认最难的数学基准之一，包含50道研究级别的数学题，人类数学家可能需要数周才能解出。GPT-5.4 Pro在这个基准上得分38.0%，上代为31.3%。

这个数字的参照系是：一年前，最好的成绩是o3的2%，目前最好的开源模型是4.2%。
博主Deedy在推文中写道，从2%到38%，「简直令人震惊」。Humanity's Last Exam有工具辅助时，GPT-5.4 Pro得分58.7%，GPT-5.2 Pro是50.0%，差距接近9个百分点。
执行中调整，不是完成后返工
用过AI处理长任务的人大概都有过这种体验：等模型跑完一大段，发现方向不对，只能从头再来，时间全浪费了。
GPT-5.4 Thinking在ChatGPT中新增了一项「中途打断」功能：在处理复杂任务之前，模型会先呈现工作计划概要，再开始执行。用户可以在执行过程中随时介入调整方向，不必等到结果出来再从头重来。
这个功能把纠偏这件事从「完成后」提前到了「执行中」，对需要多轮协作的任务来说，体验差别会比较明显。功能目前已在chatgpt.com和Android应用上线，iOS版本即将跟进。
即日起，GPT-5.4向ChatGPT Plus、Team和Pro用户开放，替代GPT-5.2 Thinking成为默认思考模型。
GPT-5.2 Thinking将保留至今年6月5日后正式退役。Enterprise和Edu用户可由管理员在后台开启早期访问，GPT-5.4 Pro仅对Pro和Enterprise计划开放。

API标准版定价为输入2.50美元/百万Token，缓存输入0.25美元/百万Token，输出15美元/百万Token。Pro版为输入30美元/百万Token，输出180美元/百万Token。Batch和Flex处理享标准价格五折，Priority Processing为两倍标准价格。
当然，强大的推理能力也有它的另一面。Hyperbolic联合创始人金宇晨在X平台吐槽，GPT-5.4 Pro是他用过最爱「过度思考」的模型——仅仅发了一句简单的「Hi」，模型就开始认真推理，直接烧掉了80美元。

这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考，哪怕问题本身根本不需要。对于日常轻量任务，标准版或许是更合适的选择；Pro版的推理火力，还是留给真正值得的场合更划算。
过去两年，AI能力的讨论主要集中在基准测试成绩上的「聪明」，但GPT-5.4的聪明指向的是能够在真实工作流中，足够可靠地承担责任。
过去AI只能输出文字，人还需要亲自操作才能让事情发生。现在模型可以自己打开浏览器、填写表单、点击按钮、记录结果，独立完成一个有头有尾的任务闭环。
AI正在从一个擅长回答问题的系统，变成一个擅长完成任务的系统。而这个转变的速度，显然比大多数人预期的更快。

附上参考地址：https://openai.com/index/introducing-gpt-5-4/

阅读原文详情

准备好启动您的定制项目了吗？