OpenAI正式发布GPT-5.4,整合编程、推理与电脑操控能力

OpenAI正式推出GPT-5.4,将编程、推理、计算机原生操控、网页搜索及百万Token上下文无缝整合至单一模型,显著提升了知识工作、代码生成及系统操作的表现。该模型在多项基准测试中超越人类专家水平,并引入“执行中调整”功能以优化长任务处理体验。尽管其强大的推理能力导致部分用户因简单指令产生高额费用,但整体标志着AI从问答系统向自主完成任务系统的重大转变。

今天过后,这种分裂感终于有了一个答案。 就在刚刚,OpenAI正式发布GPT-5.4,把编程、推理、计算机操控、网页搜索和百万Token上下文全部整合进同一个模型,且没有为了整合而牺牲任何一项的能力。 ![Image 1](https://img.huxiucdn.com/article/content/26-03-06/83aa875a-ca42-4b6d-9316-e1c8ed446d8e.png?imageView2/2/w/1000/format/png/interlace/1/q/85) OpenAI CEO山姆·奥特曼也在X平台发了一条简短推文,点出了五个方向:知识工作更强、网页搜索更出色、原生计算机操控、支持百万Token上下文、响应过程中随时可介入。 ![Image 2](https://img.huxiucdn.com/article/content/26-03-06/30059641-9851-4b61-a988-0129baa96e35.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 寥寥数语,对应的恰好是过去两年AI应用落地中最集中的五个痛点。 ![Image 3](https://img.huxiucdn.com/article/content/26-03-06/b0d986d5-0684-430c-8864-20747ce7ac48.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 知识工作:十次有八次,AI赢了专业人士 理解GPT-5.4在知识工作上的进步,需要先了解GDPval这个基准的设计逻辑。 它横跨美国GDP贡献最大的9个行业、44种职业。任务是那些职场里每天真实发生的工作:给投资银行写财务模型、给医院排急诊班次、给销售团队做演示文稿。 任务完成后,把输出结果交给行业内的真实从业者盲测打分,看AI的产出能赢过多少比例的人类同行。 ![Image 4](https://img.huxiucdn.com/article/content/26-03-06/13bf9433-37d0-42d3-aff4-915801825a12.png?imageView2/2/w/1000/format/png/interlace/1/q/85) GPT-5.4的答案是83.0%,意味着十次对比中有八次以上,行业专业人士认为AI的产出达到或超过了人类同行水准。上代GPT-5.2是70.9%,差距将近13个百分点。 进步在电子表格建模上表现得最为具体。GPT-5.4模拟初级投行分析师完成建模任务,平均得分87.3%,GPT-5.2是68.4%,GPT-5.3-Codex是79.3%,差距将近20个百分点。 ![Image 5](https://img.huxiucdn.com/article/content/26-03-06/36096d41-bada-46ef-8539-2125a2a6d036.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 法律平台Harvey的BigLaw Bench测试结果同样亮眼,GPT-5.4得分91%,专业服务评测平台Mercor的APEX-Agents基准中也拿下了第一。 准确性方面同样值得关注。幻觉问题一直是AI进入专业场景最大的拦路虎,每降低一个百分点,都意味着更多场景可以放心用它。 数据显示,与GPT-5.2相比,GPT-5.4单条陈述出错的概率低了33%,完整回复含有错误的概率低了18%。 编程:一个模型,写代码测代码全包了 GPT-5.4把GPT-5.3-Codex的编程能力整合进主线,对开发者来说,这意味着你不再需要为了写代码单独开一个模型,而且编程能力本身也没有因此打任何折扣。 SWE-Bench Pro专门测试真实软件工程任务,GPT-5.4得分57.7%,GPT-5.3-Codex是56.8%,GPT-5.2是55.6%。整合之后,编程分数不降反升,同时还顺带获得了计算机操控等一整套通用能力,几乎找不到明显的弱点。 ![Image 6](https://img.huxiucdn.com/article/content/26-03-06/47db5b47-756f-4edf-9fc2-5468153c4ae9.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 知名AI评测博主Dan Shipper试用后写道:「这是我们最近一段时间里见过OpenAI最出色的规划能力,代码审查也很强,而且成本大约只有Opus的一半。」 ![Image 7](https://img.huxiucdn.com/article/content/26-03-06/461ef787-5890-482c-88a8-fed507f89ab8.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 他点出了两个具体维度。其一,规划能力是长任务成败的关键,GPT-5.4在任务拆解和持续推进上明显更有条理。其二,与Claude Opus相比约一半的成本,对需要大规模API调用的开发者来说,这个差距在账单上会非常直观。 开启Codex中的/fast模式后,可使GPT‑5.4的token生成速度提升最高1.5倍,使得用户可以在编码、迭代和调试过程中保持流畅的工作状态。 ![Image 8](https://img.huxiucdn.com/article/content/26-03-06/056a770e-6274-4e10-90aa-aca14654fa11.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 与此同时,新推出的实验性功能Playwright Interactive把GPT-5.4的编程体验又推进了一步。 GPT-5.4在构建Web或Electron应用时,能够通过可视化浏览器进行实时调试,模型可以边写代码、边测试自己正在构建的应用,同时承担开发者和测试员两个角色。 OpenAI展示了一个典型案例:仅凭一条轻量提示词,GPT-5.4生成了一个完整的等距视角主题公园模拟游戏,涵盖基于瓦片的路径铺设与景点建设系统、游客AI寻路与排队行为,以及资金、游客数、满意度、清洁度四项指标全部实时动态更新的综合评分。 Playwright Interactive在整个过程中承担了多轮自动化测试,验证路径铺设、摄像机导航、游客响应及UI指标的正确性。从写代码到测试验收,模型全程自己完成。 博主Angel同样用GPT-5.4写了一个Minecraft克隆版,模型花了约24分钟,运行流畅,过程中没有卡住。他在推文里写道「Minecraft基本上被攻克了,我现在得找个新测试了」。 ![Image 9](https://img.huxiucdn.com/article/content/26-03-06/fe0fcd7b-a262-46f1-8cf8-80d5aae0cf54.gif) 沃顿商学院教授Ethan Mollick同样获得了早期访问权限。他用同一条提示词,让GPT-5.4 Pro生成了一个受《皮拉内西》启发的三维空间场景,全程没有报错,只额外追加了一句「把它做得更好」的指令。他随后把结果和两年前GPT-4生成的版本并排放在一起,差距一眼可见。 操控电脑这件事,它现在比你做得好 这是GPT-5.4这次发布里最值得单独说一说的变化。此前OpenAI的计算机操控能力是一个独立模块,跟模型的语言理解、代码生成之间有一道明显的分隔。 两套系统各管各的,信息要来回传递,效率自然打折。现在这道分隔没了,GPT-5.4操控电脑时,用的就是模型本身的推理能力,不需要再绕一圈。 这也是OpenAI第一款将计算机使用(computer use)能力原生内置进通用模型的产品,以后谈AI Agent,相信这会是一个新的起点。 基准测试结果显示,OSWorld-Verified基准测试桌面导航能力,用截图加鼠标键盘交互完成真实操作系统任务。GPT-5.4达到75.0%的成功率,人类基线是72.4%,GPT-5.2是47.3%。 ![Image 10](https://img.huxiucdn.com/article/content/26-03-06/c5253ba6-eabe-4620-bd20-04dfd8fa82.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 简言之,它不仅追上了人类,还超过了人类。 在只用截图模式测试浏览器操控的Online-Mind2Web基准中,GPT-5.4达到92.8%,对比对象ChatGPT Atlas的Agent Mode是70.9%,真实部署案例更能说明问题。Mainstay将GPT-5.4用于约三万个物业税务门户网站的自动表单填写,首次成功率达95%,三次以内成功率100%,而此前同类模型仅在73%至79%之间。会话完成速度提升约三倍,Token消耗降低约70%。 这背后绕不开视觉感知能力的改进。操控电脑说到底是一件需要「看清楚」的事——看清楚界面上有什么、按钮在哪里、点击是否准确。 GPT-5.4在这一层做了专项加强,引入了原始图像(original)输入模式,支持最高1024万像素或6000像素最大边长的高保真图像输入;原有的高清(high)模式上限也从此前的标准提升至256万像素或2048像素最大边长。 工具调用与网页搜索:持续性是核心竞争力 一个复杂的AI Agent系统,背后可能挂着几十个MCP工具。过去的做法是每次对话开始前,把所有工具的说明一股脑塞进去,不管这次用不用得上,Token先花了再说。 GPT-5.4换了个思路:先给模型一份简单的工具清单(即引入工具搜索机制),真正需要用哪个,再去把那个工具的详细说明取过来,用过一次的还能直接缓存,下次不用重新拿。 在250项任务的测试中,启用36个MCP服务器的完整配置下,工具搜索模式在保持准确率完全不变的前提下,将总Token消耗降低了47%。将近一半的成本节省,精度一点没少。 ![Image 11](https://img.huxiucdn.com/article/content/26-03-06/db5025ff-5c14-4c6d-abab-b3ff09bbe630.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 网页搜索方面,GPT-5.4在BrowseComp基准上得分82.7%,比GPT-5.2的65.8%高出17个百分点,Pro版更达到89.3%,创下业界最高分。Zapier CEO评价说,GPT-5.4会在其他模型放弃的地方继续搜索下去,是他们测试过持续性最强的模型。 ![Image 12](https://img.huxiucdn.com/article/content/26-03-06/eb1f474e-3c8f-4dd9-9adc-33f72f6cbeaf.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 百万Token上下文:长长长长长长 GPT-5.4在API中支持最高100万Token的上下文窗口,相当于可以把一个完整项目的所有相关文档一次性塞进同一次对话。 但从测试结果来看,128K至272K是表现最稳定的区间,适合日常使用。 256K以上准确率开始下滑,需要针对具体任务验证后再用。512K至1M区间的得分降至36.6%,目前更接近实验性质,不适合直接用于对精度要求高的生产任务。 ![Image 13](https://img.huxiucdn.com/article/content/26-03-06/d8a8309b-4cd6-4478-a4cc-5468153c4ae9.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 还有一个实际的成本问题需要注意:超过272K的请求会按两倍用量计入配额。也就是说,发一次超长上下文的请求,额度消耗等于两次普通请求,用之前值得想清楚是否真的需要这么长。 至于在视觉抽象推理基准ARC-AGI-2上,GPT-5.4 Pro得分83.3%,而上代GPT-5.2 Pro仅为54.2%。 ![Image 14](https://img.huxiucdn.com/article/content/26-03-06/517a950e-f7de-4c6d-bcc3-14cd14654fa11.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 再比如FrontierMath Tier 4是目前公认最难的数学基准之一,包含50道研究级别的数学题,人类数学家可能需要数周才能解出。GPT-5.4 Pro在这个基准上得分38.0%,上代为31.3%。 ![Image 15](https://img.huxiucdn.com/article/content/26-03-06/05982e07-7444-4428-8261-ef80e9568766.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 这个数字的参照系是:一年前,最好的成绩是o3的2%,目前最好的开源模型是4.2%。 博主Deedy在推文中写道,从2%到38%,「简直令人震惊」。Humanity's Last Exam有工具辅助时,GPT-5.4 Pro得分58.7%,GPT-5.2 Pro是50.0%,差距接近9个百分点。 执行中调整,不是完成后返工 用过AI处理长任务的人大概都有过这种体验:等模型跑完一大段,发现方向不对,只能从头再来,时间全浪费了。 GPT-5.4 Thinking在ChatGPT中新增了一项「中途打断」功能:在处理复杂任务之前,模型会先呈现工作计划概要,再开始执行。用户可以在执行过程中随时介入调整方向,不必等到结果出来再从头重来。 这个功能把纠偏这件事从「完成后」提前到了「执行中」,对需要多轮协作的任务来说,体验差别会比较明显。功能目前已在chatgpt.com和Android应用上线,iOS版本即将跟进。 即日起,GPT-5.4向ChatGPT Plus、Team和Pro用户开放,替代GPT-5.2 Thinking成为默认思考模型。 GPT-5.2 Thinking将保留至今年6月5日后正式退役。Enterprise和Edu用户可由管理员在后台开启早期访问,GPT-5.4 Pro仅对Pro和Enterprise计划开放。 ![Image 16](https://img.huxiucdn.com/article/content/26-03-06/58cf3e7-1ea5-422b-abf5-5311960016af.png?imageView2/2/w/1000/format/png/interlace/1/q/85) API标准版定价为输入2.50美元/百万Token,缓存输入0.25美元/百万Token,输出15美元/百万Token。Pro版为输入30美元/百万Token,输出180美元/百万Token。Batch和Flex处理享标准价格五折,Priority Processing为两倍标准价格。 当然,强大的推理能力也有它的另一面。Hyperbolic联合创始人金宇晨在X平台吐槽,GPT-5.4 Pro是他用过最爱「过度思考」的模型——仅仅发了一句简单的「Hi」,模型就开始认真推理,直接烧掉了80美元。 ![Image 17](https://img.huxiucdn.com/article/content/26-03-06/ba46684d-70ed-4e44-a9a2-eaa8896e00e2.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 这并非个例。推理模型的特性决定了它在处理任何输入时都倾向于深度思考,哪怕问题本身根本不需要。对于日常轻量任务,标准版或许是更合适的选择;Pro版的推理火力,还是留给真正值得的场合更划算。 过去两年,AI能力的讨论主要集中在基准测试成绩上的「聪明」,但GPT-5.4的聪明指向的是能够在真实工作流中,足够可靠地承担责任。 过去AI只能输出文字,人还需要亲自操作才能让事情发生。现在模型可以自己打开浏览器、填写表单、点击按钮、记录结果,独立完成一个有头有尾的任务闭环。 AI正在从一个擅长回答问题的系统,变成一个擅长完成任务的系统。而这个转变的速度,显然比大多数人预期的更快。 ![Image 18](https://img.huxiucdn.com/article/content/26-03-06/03420129-0c67-432c-a7f5-d42ca831ebaa.png?imageView2/2/w/1000/format/png/interlace/1/q/85) 附上参考地址:https://openai.com/index/introducing-gpt-5-4/

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。