GPT-5.4实测：原生电脑操控亮眼，但复杂任务仍受环境细节掣肘

2026/03/09 15:06阅读量 31

OpenAI发布GPT-5.4，在知识工作和原生计算机操控能力上表现突出，OSWorld桌面操控成功率达75%超越人类平均水平。实测显示其在处理大规模数据清洗、代码分析及数学建模框架搭建等任务时具备较强能力，但在应对中文编码、文件路径等现实环境细节时仍会出错。其Pro版本虽能胜任高难度压力面试等场景，但高昂的推理成本（180美元/百万token）和较长的响应时间限制了即时应用。

事件概述

2026年3月5日，OpenAI正式发布 GPT-5.4，旨在对标 Anthropic 的 Claude Opus 4.6 和 Google 的 Gemini 3.1 Pro。该模型被定位为 OpenAI 首个具备原生计算机使用能力的通用模型，并在桌面自主操作任务上实现了超越人类专家的表现。

核心能力数据

知识工作 (Knowledge Work)：在 GDPval 基准测试中，覆盖 44 种真实职业场景，GPT-5.4 在 83% 的比较中表现与行业专业人员持平或更优。
原生计算机操控：
- OSWorld 桌面操控成功率为 75%，高于官方宣称的人类平均水平（72.4%）。
- 支持通过截图直接发出鼠标键盘指令，也能生成 Playwright 代码进行操作。
编程与推理：虽然编程能力被部分评测认为略逊于竞品，但在结合知识工作时展现出显著优势；推理能力方面，Google 目前领跑，Anthropic 在编程领域压制明显。

实测表现分析

本次测试接入第三方 API 调用 Codex 进行三项核心任务验证：

1. 深度知识工作与数据处理

任务：下载并清洗 262 万行数据，生成包含 5 张图表的分析报告及 PDF。
结果：模型展现了智能纠错能力。当发现 data.gov 提供的“全量下载”链接失效后，主动切换至 CFPB 官方开放 API 分块拉取数据。最终在约 10 分钟内完成数据清洗（补全 600 万缺失值、标准化日期）、图表绘制及报告生成。

2. 高阶编程与代码分析

任务：分析一个 2 万行代码的 PySide6 项目，绘制函数调用图、定位性能瓶颈并推断作者风格。
结果：成功画出清晰的 Mermaid 调用图，准确识别出三个因冗余设计导致的性能瓶颈函数。模型不仅能理解代码逻辑，还能通过分析代码结构反推作者的工程习惯和性格倾向，显示出对代码“人感”的理解。

3. 复杂长链条任务（数学建模）

任务：完成 2024 年数学建模国赛 C 题，涉及多地块规划、作物轮作及论文撰写。
结果：模型成功搭建了 PuLP 混合整数线性规划模型并完成了论文骨架（摘要、假设、建模等）。然而，在处理 Windows PowerShell 中文编码、文件名读取及 LaTeX 公式换行等现实环境细节时多次报错，最终需人工干预将文件名改为 ASCII 字符才能跑通流程。
结论：GPT-5.4 能构建 70 分的完整框架并解决前半段难题，但离“直接交付高分竞赛论文”仍有距离，需人工辅助处理细节。

关于 GPT-5.4 Pro 的观察

能力上限：在高压缩、高质量输出场景下表现优异。例如在模拟对 Sam Altman 进行产品经理岗位的压力面试时，模型进行了长达 22 分钟 46 秒的深度思考，输出质量远超普通版。
成本与效率：
- 价格：180 美元/百万 token，约为 Claude 的 7.2 倍。
- 延迟：简单指令可能触发长时间思考（如安装 CUDA 问题耗时近 70 分钟），导致实际交互体验存在明显等待期。

总结

GPT-5.4 在代码能力和人感交互上表现稳健，原生电脑操控能力是其最大亮点，能够独立完成复杂的跨应用操作流程。但在面对非标准化的现实环境（如编码格式、文件系统限制）时，其鲁棒性仍有提升空间。Pro 版本适合高价值、容错率低的专业场景，但高昂的成本和长延迟使其难以成为日常高频工具。

阅读原文详情