GPT-5.4实测:原生电脑操控亮眼,但复杂任务仍受环境细节掣肘
OpenAI发布GPT-5.4,在知识工作和原生计算机操控能力上表现突出,OSWorld桌面操控成功率达75%超越人类平均水平。实测显示其在处理大规模数据清洗、代码分析及数学建模框架搭建等任务时具备较强能力,但在应对中文编码、文件路径等现实环境细节时仍会出错。其Pro版本虽能胜任高难度压力面试等场景,但高昂的推理成本(180美元/百万token)和较长的响应时间限制了即时应用。
事件概述
2026年3月5日,OpenAI正式发布 GPT-5.4,旨在对标 Anthropic 的 Claude Opus 4.6 和 Google 的 Gemini 3.1 Pro。该模型被定位为 OpenAI 首个具备原生计算机使用能力的通用模型,并在桌面自主操作任务上实现了超越人类专家的表现。
核心能力数据
- 知识工作 (Knowledge Work):在 GDPval 基准测试中,覆盖 44 种真实职业场景,GPT-5.4 在 83% 的比较中表现与行业专业人员持平或更优。
- 原生计算机操控:
- OSWorld 桌面操控成功率为 75%,高于官方宣称的人类平均水平(72.4%)。
- 支持通过截图直接发出鼠标键盘指令,也能生成 Playwright 代码进行操作。
- 编程与推理:虽然编程能力被部分评测认为略逊于竞品,但在结合知识工作时展现出显著优势;推理能力方面,Google 目前领跑,Anthropic 在编程领域压制明显。
实测表现分析
本次测试接入第三方 API 调用 Codex 进行三项核心任务验证:
1. 深度知识工作与数据处理
- 任务:下载并清洗 262 万行数据,生成包含 5 张图表的分析报告及 PDF。
- 结果:模型展现了智能纠错能力。当发现 data.gov 提供的“全量下载”链接失效后,主动切换至 CFPB 官方开放 API 分块拉取数据。最终在约 10 分钟内完成数据清洗(补全 600 万缺失值、标准化日期)、图表绘制及报告生成。
2. 高阶编程与代码分析
- 任务:分析一个 2 万行代码的 PySide6 项目,绘制函数调用图、定位性能瓶颈并推断作者风格。
- 结果:成功画出清晰的 Mermaid 调用图,准确识别出三个因冗余设计导致的性能瓶颈函数。模型不仅能理解代码逻辑,还能通过分析代码结构反推作者的工程习惯和性格倾向,显示出对代码“人感”的理解。
3. 复杂长链条任务(数学建模)
- 任务:完成 2024 年数学建模国赛 C 题,涉及多地块规划、作物轮作及论文撰写。
- 结果:模型成功搭建了 PuLP 混合整数线性规划模型并完成了论文骨架(摘要、假设、建模等)。然而,在处理 Windows PowerShell 中文编码、文件名读取及 LaTeX 公式换行等现实环境细节时多次报错,最终需人工干预将文件名改为 ASCII 字符才能跑通流程。
- 结论:GPT-5.4 能构建 70 分的完整框架并解决前半段难题,但离“直接交付高分竞赛论文”仍有距离,需人工辅助处理细节。
关于 GPT-5.4 Pro 的观察
- 能力上限:在高压缩、高质量输出场景下表现优异。例如在模拟对 Sam Altman 进行产品经理岗位的压力面试时,模型进行了长达 22 分钟 46 秒的深度思考,输出质量远超普通版。
- 成本与效率:
- 价格:180 美元/百万 token,约为 Claude 的 7.2 倍。
- 延迟:简单指令可能触发长时间思考(如安装 CUDA 问题耗时近 70 分钟),导致实际交互体验存在明显等待期。
总结
GPT-5.4 在代码能力和人感交互上表现稳健,原生电脑操控能力是其最大亮点,能够独立完成复杂的跨应用操作流程。但在面对非标准化的现实环境(如编码格式、文件系统限制)时,其鲁棒性仍有提升空间。Pro 版本适合高价值、容错率低的专业场景,但高昂的成本和长延迟使其难以成为日常高频工具。
