被困在考场里的大模型：高分低能，真实场景才是未来

2026/05/29 23:10阅读量 2

大模型在静态代码评测中表现优异，但在真实企业IT运维场景中能力不足，存在高分低能现象。行业评测已从静态榜单转向ITBench-AA等真实环境测试，要求AI独立排查微服务故障。结果显示，头部模型如Claude Opus 4.7和GPT-5.5得分仍未超过50%，Gemini 3.1 Pro因过度操作得分不足30%。AI距离独立解决复杂企业级问题仍有显著差距，行业正回归实际能力比拼。

事件概述

大模型在标准化代码评测（如HumanEval、SWE-bench）中得分节节攀升，但在真实企业生产场景中常常“卡壳”。原因在于静态榜单的“无菌考场”环境与现实中的混乱、非标准化代码（所谓“屎山”）之间存在巨大鸿沟。行业已认识到这一问题，并从2025年下半年起转向更贴近实际工作场景的评测体系。

核心信息

新评测标准：行业逐渐放弃静态代码榜单，转向考核AI独立完成完整任务的能力，例如：
- OSWorld-Verified：测试AI跨软件操作能力（如鼠标点击、拖拽文件）。
- Terminal-Bench 2.1：要求AI在命令行终端中自行排查故障。
- Humanity's Last Exam：测试全链路推理和工具调用能力。
ITBench-AA 评测：由IBM软件创新实验室与Artificial Analysis联合推出。测试方法是将大模型放入模拟的企业级Kubernetes集群，人为制造微服务故障，要求AI独立排查所有原因。评分采用“全量召回下平均精确率”，即必须找出全部触发因素才能得分。
测试结果：
- 排名前两位是 Claude Opus 4.7 和 GPT-5.5 顶配版。
- Gemini 3.1 Pro 交互83次进行“过度调查”，可能引发更大系统风险，得分不到30%。
- 整体来看，所有模型的得分均未超过50%及格线，说明当前大模型在复杂企业级场景中仍处于“学徒”阶段，远未达到独立工作水平。

值得关注

行业方向已从“无尘考场刷分”转向“智能体（Agent）死磕真实混乱任务”。
下一步竞争不再是算力跑分，而是谁能在缺乏标准答案的真实环境中解决“脏活累活”。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？