被困在考场里的大模型:高分低能,真实场景才是未来
2026/05/29 23:10阅读量 2
大模型在静态代码评测中表现优异,但在真实企业IT运维场景中能力不足,存在高分低能现象。行业评测已从静态榜单转向ITBench-AA等真实环境测试,要求AI独立排查微服务故障。结果显示,头部模型如Claude Opus 4.7和GPT-5.5得分仍未超过50%,Gemini 3.1 Pro因过度操作得分不足30%。AI距离独立解决复杂企业级问题仍有显著差距,行业正回归实际能力比拼。
事件概述
大模型在标准化代码评测(如HumanEval、SWE-bench)中得分节节攀升,但在真实企业生产场景中常常“卡壳”。原因在于静态榜单的“无菌考场”环境与现实中的混乱、非标准化代码(所谓“屎山”)之间存在巨大鸿沟。行业已认识到这一问题,并从2025年下半年起转向更贴近实际工作场景的评测体系。
核心信息
- 新评测标准:行业逐渐放弃静态代码榜单,转向考核AI独立完成完整任务的能力,例如:
- OSWorld-Verified:测试AI跨软件操作能力(如鼠标点击、拖拽文件)。
- Terminal-Bench 2.1:要求AI在命令行终端中自行排查故障。
- Humanity's Last Exam:测试全链路推理和工具调用能力。
- ITBench-AA 评测:由IBM软件创新实验室与Artificial Analysis联合推出。测试方法是将大模型放入模拟的企业级Kubernetes集群,人为制造微服务故障,要求AI独立排查所有原因。评分采用“全量召回下平均精确率”,即必须找出全部触发因素才能得分。
- 测试结果:
- 排名前两位是 Claude Opus 4.7 和 GPT-5.5 顶配版。
- Gemini 3.1 Pro 交互83次进行“过度调查”,可能引发更大系统风险,得分不到30%。
- 整体来看,所有模型的得分均未超过50%及格线,说明当前大模型在复杂企业级场景中仍处于“学徒”阶段,远未达到独立工作水平。
值得关注
- 行业方向已从“无尘考场刷分”转向“智能体(Agent)死磕真实混乱任务”。
- 下一步竞争不再是算力跑分,而是谁能在缺乏标准答案的真实环境中解决“脏活累活”。
