SWE-Bench作者新作ProgramBench:主流AI模型系统级重构完成率全部为0%

2026/05/07 10:11阅读量 211

SWE-Bench创始团队发布全新基准ProgramBench,要求AI模型仅凭功能描述和使用文档从零重建完整软件项目,而非局部补全或修复。测试中,Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro等最强模型全部未能通过任何一项任务,完成率为0%。结果揭示了当前AI在系统级工程规划与长期维护能力上的根本短板。

事件概述

SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构发布了一项名为ProgramBench的新基准测试,旨在评估大模型从零重建完整软件系统的能力。测试对象包括Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash等一线模型,结果所有模型在所有任务上的完成率均为0%。

核心测试方法

  • 任务设定:模型仅获得程序的功能描述与使用文档(usage docs),原始源码和测试被完全删除。模型必须自行决定使用的编程语言、架构、模块拆分、数据结构及整体仓库组织方式。
  • 评估标准:不按源码相似度打分,而是采用行为等价(behavioral equivalence)——只要最终输入输出行为与原程序一致即算通过,允许使用完全不同的语言、算法或架构。研究团队通过自动化模糊测试(agent-driven fuzzing)生成大量端到端行为测试。
  • 限制条件:模型不允许联网,以防直接搜索或泄露答案。

关键结果与发现

  • 整体完成率0%:所有模型均未能以100%行为等价完成任何一个项目。
  • 接近完成的指标(Almost指标):表现最强的Claude Opus 4.7也仅有3%的任务完成度超过95%,即接近完成但仍有瑕疵。
  • 模型倾向单体化代码:论文指出,模型极度倾向于生成单文件实现,逻辑高度集中,目录结构极浅,模块拆分极少,函数超长,整体看起来像巨型脚本,与优秀人类工程师讲究模块化、关注点分离的习惯完全相反。
  • 语言差异:在C/C++项目上完成度最高,Go其次,Rust表现最差。研究者认为这与C/C++在训练数据中历史代码和工程实践丰富有关,而Rust的ownership、trait system等工程哲学更强调模块化和长期可维护性,恰好是当前模型的弱项。
  • 项目复杂度影响:简单CLI工具(如nnn、fzf、gron)通过率相对较高,而复杂系统(如FFmpeg、php-src、typst、ast-grep)几乎所有模型都难以推进,说明当前模型对复杂软件系统存在稳定压制。

相关争议与讨论

  • 质疑一:模型是否只是背题? 对ProgramBench中多为公开开源项目(如FFmpeg)的担忧,硅谷投资人Deedy Das回应称任何基准都可能被过拟合(overfit),但可通过比较生成代码与原始源码的相似度检测记忆化,且模型若真的用暴力方式硬背,会在别处明显退化。
  • 质疑二:人类也无法从零重写FFmpeg,基准是否不合理? Deedy Das认为基准的目标是推动模型逼近更高智能,而非模拟普通人平均能力;AlphaGo超过绝大多数人类棋手同样推动了AI发展。
  • 当前局限:ProgramBench未测试Claude Code、Codex等完整agent harness,只统计是否完成而未细粒度衡量进展;同时限制联网可能使模型为了得分而策略性偏移。人们可增加联网版测试作为对比。

值得关注

ProgramBench首次将AI代码能力评估从函数/补丁级提升到系统级,暴露了当前大模型的核心断层:擅长生成局部代码,但缺乏长期、一致、稳定地维护复杂软件系统的能力。这推动了行业对memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering等方向的研究,下一阶段竞争可能从生成更长代码转向在长时间、多轮交互、复杂上下文中持续维护一个活着的软件系统。

论文链接:https://programbench.com/static/paper.pdf

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。