SWE-Bench作者新作ProgramBench：主流AI模型系统级重构完成率全部为0%

2026/05/07 10:11阅读量 211

SWE-Bench创始团队发布全新基准ProgramBench，要求AI模型仅凭功能描述和使用文档从零重建完整软件项目，而非局部补全或修复。测试中，Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro等最强模型全部未能通过任何一项任务，完成率为0%。结果揭示了当前AI在系统级工程规划与长期维护能力上的根本短板。

事件概述

SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构发布了一项名为ProgramBench的新基准测试，旨在评估大模型从零重建完整软件系统的能力。测试对象包括Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash等一线模型，结果所有模型在所有任务上的完成率均为0%。

核心测试方法

任务设定：模型仅获得程序的功能描述与使用文档（usage docs），原始源码和测试被完全删除。模型必须自行决定使用的编程语言、架构、模块拆分、数据结构及整体仓库组织方式。
评估标准：不按源码相似度打分，而是采用行为等价（behavioral equivalence）——只要最终输入输出行为与原程序一致即算通过，允许使用完全不同的语言、算法或架构。研究团队通过自动化模糊测试（agent-driven fuzzing）生成大量端到端行为测试。
限制条件：模型不允许联网，以防直接搜索或泄露答案。

关键结果与发现

整体完成率0%：所有模型均未能以100%行为等价完成任何一个项目。
接近完成的指标（Almost指标）：表现最强的Claude Opus 4.7也仅有3%的任务完成度超过95%，即接近完成但仍有瑕疵。
模型倾向单体化代码：论文指出，模型极度倾向于生成单文件实现，逻辑高度集中，目录结构极浅，模块拆分极少，函数超长，整体看起来像巨型脚本，与优秀人类工程师讲究模块化、关注点分离的习惯完全相反。
语言差异：在C/C++项目上完成度最高，Go其次，Rust表现最差。研究者认为这与C/C++在训练数据中历史代码和工程实践丰富有关，而Rust的ownership、trait system等工程哲学更强调模块化和长期可维护性，恰好是当前模型的弱项。
项目复杂度影响：简单CLI工具（如nnn、fzf、gron）通过率相对较高，而复杂系统（如FFmpeg、php-src、typst、ast-grep）几乎所有模型都难以推进，说明当前模型对复杂软件系统存在稳定压制。

值得关注

ProgramBench首次将AI代码能力评估从函数/补丁级提升到系统级，暴露了当前大模型的核心断层：擅长生成局部代码，但缺乏长期、一致、稳定地维护复杂软件系统的能力。这推动了行业对memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering等方向的研究，下一阶段竞争可能从生成更长代码转向在长时间、多轮交互、复杂上下文中持续维护一个活着的软件系统。

论文链接：https://programbench.com/static/paper.pdf

阅读原文详情

SWE-Bench作者新作ProgramBench：主流AI模型系统级重构完成率全部为0%

事件概述

核心测试方法

关键结果与发现

相关争议与讨论

值得关注

准备好启动您的定制项目了吗？