MIT最新研究揭示AI编程致命缺陷：迭代导致代码质量断崖式下跌，远逊人类维护的“屎山”

2026/03/30 10:58阅读量 85

威斯康星麦迪逊大学与MIT团队发布SlopCodeBench基准测试，发现当前主流AI编程Agent在长期需求迭代中无法维持代码质量，结构侵蚀和冗余度随迭代持续恶化。测试显示11个顶级模型无一能完整完成多轮迭代任务，其生成的代码在冗余度和结构复杂度上分别是人类开源项目的2.2倍至2.9倍。即便引入优化提示词，虽能短暂提升初始质量，却无法改变代码随迭代快速退化的根本趋势，且显著增加成本。

事件概述

威斯康星麦迪逊大学（University of Wisconsin-Madison）与麻省理工学院（MIT）的研究团队联合发布了一项针对AI编程能力的深度评估，指出当前AI编程Agent存在严重的“长期迭代失效”问题。研究团队构建了名为SlopCodeBench的评测基准，旨在模拟真实软件开发中频繁变更需求、持续迭代的复杂场景，而非传统的单次任务通过率测试。

核心信息

1. 评测机制：模拟真实开发痛点

SlopCodeBench摒弃了“一次性写对”的传统模式，设计了完全复刻真实开发痛点的测试规则：

场景设计：包含20个常见开发场景（如表达式解析器、代码搜索工具），每个场景拆解为93个逐步复杂的检查点，模拟产品经理每周提出的新需求。
无外挂限制：不预设内部接口架构，不暴露测试用例，强制要求AI必须在上一轮代码基础上进行修改，严禁直接重写。
核心指标：聚焦两个反映代码质量的本质特征——
- 结构侵蚀（Structural Erosion）：衡量逻辑是否过度堆叠在少数“超级函数”中，导致圈复杂度飙升，修改一处牵动全局。
- 冗余度（Verbosity）：统计重复逻辑、可简化的垃圾代码占比。

2. 测试结果：所有AI模型全面溃败

研究团队测试了包括Claude Opus 4.5/4.6、GPT 5.1-5.4、GLM 4.7在内的11个当前最强模型，结果令人震惊：

完成率极低：没有任何一个AI Agent能从头到尾完成任何一个问题的所有检查点。即便是最强的Claude Opus 4.6，严格通过率仅为17.2%。
退化速度惊人：
- **80%**的项目中，结构侵蚀随迭代持续上升。
- **89.8%**的项目中，冗余度一路走高。
- 初期核心功能与全量测试通过率差距仅1.4倍，后期扩大至13.3倍，表明边缘逻辑已彻底崩坏。
案例实证：在电路模拟器（circuit_eval）任务中，Claude Opus 4.6的main()函数从初始的84行膨胀至1099行，圈复杂度从29飙升至285，出现大量重复逻辑。

3. 横向对比：AI代码质量远低于人类“屎山”

研究团队将AI生成的代码与48个不同Star量级的Python开源仓库（含scikit-learn、scipy等知名项目）进行对比：

冗余度：AI代码是人类的2.2倍。
结构侵蚀：AI代码是人类的2.2倍。
违反率：AI代码是人类的2.9倍。
结论：即使是被程序员诟病已久的十年维护期“屎山”，其健康程度也优于AI经过几轮迭代后的产物。人类维护的项目质量通常保持平稳或越重构越好，而AI代码每迭代一次质量就下降一截。

4. 干预实验：提示词无法根治顽疾

针对“优化提示词能否解决问题”的假设，研究者进行了干预实验：

实验组：使用“反Slop提示”（明确禁止重复、要求拆函数）和“先规划提示”（要求先出设计方案）。
结果：
- 初始代码质量虽有改善（冗余度降低33%-34%），但退化速率未变，两条曲线平行下滑。
- 正确率无显著提升（Wilcoxon检验 p > 0.05）。
- 成本激增：以GPT 5.4为例，使用优化提示后，完成项目花费从304美元涨至450美元（涨幅近50%），但通过率反而从37.2%降至27.1%。

根本原因分析

研究指出，AI编程失败的核心在于缺乏**“设计纪律”**（Design Discipline）：

短期最优思维：AI的决策基于当前Prompt的最优解，倾向于快速堆砌代码、复制粘贴逻辑以满足当下测试，缺乏对长期扩展性和维护性的考量。
缺乏长期规划：人类开发者会预留扩展点、抽取公共函数、标记TODO待重构；而AI没有“未来视角”，一旦需求变更，原有架构无法支撑，只能硬塞代码，导致系统迅速崩塌。
评测导向偏差：现有评测体系奖励“短期行为”（只要本次测试通过即算成功），忽视了软件工程核心的“长期可维护性”。

结论与启示

该研究揭示了AI编程目前仍处于“能干杂活的实习生”阶段，无法胜任需要长期迭代的大型项目。真正的软件成本不在于第一版代码的生成速度，而在于后续多年的维护与修改。未来的AI编程发展需从追求单次任务通过率，转向培养AI的“为未来写代码”的能力，使其具备类似人类的架构设计纪律。

阅读原文详情