MIT最新研究揭示AI编程致命缺陷:迭代导致代码质量断崖式下跌,远逊人类维护的“屎山”

2026/03/30 10:58阅读量 2

威斯康星麦迪逊大学与MIT团队发布SlopCodeBench基准测试,发现当前主流AI编程Agent在长期需求迭代中无法维持代码质量,结构侵蚀和冗余度随迭代持续恶化。测试显示11个顶级模型无一能完整完成多轮迭代任务,其生成的代码在冗余度和结构复杂度上分别是人类开源项目的2.2倍至2.9倍。即便引入优化提示词,虽能短暂提升初始质量,却无法改变代码随迭代快速退化的根本趋势,且显著增加成本。

事件概述

威斯康星麦迪逊大学(University of Wisconsin-Madison)与麻省理工学院(MIT)的研究团队联合发布了一项针对AI编程能力的深度评估,指出当前AI编程Agent存在严重的“长期迭代失效”问题。研究团队构建了名为SlopCodeBench的评测基准,旨在模拟真实软件开发中频繁变更需求、持续迭代的复杂场景,而非传统的单次任务通过率测试。

核心信息

1. 评测机制:模拟真实开发痛点

SlopCodeBench摒弃了“一次性写对”的传统模式,设计了完全复刻真实开发痛点的测试规则:

  • 场景设计:包含20个常见开发场景(如表达式解析器、代码搜索工具),每个场景拆解为93个逐步复杂的检查点,模拟产品经理每周提出的新需求。
  • 无外挂限制:不预设内部接口架构,不暴露测试用例,强制要求AI必须在上一轮代码基础上进行修改,严禁直接重写。
  • 核心指标:聚焦两个反映代码质量的本质特征——
    • 结构侵蚀(Structural Erosion):衡量逻辑是否过度堆叠在少数“超级函数”中,导致圈复杂度飙升,修改一处牵动全局。
    • 冗余度(Verbosity):统计重复逻辑、可简化的垃圾代码占比。

2. 测试结果:所有AI模型全面溃败

研究团队测试了包括Claude Opus 4.5/4.6、GPT 5.1-5.4、GLM 4.7在内的11个当前最强模型,结果令人震惊:

  • 完成率极低:没有任何一个AI Agent能从头到尾完成任何一个问题的所有检查点。即便是最强的Claude Opus 4.6,严格通过率仅为17.2%
  • 退化速度惊人
    • **80%**的项目中,结构侵蚀随迭代持续上升。
    • **89.8%**的项目中,冗余度一路走高。
    • 初期核心功能与全量测试通过率差距仅1.4倍,后期扩大至13.3倍,表明边缘逻辑已彻底崩坏。
  • 案例实证:在电路模拟器(circuit_eval)任务中,Claude Opus 4.6的main()函数从初始的84行膨胀至1099行,圈复杂度从29飙升至285,出现大量重复逻辑。

3. 横向对比:AI代码质量远低于人类“屎山”

研究团队将AI生成的代码与48个不同Star量级的Python开源仓库(含scikit-learn、scipy等知名项目)进行对比:

  • 冗余度:AI代码是人类的2.2倍
  • 结构侵蚀:AI代码是人类的2.2倍
  • 违反率:AI代码是人类的2.9倍
  • 结论:即使是被程序员诟病已久的十年维护期“屎山”,其健康程度也优于AI经过几轮迭代后的产物。人类维护的项目质量通常保持平稳或越重构越好,而AI代码每迭代一次质量就下降一截。

4. 干预实验:提示词无法根治顽疾

针对“优化提示词能否解决问题”的假设,研究者进行了干预实验:

  • 实验组:使用“反Slop提示”(明确禁止重复、要求拆函数)和“先规划提示”(要求先出设计方案)。
  • 结果
    • 初始代码质量虽有改善(冗余度降低33%-34%),但退化速率未变,两条曲线平行下滑。
    • 正确率无显著提升(Wilcoxon检验 p > 0.05)。
    • 成本激增:以GPT 5.4为例,使用优化提示后,完成项目花费从304美元涨至450美元(涨幅近50%),但通过率反而从37.2%降至27.1%。

根本原因分析

研究指出,AI编程失败的核心在于缺乏**“设计纪律”**(Design Discipline):

  • 短期最优思维:AI的决策基于当前Prompt的最优解,倾向于快速堆砌代码、复制粘贴逻辑以满足当下测试,缺乏对长期扩展性和维护性的考量。
  • 缺乏长期规划:人类开发者会预留扩展点、抽取公共函数、标记TODO待重构;而AI没有“未来视角”,一旦需求变更,原有架构无法支撑,只能硬塞代码,导致系统迅速崩塌。
  • 评测导向偏差:现有评测体系奖励“短期行为”(只要本次测试通过即算成功),忽视了软件工程核心的“长期可维护性”。

结论与启示

该研究揭示了AI编程目前仍处于“能干杂活的实习生”阶段,无法胜任需要长期迭代的大型项目。真正的软件成本不在于第一版代码的生成速度,而在于后续多年的维护与修改。未来的AI编程发展需从追求单次任务通过率,转向培养AI的“为未来写代码”的能力,使其具备类似人类的架构设计纪律。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。