MLE-Bench 榜单争议：当 AI“作弊”与“笨办法”正面交锋

2026/04/12 09:25阅读量 77

OpenAI 推出的 MLE-Bench 机器学习工程基准测试因 Disarray 团队利用数据泄露漏洞获得高分而引发社区激烈争论，核心在于测试集反馈机制是否构成不公平优势。百度伐谋团队坚持在无数据泄露、无外部辅助的严格约束下进行对照实验，虽分数略低但证明了 Agent 架构优化的真实价值。最终维护者通过增设带警示说明的赛道来区分不同合规性的提交，引发了对 AI 评估标准应模拟真实世界约束还是单纯追求分数的深层思考。

事件概述

2026 年 2 月，由 OpenAI 推出的 MLE-Bench（Machine Learning Engineering Benchmark）GitHub 讨论区爆发激烈争议。一家名为 Disarray 的创业公司提交了 77.78 分 的成绩，远超此前全球顶尖团队在长达数月拉锯中维持的 60 分 左右水平。这一近 20 分的巨大差距，直接引爆了关于该基准测试公平性与本质的论战。

核心信息：测试漏洞与“作弊”指控

1. MLE-Bench 的机制缺陷

测试性质：该榜单旨在测试 AI Agent 能否像真正的机器学习工程师一样，独立完成从数据清洗、特征工程到模型调优的全流程 Kaggle 竞赛任务（共 70 多道真实历史题目）。
成本高昂：每道题需运行 3 次取平均，单次完整提交算力成本高达数万美元，耗时数周。
数据泄露风险：由于无法获取真实的私有测试集，OpenAI 将公开数据集拆分为“公开测试集”和假装成“私有测试集”的两份数据。然而，这两份数据均曾在网上出现过。
反馈信号问题：Disarray 团队承认，其 Agent 在运行过程中会收到一个来自“私有测试集”的二选一反馈信号（“表现是否达到铜牌水平？”）。社区资深贡献者指出，这等同于在考试中一边做题一边获得老师对同一套试卷的实时评分反馈，构成了典型的测试集泄露。

2. 争议焦点

Disarray 方立场：提交者声称未修改考试流程，仅将该信号作为资源管理工具；核心发言人承认利用了已知漏洞（如 GPS 任务跑出 0.0 分误差、狗品种识别使用外部数据），但将其解释为“跨任务学习能力”。
社区质疑：多位社区成员及前作者认为，只要使用了秘密数据的反馈进行优化，无论信号多微弱，都不应与未使用者同榜竞争，否则将破坏基准测试的信任基石。

工业界的“笨办法”：百度伐谋的对照实验

在榜单喧嚣中，百度伐谋团队选择了一条截然不同的路径：

策略选择：2025 年 12 月，面对更先进的 gemini-pro-3.0 模型可用，他们坚持继续使用上一代 gemini-pro-2.5 模型，以剥离模型升级带来的影响，纯粹验证 Agent 架构（从 1.0 到 2.0）的优化效果。
严格约束：2026 年 2 月 23 日，团队进行了严格的对照实验。在更换最新模型后，他们拒绝使用任何私有测试集的反馈信号、不利用外部网络数据、不触碰已知漏洞，完全模拟真实世界中无法预知未来数据和无法获取即时反馈的场景。
结果对比：
- Disarray：77.78 分（存在数据泄露嫌疑）。
- 百度伐谋：64.44 分（无数据泄露，规则严格）。
- 尽管分数低于前者，但该成绩被证明是在“不偷看答案”的硬核约束下取得的，具有更高的可解释性和工业参考价值。

后续调整与行业启示

榜单修正：2026 年 3 月 23 日，MLE-Bench 仓库新增“添加数据泄漏说明”赛道。有数据泄露嫌疑的提交被移至独立榜单并附带脚注警示，不再与主榜直接比较。
新排名：修正后，百度伐谋凭借无数据泄露嫌疑的表现重回主榜榜首。
核心结论：此次事件揭示了 AI 评估领域的关键矛盾——“能做到什么”与“应该测量什么”的区别。真正的技术突破不应依赖于寻找测试漏洞，而在于在模拟真实世界约束（无未来数据、无即时反馈）的前提下持续提升 Agent 能力。

阅读原文详情

事件概述

核心信息：测试漏洞与“作弊”指控

工业界的“笨办法”：百度伐谋的对照实验

后续调整与行业启示

准备好启动您的定制项目了吗？