GAIR Paper 104｜Agent 真能自我进化吗？GDPevo 基准给出可信度量

2026/06/23 18:25阅读量 2

针对当前 AI Agent 自进化能力缺乏可靠评估的问题，研究者提出 GDPevo，这是首个在真实经济价值（GDP 相关）任务上专门评估 Agent 自进化能力的基准。该基准覆盖 CRM、ERP、金融三大场景共 120 个任务，采用规则杂交方法防止“在测试集上训练”的作弊，并用确定性规则打分器实现可复现、可追溯的评估。实验表明，现有 Agent 通过少样本或反思式进化，测试准确率可提升 17–22%，部分场景甚至接近 100%。

事件概述

AI Agent 的自进化（Self-evolution）能力——即 Agent 能从过往任务中总结经验、改进后续表现——正成为热门方向。但业界缺乏一把可信的“尺子”来测量 Agent 到底有没有进化、进化了多少。为此，研究者构建了 GDPevo，据称是第一个在具有真实经济价值的任务（与 GDP 直接相关的企业场景）上评估 Agent 自进化能力的基准。

核心信息

基准覆盖范围：GDPevo 覆盖客户关系管理（CRM）、企业资源计划（ERP）和金融（Finance）三大场景，共 12 个任务组、120 个任务。每个任务包含 5 个训练样本和 5 个测试样本，所有样本均内置基于规则的评分脚本。
防作弊机制：采用规则杂交方法——将复杂业务逻辑拆解为多条“元规则”分散藏在训练样本中，测试样本则设计为这些规则的组合。这样，只会死记硬背的 Agent 无法得分，只有真正学会归纳和应用规则的 Agent 才能通过。
评估方式：使用确定性规则打分器（而非 LLM-as-a-Judge），确保分数可复现、失败可追溯。同时记录 总 Token 消耗 和任务准确率，兼顾效率与效果。
易用性：整个评估完全由自然语言驱动，无需学习任何评估 SDK 或框架，用户只需用自然语言描述实验需求即可自动运行。

值得关注

实验结论：研究者测试了 Claude Code、Codex 和 Panofy 三个 Agent，对比了 base（不进化）、fewshot（少样本进化，类似 SFT）和 reflect（反思进化，类似 RL）三种方案。结果高度一致：自进化可将测试集准确率提升约 17–22%，且 Claude Code 和 Codex 在提升准确率的同时 Token 消耗反而更低。例如在“运营建模”场景中，Codex 从 42.76% 提升至 92.47%，Claude Code 的 fewshot 方案甚至达到 100%。
开源情况：GDPevo 的完整构建流程、数据和结果已全部开源（GitHub: https://github.com/Prism-Shadow/GDPevo），欢迎社区带上自己的 Agent 或业务场景参与测试。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？