GAIR Paper 104|Agent 真能自我进化吗?GDPevo 基准给出可信度量

2026/06/23 18:25阅读量 2

针对当前 AI Agent 自进化能力缺乏可靠评估的问题,研究者提出 GDPevo,这是首个在真实经济价值(GDP 相关)任务上专门评估 Agent 自进化能力的基准。该基准覆盖 CRM、ERP、金融三大场景共 120 个任务,采用规则杂交方法防止“在测试集上训练”的作弊,并用确定性规则打分器实现可复现、可追溯的评估。实验表明,现有 Agent 通过少样本或反思式进化,测试准确率可提升 17–22%,部分场景甚至接近 100%。

事件概述

AI Agent 的自进化(Self-evolution)能力——即 Agent 能从过往任务中总结经验、改进后续表现——正成为热门方向。但业界缺乏一把可信的“尺子”来测量 Agent 到底有没有进化、进化了多少。为此,研究者构建了 GDPevo,据称是第一个在具有真实经济价值的任务(与 GDP 直接相关的企业场景)上评估 Agent 自进化能力的基准。

核心信息

  • 基准覆盖范围:GDPevo 覆盖客户关系管理(CRM)、企业资源计划(ERP)和金融(Finance)三大场景,共 12 个任务组、120 个任务。每个任务包含 5 个训练样本和 5 个测试样本,所有样本均内置基于规则的评分脚本。
  • 防作弊机制:采用规则杂交方法——将复杂业务逻辑拆解为多条“元规则”分散藏在训练样本中,测试样本则设计为这些规则的组合。这样,只会死记硬背的 Agent 无法得分,只有真正学会归纳和应用规则的 Agent 才能通过。
  • 评估方式:使用确定性规则打分器(而非 LLM-as-a-Judge),确保分数可复现、失败可追溯。同时记录 总 Token 消耗任务准确率,兼顾效率与效果。
  • 易用性:整个评估完全由自然语言驱动,无需学习任何评估 SDK 或框架,用户只需用自然语言描述实验需求即可自动运行。

值得关注

  • 实验结论:研究者测试了 Claude Code、Codex 和 Panofy 三个 Agent,对比了 base(不进化)、fewshot(少样本进化,类似 SFT)和 reflect(反思进化,类似 RL)三种方案。结果高度一致:自进化可将测试集准确率提升约 17–22%,且 Claude Code 和 Codex 在提升准确率的同时 Token 消耗反而更低。例如在“运营建模”场景中,Codex 从 42.76% 提升至 92.47%,Claude Code 的 fewshot 方案甚至达到 100%。
  • 开源情况:GDPevo 的完整构建流程、数据和结果已全部开源(GitHub: https://github.com/Prism-Shadow/GDPevo),欢迎社区带上自己的 Agent 或业务场景参与测试。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。