事实真相应是动态过程,而非静态数据集:亚马逊提出审计-评分协议提升AI评估准确性

2026/06/03 23:56阅读量 2

亚马逊AGI团队发现,评估AI生成的研究报告时,传统静态基准测试存在严重缺陷——人类专家直接标注准确率仅60.8%。团队提出“audit-then-score”协议,将基准测试转变为迭代过程,通过AI模型挑战并复审人类标签,使准确率提升至90.9%。这揭示了复杂AI评估中,ground truth应作为持续演化的流程而非固定数据集。

事件概述

亚马逊通用人工智能(AGI)团队在评估AI生成的研究报告时,发现传统静态基准测试方法无法有效衡量模型的事实准确性。团队提出一种名为“audit-then-score”(审计-评分)的新协议,将ground truth从固定数据集转变为动态迭代过程。相关论文已发布在arXiv上,并配套发布了DeepFact-Bench(用于对比系统的标准化测试集)和DeepFact-Eval(用于检查文献是否支持报告声明的事实核查系统)。

核心信息

  • 传统方法的局限性:在标准评估中,人类专家对AI报告中的声明进行标注,产生“ground truth”。但研究显示,博士级专家在无辅助情况下对隐藏已知答案的标注准确率仅为60.8%。原因在于评估深度研究报告需要长上下文阅读、跨文档综合和持续注意力,认知负担极高。
  • 问题根源:当模型与基准答案不一致时,传统做法默认模型出错。但亚马逊团队认为,在深度研究这类高认知负荷任务中,模型与基准的分歧可能暗示基准本身存在歧义、不完整或错误。
  • 审计-评分协议:当AI事实核查器与基准答案不一致时,它不被直接惩罚,而是作为挑战者提交具体证据和书面理由,说明原始人类答案为何有误。随后,审计者(可以是人类专家)对比挑战者的新证据与基准的原始理由。如果挑战者的论证更有力,则在评分前修订基准。
  • 效果提升:经过四轮审计-评分流程后,隐藏测试集的准确率从60.8%上升至90.9%。

值得关注

亚马逊团队的发现表明,在复杂AI任务评估中,动态、迭代的基准构建比一次性静态标注更可靠。人类在审计者角色(对比双方证据)中的表现远优于作为一次性标注者。这种方法不仅提升了评估准确性,还改变了基准测试的本质——从固定答案集转变为持续演化的知识体系。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。