事实真相应是动态过程，而非静态数据集：亚马逊提出审计-评分协议提升AI评估准确性

2026/06/03 23:56阅读量 2

亚马逊AGI团队发现，评估AI生成的研究报告时，传统静态基准测试存在严重缺陷——人类专家直接标注准确率仅60.8%。团队提出“audit-then-score”协议，将基准测试转变为迭代过程，通过AI模型挑战并复审人类标签，使准确率提升至90.9%。这揭示了复杂AI评估中，ground truth应作为持续演化的流程而非固定数据集。

事件概述

亚马逊通用人工智能（AGI）团队在评估AI生成的研究报告时，发现传统静态基准测试方法无法有效衡量模型的事实准确性。团队提出一种名为“audit-then-score”（审计-评分）的新协议，将ground truth从固定数据集转变为动态迭代过程。相关论文已发布在arXiv上，并配套发布了DeepFact-Bench（用于对比系统的标准化测试集）和DeepFact-Eval（用于检查文献是否支持报告声明的事实核查系统）。

核心信息

传统方法的局限性：在标准评估中，人类专家对AI报告中的声明进行标注，产生“ground truth”。但研究显示，博士级专家在无辅助情况下对隐藏已知答案的标注准确率仅为60.8%。原因在于评估深度研究报告需要长上下文阅读、跨文档综合和持续注意力，认知负担极高。
问题根源：当模型与基准答案不一致时，传统做法默认模型出错。但亚马逊团队认为，在深度研究这类高认知负荷任务中，模型与基准的分歧可能暗示基准本身存在歧义、不完整或错误。
审计-评分协议：当AI事实核查器与基准答案不一致时，它不被直接惩罚，而是作为挑战者提交具体证据和书面理由，说明原始人类答案为何有误。随后，审计者（可以是人类专家）对比挑战者的新证据与基准的原始理由。如果挑战者的论证更有力，则在评分前修订基准。
效果提升：经过四轮审计-评分流程后，隐藏测试集的准确率从60.8%上升至90.9%。

值得关注

亚马逊团队的发现表明，在复杂AI任务评估中，动态、迭代的基准构建比一次性静态标注更可靠。人类在审计者角色（对比双方证据）中的表现远优于作为一次性标注者。这种方法不仅提升了评估准确性，还改变了基准测试的本质——从固定答案集转变为持续演化的知识体系。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？