推理时反馈架构重塑工具调用代理:主动审查规避错误,引入“帮助-伤害”新指标
Apple 机器学习团队提出在推理阶段引入专门的审查代理,在工具调用执行前进行主动评估与纠错,打破传统事后评估的局限。团队定义了“帮助性-伤害性”指标以量化审查带来的净收益,并基于BFCL和τ²-Bench验证方法有效性,其中o3-mini模型取得了3:1的收益风险比,自动提示优化额外贡献1.5%–2.8%的性能提升。
事件概述
论文《Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents》被ACL 2026第五次自然语言生成、评估与度量研讨会接收。作者针对大语言模型工具调用代理在评估上的滞后缺陷,提出将评估环节前移至推理时的执行循环内:引入一个专门的审查代理(reviewer agent),在每次工具调用执行前对临时调用内容进行主动审查与纠错,将范式从事后恢复转向主动防御。
核心思路与架构
传统工具调用代理的评估(如工具选择、参数准确度、范围识别)均为事后进行,由此发现的错误只能通过再次调整提示或重训模型来修复,无法在推理过程中实时纠正。该工作建立起“主执行代理—辅助审查代理”的双层结构:审查代理在工具调用落实前介入,拦截潜在错误,实现关注点的清晰分离。
与任何多代理系统类似,审查者在修正某些错误时可能引入新的错误。为了系统量化这一权衡,作者设计了两个核心指标:
- 帮助性(Helpfulness):反馈纠正的基础代理错误所占的百分比。
- 伤害性(Harmfulness):反馈导致原本正确响应被降级的百分比。
这两个指标直接反映特定审查模型或提示是否带来净正向价值,指导审查者设计。
实验结果
在单轮基准BFCL和多轮有状态基准τ²-Bench上的评估显示:
- 无关性检测(irrelevance detection)提升 +5.5%。
- 多轮任务性能提升 +7.1%。
审查模型的选择至关重要:推理模型 o3-mini 达到了 3:1 的收益风险比,而 GPT-4o 为 2.1:1。在此基础上,利用自动提示优化(GEPA)可再带来 +1.5%–2.8% 的额外增益。
值得关注
该研究证明了将执行与审查解耦的核心优势——审查者可通过模型选型与提示优化被系统性地改进,而无需重新训练基础代理。这为工具调用代理的鲁棒性提升提供了一种高性效比的训练无关方案,同时提出的“帮助-伤害”指标为多代理系统的反馈质量量化提供了可复用的方法论。
