PORTool: 基于重要性感知策略优化的多工具集成推理方法

2026/05/04 08:00阅读量 2

Apple 与 Purdue 大学联合提出 PORTool,一种面向多工具集成推理场景的重要性感知策略优化算法。该方法通过生成奖励 rollout tree 实现跨分支决策对比,并利用步骤级正确性主导信号估计各步骤重要性,以优化策略。实验表明,PORTool 在提升最终答案准确率的同时显著减少了工具调用次数,消融实验验证了步骤级重要性估计的鲁棒性。该论文已被 ACL 2026 第五期自然语言生成评估与度量研讨会接收。

事件概述

Apple 机器学习研究团队与 Purdue 大学合作发表论文《PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning》,提出一种针对大语言模型(LLM)多工具集成推理代理的训练算法。该工作针对仅使用最终奖励训练时面临的信用分配模糊问题(即无法区分中间步骤或工具决策对成败的贡献)进行改进。

核心方法

PORTool 的核心策略是:

  1. 生成奖励 rollout tree:在树结构中,多条轨迹共享前缀至分支点,从而允许在同一上下文内直接比较不同的工具决策。
  2. 步骤级重要性估计:每个步骤的重要性由两部分组成——正确性主导信号(该步骤的后代节点能否最终产生正确答案)和辅助项(该步骤的工具调用是否成功执行)。
  3. 策略更新:利用步骤级重要性估计,结合局部分支决策对比与整条轨迹的整体质量,引导策略生成更高效的工具调用步骤。

实验结果

在多个基准任务上,PORTool 相比当前最先进方法(baselines)在最终答案准确率上取得提升,同时显著减少了工具调用次数。消融实验进一步验证了所提出步骤级重要性估计的鲁棒性。该论文已被 ACL 2026 的第五期自然语言生成、评估与度量研讨会(Workshop on Natural Language Generation, Evaluation, and Metrics)接收。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。