PORTool: 基于重要性感知策略优化的多工具集成推理方法

2026/05/04 08:00阅读量 2

Apple 与 Purdue 大学联合提出 PORTool，一种面向多工具集成推理场景的重要性感知策略优化算法。该方法通过生成奖励 rollout tree 实现跨分支决策对比，并利用步骤级正确性主导信号估计各步骤重要性，以优化策略。实验表明，PORTool 在提升最终答案准确率的同时显著减少了工具调用次数，消融实验验证了步骤级重要性估计的鲁棒性。该论文已被 ACL 2026 第五期自然语言生成评估与度量研讨会接收。

事件概述

Apple 机器学习研究团队与 Purdue 大学合作发表论文《PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning》，提出一种针对大语言模型（LLM）多工具集成推理代理的训练算法。该工作针对仅使用最终奖励训练时面临的信用分配模糊问题（即无法区分中间步骤或工具决策对成败的贡献）进行改进。

核心方法

PORTool 的核心策略是：

生成奖励 rollout tree：在树结构中，多条轨迹共享前缀至分支点，从而允许在同一上下文内直接比较不同的工具决策。
步骤级重要性估计：每个步骤的重要性由两部分组成——正确性主导信号（该步骤的后代节点能否最终产生正确答案）和辅助项（该步骤的工具调用是否成功执行）。
策略更新：利用步骤级重要性估计，结合局部分支决策对比与整条轨迹的整体质量，引导策略生成更高效的工具调用步骤。

实验结果

在多个基准任务上，PORTool 相比当前最先进方法（baselines）在最终答案准确率上取得提升，同时显著减少了工具调用次数。消融实验进一步验证了所提出步骤级重要性估计的鲁棒性。该论文已被 ACL 2026 的第五期自然语言生成、评估与度量研讨会（Workshop on Natural Language Generation, Evaluation, and Metrics）接收。

阅读原文详情

事件概述

核心方法

实验结果

准备好启动您的定制项目了吗？