复旦×通义提出ToolCUA：解决Agent在GUI与Tool间“选路难”，准确率超Claude-4-Sonnet

2026/05/31 22:25阅读量 5

复旦大学与通义实验室MobileAgent团队提出ToolCUA，一种面向GUI-Tool混合动作空间的Computer Use Agent训练范式。实验发现，直接给Agent同时提供GUI操作和工具调用反而会因路径选择混乱导致性能下降。ToolCUA通过两阶段训练（离线数据合成+在线强化学习）让模型学会何时走GUI、何时切Tool，在OSWorld-MCP上取得46.85%准确率，超过Claude-4-Sonnet，逼近Claude-4.5-Sonnet，且执行步数最低（14.93步），代码和模型已开源。

事件概述

复旦大学与通义实验室MobileAgent团队联合提出ToolCUA，一个面向GUI-Tool混合动作空间的Computer Use Agent训练范式。核心目标是解决现有Agent在同时拥有GUI操作和工具调用时出现的“路径困惑”——即模型不知道何时该点按钮，何时该调API，导致准确率反而下降。

核心信息

问题发现：在hybrid GUI-Tool action space中，直接给强模型（如Qwen3VL、Claude系列）添加工具，不仅无法提升性能，反而导致准确率下降。例如Qwen3VL-235B加入工具后步骤数从25.9降到17.4，但准确率从41.1%降到38.1%；Claude-4-Sonnet加入工具后准确率从47.7%降到43.5%。原因是模型缺乏optimal GUI-Tool path selection能力。
ToolCUA方法：采用两阶段训练范式。
- 第一阶段：离线数据合成与Tool-Bootstrapped RFT。利用MLLM从现有GUI-only轨迹中合成grounded tool library，并生成interleaved GUI-Tool trajectories（约180k steps）。在此基础上进行warmup SFT和single-turn RL，让模型学会工具使用和局部切换。
- 第二阶段：Online Agentic RL，在真实GUI-Tool环境中进行long-horizon rollout。核心奖励设计为Tool-Efficient Path Reward，包含两项：
  - Tool Appropriateness Reward (R_tool)：奖励在适合用工具的任务中调用工具，在不适合的任务中避免使用工具。
  - Path Efficiency Reward (R_length)：通过组内对比，奖励比平均步数更短的轨迹，鼓励发现高效路径。
评测结果：
- 在OSWorld-MCP benchmark上，ToolCUA-8B达到46.85% accuracy，相比Qwen3-VL-8B-Instruct baseline（28.23%）相对提升约66%。超过Claude-4-Sonnet（43.54%），接近Claude-4.5-Sonnet（48.35%）。
- 平均完成步数（ACS）仅14.93 steps，为所有对比模型最低，表明执行效率最高。
- Tool Invocation Rate (TIR)从baseline的8.41%提升至24.32%，说明模型更精准地判断何时调用工具。
- 在held-out multi_apps任务和WindowsAgentArena上表现良好，展示了跨平台泛化能力。
消融实验关键结论：
1. 没有interleaved GUI-Tool trajectory数据，online RL无法学会可靠的工具调用。
2. 没有Tool-Efficient Path Reward，模型学不会稳定且高效的路径。
3. Hybrid GUI-Tool training比pure GUI training更有效。

值得关注

ToolCUA揭示了hybrid action space中路径选择的关键挑战，并通过两阶段训练范式有效解决。其核心不是让Agent多用工具，而是学会在何时该用、何时不该用，并协同两种操作方式。代码、模型权重已开源，项目网站和GitHub仓库已开放。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？