复旦×通义提出ToolCUA:解决Agent在GUI与Tool间“选路难”,准确率超Claude-4-Sonnet

2026/05/31 22:25阅读量 5

复旦大学与通义实验室MobileAgent团队提出ToolCUA,一种面向GUI-Tool混合动作空间的Computer Use Agent训练范式。实验发现,直接给Agent同时提供GUI操作和工具调用反而会因路径选择混乱导致性能下降。ToolCUA通过两阶段训练(离线数据合成+在线强化学习)让模型学会何时走GUI、何时切Tool,在OSWorld-MCP上取得46.85%准确率,超过Claude-4-Sonnet,逼近Claude-4.5-Sonnet,且执行步数最低(14.93步),代码和模型已开源。

事件概述

复旦大学与通义实验室MobileAgent团队联合提出ToolCUA,一个面向GUI-Tool混合动作空间的Computer Use Agent训练范式。核心目标是解决现有Agent在同时拥有GUI操作和工具调用时出现的“路径困惑”——即模型不知道何时该点按钮,何时该调API,导致准确率反而下降。

核心信息

  • 问题发现:在hybrid GUI-Tool action space中,直接给强模型(如Qwen3VL、Claude系列)添加工具,不仅无法提升性能,反而导致准确率下降。例如Qwen3VL-235B加入工具后步骤数从25.9降到17.4,但准确率从41.1%降到38.1%;Claude-4-Sonnet加入工具后准确率从47.7%降到43.5%。原因是模型缺乏optimal GUI-Tool path selection能力。

  • ToolCUA方法:采用两阶段训练范式。

    • 第一阶段:离线数据合成与Tool-Bootstrapped RFT。利用MLLM从现有GUI-only轨迹中合成grounded tool library,并生成interleaved GUI-Tool trajectories(约180k steps)。在此基础上进行warmup SFT和single-turn RL,让模型学会工具使用和局部切换。
    • 第二阶段:Online Agentic RL,在真实GUI-Tool环境中进行long-horizon rollout。核心奖励设计为Tool-Efficient Path Reward,包含两项:
      • Tool Appropriateness Reward (R_tool):奖励在适合用工具的任务中调用工具,在不适合的任务中避免使用工具。
      • Path Efficiency Reward (R_length):通过组内对比,奖励比平均步数更短的轨迹,鼓励发现高效路径。
  • 评测结果

    • 在OSWorld-MCP benchmark上,ToolCUA-8B达到46.85% accuracy,相比Qwen3-VL-8B-Instruct baseline(28.23%)相对提升约66%。超过Claude-4-Sonnet(43.54%),接近Claude-4.5-Sonnet(48.35%)。
    • 平均完成步数(ACS)仅14.93 steps,为所有对比模型最低,表明执行效率最高。
    • Tool Invocation Rate (TIR)从baseline的8.41%提升至24.32%,说明模型更精准地判断何时调用工具。
    • 在held-out multi_apps任务和WindowsAgentArena上表现良好,展示了跨平台泛化能力。
  • 消融实验关键结论

    1. 没有interleaved GUI-Tool trajectory数据,online RL无法学会可靠的工具调用。
    2. 没有Tool-Efficient Path Reward,模型学不会稳定且高效的路径。
    3. Hybrid GUI-Tool training比pure GUI training更有效。

值得关注

ToolCUA揭示了hybrid action space中路径选择的关键挑战,并通过两阶段训练范式有效解决。其核心不是让Agent多用工具,而是学会在何时该用、何时不该用,并协同两种操作方式。代码、模型权重已开源,项目网站和GitHub仓库已开放。

(注:原文中提及的图片、二维码、版权声明、作者信息、相关文章推荐等均已忽略。)

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。