ZJU-REAL开源ClawGUI:打通GUI智能体训练、评测与部署全流程

2026/04/19 12:25阅读量 4

浙江大学REAL团队推出开源框架ClawGUI,首次实现GUI智能体在线强化学习训练、标准化评测与真机部署的端到端闭环。该框架通过引入过程奖励模型(PRM)解决长序列决策中的奖励稀疏问题,使2B参数模型在MobileWorld基准上达到17.1 SR,性能接近8B模型。此外,其评测组件实现了95.8%的复现率,并支持自然语言直接控制真实手机设备。

事件概述

来自 ZJU-REAL 的研究团队发布了开源框架 ClawGUI,旨在解决当前 GUI 智能体研究中训练、评测与部署环节割裂的结构性难题。该框架提供了一条完整的流水线:

  • ClawGUI-RL:用于 GUI 智能体的在线强化学习训练。
  • ClawGUI-Eval:标准化的评测套件。
  • OpenClaw-GUI:面向真实设备的部署工具。

这一架构使得从仿真环境训练到真机落地验证的闭环成为可能,无需人工干预或预设脚本,AI 即可通过视觉理解屏幕并执行操作。

核心信息

1. ClawGUI-RL:在线强化学习与奖励机制

该模块是开源社区中少数经过端到端验证的 GUI Agent Online RL 解决方案,将训练基础设施拆解为三层:

  • 环境管理:统一抽象 Docker 虚拟机与物理手机后端,支持 Spare Server 轮转和周期性重启,确保长时间训练的稳定性。
  • 策略优化:支持 GRPO、GiGPO 等主流强化学习算法,提供统一接口供研究者灵活切换。
  • 奖励设计(关键创新):采用“二元结果奖励 + PRM 逐步奖励”的双层设计。
    • 结果奖励:Episode 结束时给出成功/失败的 0/1 信号。
    • PRM(过程奖励模型):对每一步操作进行评估,根据前后截图和历史动作判断是否有效推进任务。
    • 效果:这种稠密的逐步反馈极大缓解了 GUI 长序列决策中的奖励稀疏问题,帮助优化器区分有效步骤与无效绕路。

2. 实验成果:小模型大表现

基于 MAI-UI-2B 基座微调的 ClawGUI-2B 模型在 MobileWorld 基准上取得显著突破:

  • 准确率 (SR):达到 17.1,大幅超越基线模型的 11.1(提升幅度约 6%)。
  • 性能对比:一个仅 2B 参数的模型,达到了接近 8B 模型的水平。

3. ClawGUI-Eval:高复现率的标准化评测

针对 GUI 评测领域长期存在的复现不一致问题(如坐标系统、Prompt 格式差异导致结果偏差),该模块建立了标准的 Infer → Judge → Metric 三阶段流水线:

  • 覆盖范围:涵盖 ScreenSpot-Pro、ScreenSpot-V2、UIVision 等 6 大 Benchmark,支持 Qwen3-VL、Gemini 3.0 Pro 等 11+ 模型。
  • 复现能力:在 48 个有官方基准的测试项中成功复现 46 个,总体复现率达 95.8%
  • 前沿验证:首次在 ScreenSpot-Pro 上评测 Gemini 3.1 Pro(得分 85.01),并在 ScreenSpot-Pro 上对 Gemini 3.0 Pro 和 Seed 1.8 实现 100% 复现。
  • 关键经验:团队总结了坐标系统匹配(绝对像素 vs 归一化)、图文输入顺序(tv vs vt)、System Prompt 对齐及温度设置(建议 0.0)等影响评测精度的关键细节。

4. OpenClaw-GUI:真机部署与自然语言控制

基于 nanobot 框架构建,该组件实现了 GUI 智能体在真实设备上的落地:

  • 交互方式:用户可通过自然语言指令(如在飞书、钉钉等 12+ 聊天平台发送消息)控制手机,Agent 自动完成截屏、规划路径、点击输入等操作。
  • 集成评测:支持通过指令让 Agent 自动完成环境检测、多 GPU 推理、判分及指标计算,实现 CLI 与 GUI 的协作。
  • 核心能力
    • 跨平台支持 Android (ADB)、鸿蒙 (HDC)、iOS (XCTest)。
    • 接入 AutoGLM、MAI-UI、Qwen-VL 等多模型。
    • 具备个性化记忆功能,可跨任务复用用户偏好。
    • 支持结构化 Episode 记录与回放。

值得关注

  • CLI 与 GUI 的融合趋势:研究团队认为,尽管 CLI Agent 近期火热,但 GUI 仍是数字世界的主要入口(如微信、银行 App 无 API 接口)。CLI 负责高效执行,GUI 负责人类感知与信任建立,两者互补而非替代。
  • 工程挑战:大规模 Online RL 仍面临登录验证、反爬机制、动态 UI 变化等稳定性难题,ClawGUI-RL 的轮转机制仅为初步探索。
  • 未来路线图:计划推进真机本地部署以避免云端隐私泄露,扩展至桌面/Web 环境的在线 RL,以及基于 OPD 算法的实时强化学习。

项目已开源,地址:https://github.com/ZJU-REAL/ClawGUI

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。