ZJU-REAL开源ClawGUI：打通GUI智能体训练、评测与部署全流程

2026/04/19 12:25阅读量 4

浙江大学REAL团队推出开源框架ClawGUI，首次实现GUI智能体在线强化学习训练、标准化评测与真机部署的端到端闭环。该框架通过引入过程奖励模型（PRM）解决长序列决策中的奖励稀疏问题，使2B参数模型在MobileWorld基准上达到17.1 SR，性能接近8B模型。此外，其评测组件实现了95.8%的复现率，并支持自然语言直接控制真实手机设备。

事件概述

来自 ZJU-REAL 的研究团队发布了开源框架 ClawGUI，旨在解决当前 GUI 智能体研究中训练、评测与部署环节割裂的结构性难题。该框架提供了一条完整的流水线：

ClawGUI-RL：用于 GUI 智能体的在线强化学习训练。
ClawGUI-Eval：标准化的评测套件。
OpenClaw-GUI：面向真实设备的部署工具。

这一架构使得从仿真环境训练到真机落地验证的闭环成为可能，无需人工干预或预设脚本，AI 即可通过视觉理解屏幕并执行操作。

核心信息

1. ClawGUI-RL：在线强化学习与奖励机制

该模块是开源社区中少数经过端到端验证的 GUI Agent Online RL 解决方案，将训练基础设施拆解为三层：

环境管理：统一抽象 Docker 虚拟机与物理手机后端，支持 Spare Server 轮转和周期性重启，确保长时间训练的稳定性。
策略优化：支持 GRPO、GiGPO 等主流强化学习算法，提供统一接口供研究者灵活切换。
奖励设计（关键创新）：采用“二元结果奖励 + PRM 逐步奖励”的双层设计。
- 结果奖励：Episode 结束时给出成功/失败的 0/1 信号。
- PRM（过程奖励模型）：对每一步操作进行评估，根据前后截图和历史动作判断是否有效推进任务。
- 效果：这种稠密的逐步反馈极大缓解了 GUI 长序列决策中的奖励稀疏问题，帮助优化器区分有效步骤与无效绕路。

2. 实验成果：小模型大表现

基于 MAI-UI-2B 基座微调的 ClawGUI-2B 模型在 MobileWorld 基准上取得显著突破：

准确率 (SR)：达到 17.1，大幅超越基线模型的 11.1（提升幅度约 6%）。
性能对比：一个仅 2B 参数的模型，达到了接近 8B 模型的水平。

3. ClawGUI-Eval：高复现率的标准化评测

针对 GUI 评测领域长期存在的复现不一致问题（如坐标系统、Prompt 格式差异导致结果偏差），该模块建立了标准的 Infer → Judge → Metric 三阶段流水线：

覆盖范围：涵盖 ScreenSpot-Pro、ScreenSpot-V2、UIVision 等 6 大 Benchmark，支持 Qwen3-VL、Gemini 3.0 Pro 等 11+ 模型。
复现能力：在 48 个有官方基准的测试项中成功复现 46 个，总体复现率达 95.8%。
前沿验证：首次在 ScreenSpot-Pro 上评测 Gemini 3.1 Pro（得分 85.01），并在 ScreenSpot-Pro 上对 Gemini 3.0 Pro 和 Seed 1.8 实现 100% 复现。
关键经验：团队总结了坐标系统匹配（绝对像素 vs 归一化）、图文输入顺序（tv vs vt）、System Prompt 对齐及温度设置（建议 0.0）等影响评测精度的关键细节。

4. OpenClaw-GUI：真机部署与自然语言控制

基于 nanobot 框架构建，该组件实现了 GUI 智能体在真实设备上的落地：

交互方式：用户可通过自然语言指令（如在飞书、钉钉等 12+ 聊天平台发送消息）控制手机，Agent 自动完成截屏、规划路径、点击输入等操作。
集成评测：支持通过指令让 Agent 自动完成环境检测、多 GPU 推理、判分及指标计算，实现 CLI 与 GUI 的协作。
核心能力：
- 跨平台支持 Android (ADB)、鸿蒙 (HDC)、iOS (XCTest)。
- 接入 AutoGLM、MAI-UI、Qwen-VL 等多模型。
- 具备个性化记忆功能，可跨任务复用用户偏好。
- 支持结构化 Episode 记录与回放。

值得关注

CLI 与 GUI 的融合趋势：研究团队认为，尽管 CLI Agent 近期火热，但 GUI 仍是数字世界的主要入口（如微信、银行 App 无 API 接口）。CLI 负责高效执行，GUI 负责人类感知与信任建立，两者互补而非替代。
工程挑战：大规模 Online RL 仍面临登录验证、反爬机制、动态 UI 变化等稳定性难题，ClawGUI-RL 的轮转机制仅为初步探索。
未来路线图：计划推进真机本地部署以避免云端隐私泄露，扩展至桌面/Web 环境的在线 RL，以及基于 OPD 算法的实时强化学习。

项目已开源，地址：https://github.com/ZJU-REAL/ClawGUI

阅读原文详情