ZJU-REAL开源ClawGUI:打通GUI智能体训练、评测与部署全流程
2026/04/19 12:25阅读量 4
浙江大学REAL团队推出开源框架ClawGUI,首次实现GUI智能体在线强化学习训练、标准化评测与真机部署的端到端闭环。该框架通过引入过程奖励模型(PRM)解决长序列决策中的奖励稀疏问题,使2B参数模型在MobileWorld基准上达到17.1 SR,性能接近8B模型。此外,其评测组件实现了95.8%的复现率,并支持自然语言直接控制真实手机设备。
事件概述
来自 ZJU-REAL 的研究团队发布了开源框架 ClawGUI,旨在解决当前 GUI 智能体研究中训练、评测与部署环节割裂的结构性难题。该框架提供了一条完整的流水线:
- ClawGUI-RL:用于 GUI 智能体的在线强化学习训练。
- ClawGUI-Eval:标准化的评测套件。
- OpenClaw-GUI:面向真实设备的部署工具。
这一架构使得从仿真环境训练到真机落地验证的闭环成为可能,无需人工干预或预设脚本,AI 即可通过视觉理解屏幕并执行操作。
核心信息
1. ClawGUI-RL:在线强化学习与奖励机制
该模块是开源社区中少数经过端到端验证的 GUI Agent Online RL 解决方案,将训练基础设施拆解为三层:
- 环境管理:统一抽象 Docker 虚拟机与物理手机后端,支持 Spare Server 轮转和周期性重启,确保长时间训练的稳定性。
- 策略优化:支持 GRPO、GiGPO 等主流强化学习算法,提供统一接口供研究者灵活切换。
- 奖励设计(关键创新):采用“二元结果奖励 + PRM 逐步奖励”的双层设计。
- 结果奖励:Episode 结束时给出成功/失败的 0/1 信号。
- PRM(过程奖励模型):对每一步操作进行评估,根据前后截图和历史动作判断是否有效推进任务。
- 效果:这种稠密的逐步反馈极大缓解了 GUI 长序列决策中的奖励稀疏问题,帮助优化器区分有效步骤与无效绕路。
2. 实验成果:小模型大表现
基于 MAI-UI-2B 基座微调的 ClawGUI-2B 模型在 MobileWorld 基准上取得显著突破:
- 准确率 (SR):达到 17.1,大幅超越基线模型的 11.1(提升幅度约 6%)。
- 性能对比:一个仅 2B 参数的模型,达到了接近 8B 模型的水平。
3. ClawGUI-Eval:高复现率的标准化评测
针对 GUI 评测领域长期存在的复现不一致问题(如坐标系统、Prompt 格式差异导致结果偏差),该模块建立了标准的 Infer → Judge → Metric 三阶段流水线:
- 覆盖范围:涵盖 ScreenSpot-Pro、ScreenSpot-V2、UIVision 等 6 大 Benchmark,支持 Qwen3-VL、Gemini 3.0 Pro 等 11+ 模型。
- 复现能力:在 48 个有官方基准的测试项中成功复现 46 个,总体复现率达 95.8%。
- 前沿验证:首次在 ScreenSpot-Pro 上评测 Gemini 3.1 Pro(得分 85.01),并在 ScreenSpot-Pro 上对 Gemini 3.0 Pro 和 Seed 1.8 实现 100% 复现。
- 关键经验:团队总结了坐标系统匹配(绝对像素 vs 归一化)、图文输入顺序(tv vs vt)、System Prompt 对齐及温度设置(建议 0.0)等影响评测精度的关键细节。
4. OpenClaw-GUI:真机部署与自然语言控制
基于 nanobot 框架构建,该组件实现了 GUI 智能体在真实设备上的落地:
- 交互方式:用户可通过自然语言指令(如在飞书、钉钉等 12+ 聊天平台发送消息)控制手机,Agent 自动完成截屏、规划路径、点击输入等操作。
- 集成评测:支持通过指令让 Agent 自动完成环境检测、多 GPU 推理、判分及指标计算,实现 CLI 与 GUI 的协作。
- 核心能力:
- 跨平台支持 Android (ADB)、鸿蒙 (HDC)、iOS (XCTest)。
- 接入 AutoGLM、MAI-UI、Qwen-VL 等多模型。
- 具备个性化记忆功能,可跨任务复用用户偏好。
- 支持结构化 Episode 记录与回放。
值得关注
- CLI 与 GUI 的融合趋势:研究团队认为,尽管 CLI Agent 近期火热,但 GUI 仍是数字世界的主要入口(如微信、银行 App 无 API 接口)。CLI 负责高效执行,GUI 负责人类感知与信任建立,两者互补而非替代。
- 工程挑战:大规模 Online RL 仍面临登录验证、反爬机制、动态 UI 变化等稳定性难题,ClawGUI-RL 的轮转机制仅为初步探索。
- 未来路线图:计划推进真机本地部署以避免云端隐私泄露,扩展至桌面/Web 环境的在线 RL,以及基于 OPD 算法的实时强化学习。
项目已开源,地址:https://github.com/ZJU-REAL/ClawGUI
