Apple 提出 AutoPlay:通过环境探索实现智能体合成任务规模化生成

Apple ML Research 推出 AutoPlay 框架,利用多模态大语言模型(MLLM)主动探索交互环境以自动生成可执行、可验证的合成任务,解决了传统方法依赖人工标注或信息匮乏导致的扩展性瓶颈。该框架在 Android 和 Ubuntu 应用上生成了 3 万多个任务,无需人工干预即可训练移动和桌面智能体。实验表明,基于 AutoPlay 数据训练的 UI 智能体在移动端成功率提升 20.0%,桌面端提升 10.9%;结合 MLLM 验证器奖励进行强化学习后,性能进一步额外提升 5.7%。

事件概述

针对多模态大语言模型(MLLM)在计算机使用、网页导航及机器人领域的交互式智能体训练中,面临高质量下游任务数据集稀缺且难以扩展的痛点,Apple Machine Learning Research 提出了 AutoPlay 框架。该方法摒弃了依赖昂贵的人工标注或仅凭有限环境信息进行提示的传统模式,转而采用显式的“环境探索”策略来发现交互状态并合成任务。

核心机制

AutoPlay 包含两个关键阶段:

  1. 探索阶段(Exploration Phase):由一个 MLLM 智能体作为“探索者”,系统性地遍历交互环境,挖掘新颖的环境状态和功能特性。
  2. 任务生成阶段(Task Generation Phase):利用探索轨迹作为上下文,结合一组任务指导提示词(task guideline prompts),由任务生成器合成多样化、可执行且可验证的任务。

该流程完全自动化,通过 MLLM 任务执行器和验证器实现了大规模任务演示的合成,无需人工介入。

实验数据与成果

研究团队在以下场景中验证了 AutoPlay 的有效性:

  • 数据规模:在 20 个 Android 应用中生成了 20,000 个任务;在 13 个 Ubuntu 应用中生成了 10,000 个任务。
  • 性能提升
    • 基于生成的数据进行训练,移动场景(mobile-use)智能体的成功率提升了 20.0%
    • 桌面场景(computer-use)智能体的成功率提升了 10.9%
  • 强化学习增益:将 AutoPlay 生成的任务与基于 MLLM 验证器的奖励机制结合,用于扩展 UI 智能体的强化学习训练,带来了额外的 5.7% 性能增益。

结论

AutoPlay 证明了通过环境探索进行合成任务生成的可扩展性,显著降低了对人工标注的依赖,为后续训练具备实际能力的 MLLM 智能体提供了高效的数据解决方案。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。