清华AIR开源UniLab：机器人运控训练进入分钟级，CPU+GPU异构架构提速3-10倍

2026/06/02 11:57阅读量 4

清华大学智能产业研究院（AIR）DISCOVER Lab联合多所高校及企业推出机器人强化学习训练架构UniLab。该架构采用CPU高效仿真+GPU策略训练的异构设计，在相同硬件上实现端到端训练速度比传统方案快3-10倍，人形机器人行走训练仅需3分钟。UniLab已开源，支持CUDA、Apple、AMD、Intel等多种后端，Mac也可本地训练。

清华大学智能产业研究院（AIR）DISCOVER Lab联合清华、上交、上海创智学院及谋先飞技术、求之科技、原力灵机等，推出机器人强化学习训练架构UniLab。该架构打破传统“GPU包揽全部计算”的范式，采用“CPU高效仿真+GPU策略训练”的异构高吞吐设计，在多项运控任务上实现数倍效率提升。

核心突破

异构流水线重叠：UniLab采用异步异构架构，CPU侧利用多核并行运行MuJoCo或MotrixSim高保真物理引擎，GPU侧专注策略网络梯度更新。通过共享内存建立无锁运行时缓冲区，当GPU执行当前Batch网络更新时，CPU已并发完成下一步环境仿真，消除数据搬运延迟，最大化硬件利用率。
3至10倍端到端加速：在相同硬件基准测试中，UniLab达到相同目标奖励的训练速度比传统方案快3-10倍。已成功将训练策略部署到六类真机任务（四足行走、人形全身运动追踪（含翻跟头、攀爬）、灵巧手操作），完成仿真到真机闭环验证。
跨平台兼容，Mac可训：UniLab原生支持CUDA、Apple、AMD、Intel等后端，适配PPO、APPO、SAC、TD3等主流算法。在Apple Silicon Mac上，借助统一内存架构（UMA）低延迟特性，CPU仿真与GPU学习之间数据传输无需跨越PCIe总线，大幅降低开销，使Mac本地训练人形机器人成为现实。
全品类任务与超高效训练：统一任务接口覆盖四足、人形行走、高动态动作跟踪（G1 Flip、G1 WallFlip、Dance等）、灵巧手精细操作（Sharpa hand）、全身手脚协同（Loco-Manipulation）。在4090+9950×3d系统上，12秒训练好四足行走，3分钟人形G1学会走路，将机器人运控训练推向“分钟级”时代。
工业级代码架构：零成本上手，3分钟配置本地环境，5分钟运行首个demo，面向AI-Native的开发协作模式便于模型和算法迁移。

开源与未来

UniLab现已正式开源。未来将围绕接触密集型灵巧操作的物理保真度评测、算法benchmark、多模态触觉策略等方向迭代，扩展为通用机器人学习研究平台。

项目主页：https://unilabsim.github.io
论文链接：https://arxiv.org/abs/2605.30313
代码仓库：https://github.com/unilabsim/UniLab

阅读原文详情

核心突破

开源与未来

准备好启动您的定制项目了吗？