清华AIR开源UniLab:机器人运控训练进入分钟级,CPU+GPU异构架构提速3-10倍

2026/06/02 11:57阅读量 4

清华大学智能产业研究院(AIR)DISCOVER Lab联合多所高校及企业推出机器人强化学习训练架构UniLab。该架构采用CPU高效仿真+GPU策略训练的异构设计,在相同硬件上实现端到端训练速度比传统方案快3-10倍,人形机器人行走训练仅需3分钟。UniLab已开源,支持CUDA、Apple、AMD、Intel等多种后端,Mac也可本地训练。

清华大学智能产业研究院(AIR)DISCOVER Lab联合清华、上交、上海创智学院及谋先飞技术、求之科技、原力灵机等,推出机器人强化学习训练架构UniLab。该架构打破传统“GPU包揽全部计算”的范式,采用“CPU高效仿真+GPU策略训练”的异构高吞吐设计,在多项运控任务上实现数倍效率提升。

核心突破

  • 异构流水线重叠:UniLab采用异步异构架构,CPU侧利用多核并行运行MuJoCo或MotrixSim高保真物理引擎,GPU侧专注策略网络梯度更新。通过共享内存建立无锁运行时缓冲区,当GPU执行当前Batch网络更新时,CPU已并发完成下一步环境仿真,消除数据搬运延迟,最大化硬件利用率。

  • 3至10倍端到端加速:在相同硬件基准测试中,UniLab达到相同目标奖励的训练速度比传统方案快3-10倍。已成功将训练策略部署到六类真机任务(四足行走、人形全身运动追踪(含翻跟头、攀爬)、灵巧手操作),完成仿真到真机闭环验证。

  • 跨平台兼容,Mac可训:UniLab原生支持CUDA、Apple、AMD、Intel等后端,适配PPO、APPO、SAC、TD3等主流算法。在Apple Silicon Mac上,借助统一内存架构(UMA)低延迟特性,CPU仿真与GPU学习之间数据传输无需跨越PCIe总线,大幅降低开销,使Mac本地训练人形机器人成为现实。

  • 全品类任务与超高效训练:统一任务接口覆盖四足、人形行走、高动态动作跟踪(G1 Flip、G1 WallFlip、Dance等)、灵巧手精细操作(Sharpa hand)、全身手脚协同(Loco-Manipulation)。在4090+9950×3d系统上,12秒训练好四足行走,3分钟人形G1学会走路,将机器人运控训练推向“分钟级”时代。

  • 工业级代码架构:零成本上手,3分钟配置本地环境,5分钟运行首个demo,面向AI-Native的开发协作模式便于模型和算法迁移。

开源与未来

UniLab现已正式开源。未来将围绕接触密集型灵巧操作的物理保真度评测、算法benchmark、多模态触觉策略等方向迭代,扩展为通用机器人学习研究平台。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。