英伟达ENPIRE框架:AI Agent自主做机器人研究,成功率从0到99%仅3小时

2026/06/20 20:06阅读量 2

英伟达、CMU和Berkeley联合推出具身智能自研框架ENPIRE,让8个Coding Agent各自控制一台双臂机器人,自主完成读论文、改算法、训练策略、部署实验、分析结果并迭代。在Pin Insertion任务中,3小时内成功率从0升至99%,全程无人类干预。ENPIRE通过自动复位、评分和安全控制将物理世界包装成可迭代实验环境,并支持多机器人并行扩展。

事件概述

英伟达GEAR实验室联合CMU和Berkeley推出具身智能Autoresearch框架ENPIRE。该框架允许8个Coding Agent分别控制一台双臂机器人,自主进行机器人研究——包括阅读论文、修改算法、训练策略、部署实验、分析结果、总结经验,并在不满意时更换思路重来。研究员无需实时监控,只需次日查看报告。

核心信息

  • 关键实验成果:在最具代表性的Pin Insertion(将针插入4mm孔洞)任务中,ENPIRE仅用3小时将成功率从0提升至99%,全程无人类参与。
  • 框架结构:ENPIRE由四个模块组成——Environment(环境模块,负责自动复位、自动评分和安全控制)、Policy Improvement(策略改进,Agent可尝试行为克隆、强化学习、启发式规则等)、Rollout(部署测试,在真实机器人上执行并记录数据)、Evolution(进化,8个Agent通过Git共享代码,相互吸收有效方案,淘汰失败路线)。
  • 研究过程类比人类:在Pin Insertion任务中,Agent先尝试行为克隆,效果不佳;随后加入在线强化学习数据,性能提升;再增加正则化项,成功率显著跃升;继续调整Batch Size等超参数,最终达到接近100%成功率。整个过程与人类研究路径类似。
  • 自适应路线选择:在Zip-tie(扎带穿扎)任务中,Agent发现端到端训练效果不佳,主动切换为VLA模型(Vision-Language-Action)完成粗定位,再调用工具API执行精细操作,相当于自主进行了系统架构设计。
  • 物理扩展性:8个机器人并行探索使Pin Insertion达到目标成功率的时间从单机模式下的1.5小时缩短至40分钟。论文提出两项指标衡量扩展代价:Mean Robot Utilization(机器人真正用于实验的时间占比)和Mean Token Utilization(每分钟消耗的Token量)。
  • 经验迁移:Agent在Pin Insertion任务中积累的研究笔记可被直接放入GPU Insertion任务的Prompt中,提升后续研究效率。迁移的不是模型权重或训练数据,而是文字研究经验。
  • 背景定位:ENPIRE被视为Jim Fan提出的“大平行(The Great Parallel)”框架的第四步——自主研究。前三个步骤英伟达已有布局(EgoScale、DreamZero、Dream Dojo),ENPIRE补全了物理世界中自主研究的能力。
  • 开源与团队:ENPIRE将全部开源。一作肖文力(CMU博士生,导师石冠亚),共同一作包括谢佳、Tonghe Zhang、Haotian Lin,共同指导教师为Jim Fan、Yuke Zhu(英伟达)和石冠亚(CMU)。

值得关注

ENPIRE首次将Autoresearch循环从数字世界搬入物理世界,通过自动化实验基础设施解决了具身智能研究中实验复位、评分等瓶颈,实现了机器人研究的闭环迭代。其“物理Scaling”方向——通过扩展机器人舰队而非仅扩展GPU集群来加速研究——可能为具身智能研究范式带来新思路。但Token消耗随Agent数量超线性增长,成本控制仍是挑战。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。