英伟达ENPIRE框架：AI Agent自主做机器人研究，成功率从0到99%仅3小时

2026/06/20 20:06阅读量 2

英伟达、CMU和Berkeley联合推出具身智能自研框架ENPIRE，让8个Coding Agent各自控制一台双臂机器人，自主完成读论文、改算法、训练策略、部署实验、分析结果并迭代。在Pin Insertion任务中，3小时内成功率从0升至99%，全程无人类干预。ENPIRE通过自动复位、评分和安全控制将物理世界包装成可迭代实验环境，并支持多机器人并行扩展。

事件概述

英伟达GEAR实验室联合CMU和Berkeley推出具身智能Autoresearch框架ENPIRE。该框架允许8个Coding Agent分别控制一台双臂机器人，自主进行机器人研究——包括阅读论文、修改算法、训练策略、部署实验、分析结果、总结经验，并在不满意时更换思路重来。研究员无需实时监控，只需次日查看报告。

核心信息

关键实验成果：在最具代表性的Pin Insertion（将针插入4mm孔洞）任务中，ENPIRE仅用3小时将成功率从0提升至99%，全程无人类参与。
框架结构：ENPIRE由四个模块组成——Environment（环境模块，负责自动复位、自动评分和安全控制）、Policy Improvement（策略改进，Agent可尝试行为克隆、强化学习、启发式规则等）、Rollout（部署测试，在真实机器人上执行并记录数据）、Evolution（进化，8个Agent通过Git共享代码，相互吸收有效方案，淘汰失败路线）。
研究过程类比人类：在Pin Insertion任务中，Agent先尝试行为克隆，效果不佳；随后加入在线强化学习数据，性能提升；再增加正则化项，成功率显著跃升；继续调整Batch Size等超参数，最终达到接近100%成功率。整个过程与人类研究路径类似。
自适应路线选择：在Zip-tie（扎带穿扎）任务中，Agent发现端到端训练效果不佳，主动切换为VLA模型（Vision-Language-Action）完成粗定位，再调用工具API执行精细操作，相当于自主进行了系统架构设计。
物理扩展性：8个机器人并行探索使Pin Insertion达到目标成功率的时间从单机模式下的1.5小时缩短至40分钟。论文提出两项指标衡量扩展代价：Mean Robot Utilization（机器人真正用于实验的时间占比）和Mean Token Utilization（每分钟消耗的Token量）。
经验迁移：Agent在Pin Insertion任务中积累的研究笔记可被直接放入GPU Insertion任务的Prompt中，提升后续研究效率。迁移的不是模型权重或训练数据，而是文字研究经验。
背景定位：ENPIRE被视为Jim Fan提出的“大平行（The Great Parallel）”框架的第四步——自主研究。前三个步骤英伟达已有布局（EgoScale、DreamZero、Dream Dojo），ENPIRE补全了物理世界中自主研究的能力。
开源与团队：ENPIRE将全部开源。一作肖文力（CMU博士生，导师石冠亚），共同一作包括谢佳、Tonghe Zhang、Haotian Lin，共同指导教师为Jim Fan、Yuke Zhu（英伟达）和石冠亚（CMU）。

值得关注

ENPIRE首次将Autoresearch循环从数字世界搬入物理世界，通过自动化实验基础设施解决了具身智能研究中实验复位、评分等瓶颈，实现了机器人研究的闭环迭代。其“物理Scaling”方向——通过扩展机器人舰队而非仅扩展GPU集群来加速研究——可能为具身智能研究范式带来新思路。但Token消耗随Agent数量超线性增长，成本控制仍是挑战。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？