具身智能新突破:Gen-1模型验证Scaling Law,1小时学会新任务成功率达99%
2026/04/06 13:17阅读量 45
具身智能独角兽Generalist发布新模型Gen-1,通过50万小时人类活动数据预训练,在包装和折叠等精细任务中将成功率从64%提升至99%,效率提升3倍。该模型仅需1小时实机演示即可适应新任务,连续执行1800次操作成功率仍保持99%,验证了具身领域的Scaling Law。其核心创新在于利用穿戴设备采集人类数据替代遥操作,并引入Paged Attention与Harmonic Reasoning系统解决实时推理延迟问题。
事件概述
具身智能领域初创公司 Generalist 发布了最新机器人模型 Gen-1。该模型在物理交互任务中展现出显著的性能跨越,成功验证了 Scaling Law(规模定律)在具身智能领域的有效性。Gen-1 通过大规模人类行为数据预训练,实现了从“死板执行”到“具备直觉”的进化,能够处理复杂动态场景及突发状况。
核心性能指标
- 任务成功率:在包装手机、折叠纸箱等精细操作中,成功率由前代的 64% 提升至 99%。
- 执行效率:折叠标准纸箱的时间从 34 秒缩短至 12.1 秒,效率提升约 3 倍。
- 稳定性测试:连续执行装箱任务 1800 次,成功率保持在 99%;面对重复性维护任务(如扫地机器人维护 200 次)表现稳定。
- 泛化能力:仅需 1 小时的实机演示,即可掌握从未见过的陌生任务或适配不同的机械臂身体。
技术架构与创新
1. 数据范式转变:基于人类活动的预训练
研发团队摒弃了昂贵且难以扩展的传统机器人遥操作数据路线,转而采用低成本穿戴设备捕捉数百万项人类活动记录。
- 数据集规模:构建了包含 50 万小时高保真物理交互的基础数据集。
- 训练效果:使 AI 在接触机械臂前,已从人类视角洞察空间、时间与物理因果规律。相比前代模型,学习效率提升 10 倍。
2. 推理端关键技术
为解决 PB 级数据流下的响应延迟与动作卡顿问题,引入了两项核心技术:
- 分页注意力机制 (Paged Attention):专为物理世界打造,优化计算资源调度,确保动作指令在毫秒级维度内即时发射,消除传统内存管理导致的延迟。
- 谐波推理系统 (Harmonic Reasoning):作为推理核心组件,支持多尺度动态调节权重。改变了单一路径预测模式,使模型在执行复杂动态任务时能超越单一权重的性能上限。
行业意义与背景
- Scaling Law 验证:Gen-1 的表现证明,只要提供足够的数据和算力,机器人模型同样会产生“开窍”时刻,自发理解物体间的相互影响及“动作导致后果”的逻辑。
- 即兴智能:面对突发干扰(如零件被撞歪),模型能像经验丰富的工人一样切换抓取角度或使用双手配合,而非报错停滞。这种能力源于对物理常识的真正理解,并通过对齐技术确保操作符合用户规范。
- 团队背景:创始人 Pete Florence 曾任 Google DeepMind 高级研究科学家,主导过 PaLM-E、RT-2 等里程碑项目。他于 2024 年创立 Generalist,其技术积累为 Gen-1 奠定了理论基础。
