具身智能新突破：Gen-1模型验证Scaling Law，1小时学会新任务成功率达99%

2026/04/06 13:17阅读量 114

具身智能独角兽Generalist发布新模型Gen-1，通过50万小时人类活动数据预训练，在包装和折叠等精细任务中将成功率从64%提升至99%，效率提升3倍。该模型仅需1小时实机演示即可适应新任务，连续执行1800次操作成功率仍保持99%，验证了具身领域的Scaling Law。其核心创新在于利用穿戴设备采集人类数据替代遥操作，并引入Paged Attention与Harmonic Reasoning系统解决实时推理延迟问题。

事件概述

具身智能领域初创公司 Generalist 发布了最新机器人模型 Gen-1。该模型在物理交互任务中展现出显著的性能跨越，成功验证了 Scaling Law（规模定律）在具身智能领域的有效性。Gen-1 通过大规模人类行为数据预训练，实现了从“死板执行”到“具备直觉”的进化，能够处理复杂动态场景及突发状况。

核心性能指标

任务成功率：在包装手机、折叠纸箱等精细操作中，成功率由前代的 64% 提升至 99%。
执行效率：折叠标准纸箱的时间从 34 秒缩短至 12.1 秒，效率提升约 3 倍。
稳定性测试：连续执行装箱任务 1800 次，成功率保持在 99%；面对重复性维护任务（如扫地机器人维护 200 次）表现稳定。
泛化能力：仅需 1 小时的实机演示，即可掌握从未见过的陌生任务或适配不同的机械臂身体。

技术架构与创新

1. 数据范式转变：基于人类活动的预训练

研发团队摒弃了昂贵且难以扩展的传统机器人遥操作数据路线，转而采用低成本穿戴设备捕捉数百万项人类活动记录。

数据集规模：构建了包含 50 万小时高保真物理交互的基础数据集。
训练效果：使 AI 在接触机械臂前，已从人类视角洞察空间、时间与物理因果规律。相比前代模型，学习效率提升 10 倍。

2. 推理端关键技术

为解决 PB 级数据流下的响应延迟与动作卡顿问题，引入了两项核心技术：

分页注意力机制 (Paged Attention)：专为物理世界打造，优化计算资源调度，确保动作指令在毫秒级维度内即时发射，消除传统内存管理导致的延迟。
谐波推理系统 (Harmonic Reasoning)：作为推理核心组件，支持多尺度动态调节权重。改变了单一路径预测模式，使模型在执行复杂动态任务时能超越单一权重的性能上限。

行业意义与背景

Scaling Law 验证：Gen-1 的表现证明，只要提供足够的数据和算力，机器人模型同样会产生“开窍”时刻，自发理解物体间的相互影响及“动作导致后果”的逻辑。
即兴智能：面对突发干扰（如零件被撞歪），模型能像经验丰富的工人一样切换抓取角度或使用双手配合，而非报错停滞。这种能力源于对物理常识的真正理解，并通过对齐技术确保操作符合用户规范。
团队背景：创始人 Pete Florence 曾任 Google DeepMind 高级研究科学家，主导过 PaLM-E、RT-2 等里程碑项目。他于 2024 年创立 Generalist，其技术积累为 Gen-1 奠定了理论基础。

阅读原文详情