斯坦福Bohg:灵巧手的价值不在“像人”,而在吞吐量与可控子空间——ICRA 2026演讲精编

2026/06/08 10:11阅读量 2

斯坦福大学副教授Jeannette Bohg在ICRA 2026上提出,灵巧手不可替代的价值在于吞吐量和可控子空间,而非模仿人手。她领导的研究团队开发了从物体轨迹学习的UniSim-Real单一RL策略,实现了零样本工具操作泛化,并通过Play-to-Effect微调完成高精度装配任务,同时指出当前开放问题在于弥合低维RL表征与视频丰富物理复杂性之间的鸿沟。

事件概述

2026年6月3日,在ICRA 2026维也纳会议“操作、控制与具身设计”主题Keynote上,斯坦福大学计算机科学系副教授、交互式感知实验室负责人Jeannette Bohg以反问“我们还需要灵巧手吗?”开场,系统阐述了灵巧手在机器人操作领域不可替代的价值及其团队的研究路线。

核心信息

  • 灵巧手的两大优势:吞吐量(throughput)与可控子空间(controllable subspace)。例如:制表专家用小指稳定工具、腕部旋转螺丝,这类高效策略是二指夹爪无法实现的。灵巧手可通过手内操作快速完成工具对齐和高精度任务。
  • 当前困境:22自由度、6驱动轴的灵巧手遥操作数据采集极其困难且低效,主流模仿人手路线受制于运动学重定向的天花板。
  • 核心方法论:团队不走从人手学,而是从物体轨迹学。

技术细节

  1. UniSim-Real统一操作策略:在仿真中对基元物体集合训练单一RL策略,目标信号不是人手姿态,而是物体目标位姿序列(从人类视频经基础模型提取,与人手解耦)。该策略可零样本迁移到大量未见过的工具与任务。
  2. Play-to-Effect精细化微调:将上述“游玩策略”作为预训练起点,针对高精度装配任务(如插销、宜家铰链组装、家具桌腿插入)进行微调。结果显示:比从头训练更快、更鲁棒,且闭环策略可主动应对物体掉落等干扰。

开放问题

Bohg指出当前核心难题是如何弥合“低维度RL物体表征”与“自我中心视频中丰富的视觉-物理复杂性”之间的鸿沟。其团队正在攻克该问题,并探索利用《Masquerade》等工作(在人类视频中用机器人手替换人手训练视觉编码器)来缓解域偏移。

问答要点

  • 针对仿真到现实迁移:团队使用了域随机化(随机化物体形状、大小、物理属性),并在仿真中模拟有噪声的物体检测和传感器延迟,以提升迁移鲁棒性。
  • 对于柔性物体(如布料、面团):目前尚无成熟方法,猜想可在刚体和铰接物体上预训练后,结合已有示范数据微调。
  • 关于策略嵌入更大规模模型:将策略作为VLA模型的Action Head是可能方向,但尚需进一步研究。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。