李飞飞、Jim Fan、徐丹飞联手提出T-Rex框架,为具身智能开辟触觉独立通道

2026/07/05 09:21阅读量 3

斯坦福李飞飞、英伟达Jim Fan、佐治亚理工徐丹飞等联合提出T-Rex框架,针对触觉与视觉频率错配导致性能反降的问题,设计混合Transformer专家架构,给触觉独立高频通道。在12项精细操作任务上平均成功率提升超30%,挑战了“万物皆token”的通用范式。

事件概述

一支由斯坦福教授李飞飞、英伟达具身智能负责人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔,联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的团队,在具身智能领域提出全新框架T-Rex(Tactile-Reactive Dexterous Manipulation)。

核心发现

团队在π0.5模型上做消融实验时发现,将触觉信号作为额外信息输入模型后,任务成功率从17%骤降至6%。分析认为根本原因在于频率错配:视觉是慢感知(约5帧/秒),触觉是快感知(需20次/秒以上),将两种时间尺度截然不同的信号强行塞入低频Transformer,导致触觉高频优势无法发挥,反而破坏视觉表征。

技术架构

T-Rex提出混合Transformer专家架构(Mixture-of-Transformers, MoT),为触觉开辟独立高频通道:

  • 潜在专家:处理视觉和语言信息,预测场景演变,提供上下文。
  • 动作专家:负责低频(约5次/秒)生成动作草图(去噪过程)。
  • 触觉专家:在接触瞬间以20次/秒以上高频读取触点力和形变信号,在动作草图上做毫秒级精细修正。

三个专家各自运行独立时钟,协同输出完整动作。触觉专家通过时空触觉编码器(含VQ-VAE模块)将时序力数据压缩为离散“触觉词汇”,抵抗信号漂移。

训练数据包括100小时触觉同步数据集(200多种物品、22种动作基元、7700多条轨迹),先以22,889小时人类第一视角视频预训练,再用机器人触觉数据进行跨模态对齐,最后少量特定任务示范即可激活专项能力。

实验结果

在翻书页、转移生鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、模拟化学滴定、抽卡片、发扑克牌、拧灯泡等12项精细操作任务上,T-Rex相比最强基线模型取得超过30%的平均成功率提升。消融实验确认:切除触觉或取消异步运行机制均会导致性能严重下降。

意义与局限

T-Rex向行业发出警示:“万物皆token、一切进大模型”的通用范式并不适用于所有感知模态。触觉作为“快变量”需要独立的高频闭环控制回路。该框架在机器人身上复刻了神经科学“双流假说”的智慧。

当前局限性包括:行为克隆受限于示范数据覆盖度,触觉感知仅限于指尖而非全手掌,传感器标定与漂移问题仍有工程难点。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。