火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

李飞飞、Jim Fan、徐丹飞联手提出T-Rex框架，为具身智能开辟触觉独立通道

2026/07/05 09:21阅读量 3

斯坦福李飞飞、英伟达Jim Fan、佐治亚理工徐丹飞等联合提出T-Rex框架，针对触觉与视觉频率错配导致性能反降的问题，设计混合Transformer专家架构，给触觉独立高频通道。在12项精细操作任务上平均成功率提升超30%，挑战了“万物皆token”的通用范式。

事件概述

一支由斯坦福教授李飞飞、英伟达具身智能负责人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔，联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的团队，在具身智能领域提出全新框架T-Rex（Tactile-Reactive Dexterous Manipulation）。

核心发现

团队在π0.5模型上做消融实验时发现，将触觉信号作为额外信息输入模型后，任务成功率从17%骤降至6%。分析认为根本原因在于频率错配：视觉是慢感知（约5帧/秒），触觉是快感知（需20次/秒以上），将两种时间尺度截然不同的信号强行塞入低频Transformer，导致触觉高频优势无法发挥，反而破坏视觉表征。

技术架构

T-Rex提出混合Transformer专家架构（Mixture-of-Transformers, MoT），为触觉开辟独立高频通道：

潜在专家：处理视觉和语言信息，预测场景演变，提供上下文。
动作专家：负责低频（约5次/秒）生成动作草图（去噪过程）。
触觉专家：在接触瞬间以20次/秒以上高频读取触点力和形变信号，在动作草图上做毫秒级精细修正。

三个专家各自运行独立时钟，协同输出完整动作。触觉专家通过时空触觉编码器（含VQ-VAE模块）将时序力数据压缩为离散“触觉词汇”，抵抗信号漂移。

训练数据包括100小时触觉同步数据集（200多种物品、22种动作基元、7700多条轨迹），先以22,889小时人类第一视角视频预训练，再用机器人触觉数据进行跨模态对齐，最后少量特定任务示范即可激活专项能力。

实验结果

在翻书页、转移生鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、模拟化学滴定、抽卡片、发扑克牌、拧灯泡等12项精细操作任务上，T-Rex相比最强基线模型取得超过30%的平均成功率提升。消融实验确认：切除触觉或取消异步运行机制均会导致性能严重下降。

意义与局限

T-Rex向行业发出警示：“万物皆token、一切进大模型”的通用范式并不适用于所有感知模态。触觉作为“快变量”需要独立的高频闭环控制回路。该框架在机器人身上复刻了神经科学“双流假说”的智慧。

当前局限性包括：行为克隆受限于示范数据覆盖度，触觉感知仅限于指尖而非全手掌，传感器标定与漂移问题仍有工程难点。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例