自变量发布跨模态动作分词器X-Tokenizer,对齐与长程任务性能显著提升
2026/07/02 18:32阅读量 2
自变量机器人提出跨模态具身动作分词器X-Tokenizer,采用语义残差量化(SRQ)将动作离散化为语义Token,在240万条轨迹上预训练。相比FAST,多模态对齐能力提升13.5%,长程任务性能提升8.25%,RoboTwin 2.0得分达82.8。
事件概述
自变量机器人发布跨模态具身动作分词器X-Tokenizer,重新定义了VLA(视觉-语言-动作)模型中的动作离散化任务:从单纯的“压缩-重建”转变为“多模态推理与动作之间的语义接口学习”。该工作认为,动作分词器不应仅基于动作本身做压缩,而应基于多模态上下文进行设计,充当动作模态与视觉-语言模态之间的语义桥梁。
核心架构与方法
X-Tokenizer采用轻量级“编码器-语义残差量化(SRQ)-解码器”架构。核心创新在于SRQ:在标准残差向量量化(RVQ)上施加非对称监督,使第一层捕获粗粒度动作意图(形成离散动作语言),更深层级保留细粒度几何残差。
引入三类跨模态监督信号(仅在预训练使用,推理时移除):
- 掩码动作建模(MAM)
- 与预训练VLM表征空间的对比对齐
- 下一帧视觉-语言特征预测
这使动作Token在预训练阶段即与视觉、语言语义共享同一表示空间。
预训练数据与实验表现
在涵盖17个机械臂系列、240万条轨迹(20亿动作帧)上预训练后冻结,作为可复用模块插入VLA主干。
- 抗噪声能力:SRQ拆分的动作ID在噪声σ=0.008下WER为0.526(噪声被第2-4层吸收),而FAST的WER达1.445(无法区分主动作与噪声)。
- RoboTwin 2.0基准:使用WALL-OSS + X-Tokenizer在简单和困难任务中均超过Pi 0、Pi 0.5、X-VLA。
- 真机测试:7个桌面任务(5短期+2长程),X-Tokenizer优于或持平其他方法,长程推理任务性能提升8.25%。
值得关注
该工作验证了核心观点:VLA预训练中的动作分词应基于多模态上下文设计,而不仅压缩动作本身。对齐动作与其他模态信息带来的性能提升显著,为未来具身智能动作分词研究提供了新方向。
