自变量发布跨模态动作分词器X-Tokenizer，对齐与长程任务性能显著提升

2026/07/02 18:32阅读量 2

自变量机器人提出跨模态具身动作分词器X-Tokenizer，采用语义残差量化（SRQ）将动作离散化为语义Token，在240万条轨迹上预训练。相比FAST，多模态对齐能力提升13.5%，长程任务性能提升8.25%，RoboTwin 2.0得分达82.8。

事件概述

自变量机器人发布跨模态具身动作分词器X-Tokenizer，重新定义了VLA（视觉-语言-动作）模型中的动作离散化任务：从单纯的“压缩-重建”转变为“多模态推理与动作之间的语义接口学习”。该工作认为，动作分词器不应仅基于动作本身做压缩，而应基于多模态上下文进行设计，充当动作模态与视觉-语言模态之间的语义桥梁。

核心架构与方法

X-Tokenizer采用轻量级“编码器-语义残差量化（SRQ）-解码器”架构。核心创新在于SRQ：在标准残差向量量化（RVQ）上施加非对称监督，使第一层捕获粗粒度动作意图（形成离散动作语言），更深层级保留细粒度几何残差。
引入三类跨模态监督信号（仅在预训练使用，推理时移除）：

掩码动作建模（MAM）
与预训练VLM表征空间的对比对齐
下一帧视觉-语言特征预测
这使动作Token在预训练阶段即与视觉、语言语义共享同一表示空间。

预训练数据与实验表现

在涵盖17个机械臂系列、240万条轨迹（20亿动作帧）上预训练后冻结，作为可复用模块插入VLA主干。

抗噪声能力：SRQ拆分的动作ID在噪声σ=0.008下WER为0.526（噪声被第2-4层吸收），而FAST的WER达1.445（无法区分主动作与噪声）。
RoboTwin 2.0基准：使用WALL-OSS + X-Tokenizer在简单和困难任务中均超过Pi 0、Pi 0.5、X-VLA。
真机测试：7个桌面任务（5短期+2长程），X-Tokenizer优于或持平其他方法，长程推理任务性能提升8.25%。

值得关注

该工作验证了核心观点：VLA预训练中的动作分词应基于多模态上下文设计，而不仅压缩动作本身。对齐动作与其他模态信息带来的性能提升显著，为未来具身智能动作分词研究提供了新方向。

阅读原文详情

事件概述

核心架构与方法

预训练数据与实验表现

值得关注

准备好启动您的定制项目了吗？