三星研究院提出 DAM-VLA:解耦手臂与夹爪动作,刷新机器人操控 SOTA
三星研究院在 ICRA 2026 提出 DAM-VLA 框架,首次将机器人手臂的大幅度运动与夹爪的精细操作进行解耦建模。该模型通过双通道视觉编码和 VLM 驱动的动作路由机制,动态分配全局与局部视觉特征至专用扩散模型,显著提升了长时程任务的执行成功率。实验显示,DAM-VLA 在真实机器人任务中平均成功率达 86.8%,远超现有基线方法,并验证了 DINOv2 不同 token 在全局感知与局部几何信息分工上的有效性。
事件概述
三星研究院(Samsung Research)提出了 DAM-VLA(Dynamic Action Model-Based Vision-Language-Action),一种针对机器人操控的新型视觉 - 语言 - 动作模型。该研究发表于 ICRA 2026,核心突破在于打破了传统 VLA 模型“一刀切”处理所有动作的局限,首次实现了手臂粗动作与夹爪精细动作的解耦建模。
核心架构与方法
DAM-VLA 通过三大组件协同工作,解决传统模型在路径约束、视觉注意力及数据分布上的内在矛盾:
-
双通道视觉编码与 VLM 骨架
- 采用 DINOv2 和 SigLIP 两种视觉编码器提取特征。
- DINOv2 Class Token:承载场景级全局语义,专门服务于手臂运动模型。
- DINOv2 Register Token:承载精细局部几何信息,专门服务于夹爪操作模型。
- 利用 LLaMA-2 的浅层输出进行动作路由决策,深层输出用于动作预测,实现视觉信息与操控阶段的精准匹配。
-
VLM 驱动的动作路由机制
- 引入可学习的路由权重 $w$,由 VLM 根据当前操控阶段动态选择激活哪个模型:
- 当 $w < 0.5$ 时,激活手臂运动模型(接收全局特征,预测大范围粗动作)。
- 当 $w \ge 0.5$ 时,激活夹爪操作模型(接收局部特征,精细预测抓取姿态)。
- 两个专用的 DiT 扩散模型并行训练,确保“该全局时全局,该精细时精细”。
- 引入可学习的路由权重 $w$,由 VLM 根据当前操控阶段动态选择激活哪个模型:
-
双尺度动作加权机制
- 轨迹级权重:采用非对称高斯分布(前沿 $\sigma=6$ 宽,后沿 $\sigma=2$ 窄),在夹爪状态转换点前后施加差异化权重,模拟人类“操控前需充分准备”的直觉。
- Action-chunk 级权重:采用指数衰减($\gamma=0.8$),确保近期动作预测权重更大。
- 该机制显著提升了长时程复杂任务中的时序一致性。
关键性能表现
在 Franka 机器人及仿真环境下的多项基准测试中,DAM-VLA 全面刷新了 State-of-the-Art (SOTA):
-
Pick-and-Place 任务(80 次试验):
- 平均成功率:86.8%(对比 CogACT 的 62.9%,提升 23.9 个百分点)。
- 分布内任务成功率:91.4%(vs CogACT 65.7%)。
- 分布外泛化成功率:82.2%(vs CogACT 60.0%)。
-
FurnitureBench One-Leg 组装任务(连续 5 步长时程操控):
- 最终成功率:56%(对比 CogACT 的 42% 和 OpenVLA 的 29%)。
- 消融实验证实,双尺度加权机制是维持长时程动作连贯性的核心贡献。
研究启示
该研究首次系统验证了 DINOv2 的 class token 与 register token 具有天然的全局 - 局部信息分工特性。无需额外的特征对齐训练,仅通过路由机制即可让模型的视觉感知能力与具体的操控阶段高度匹配,为未来 VLA 模型的视觉编码设计提供了重要的实证依据。
相关资源:
