MindVLA-U1:统一架构让语言真正进入自动驾驶决策,性能首超人类参考轨迹
2026/05/25 15:49阅读量 3
港中文李鸿升团队联合理想汽车、清华大学提出MindVLA-U1架构,通过统一视觉-语言-动作骨干、流式记忆、意图引导(Intent-CFG)和快慢推理路径,在WOD-E2E自动驾驶基准上实现轨迹质量超过人类参考(RFS 8.20 vs 8.13),证明VLA可以在保持语义理解的同时达到甚至超越VA的规划精度,语言能力不再只是附加工件。
事件概述
香港中文大学MMLab、理想汽车和清华大学联合团队在CVPR 2026发表论文《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》,提出一种将视觉、语言、车辆状态、历史记忆和动作生成统一到同一VLM骨干中的新架构,使自动驾驶系统能理解场景语义并直接生成连续驾驶轨迹,在开放环评测中首次达到超过人类参考轨迹的规划效果。
核心架构与设计
- 统一Backbone:视觉、语言、车辆状态、记忆、动作token共同输入VLM骨干,语言通过自回归生成,动作通过flow-matching连续生成,两类任务共享模型表示。
- Streaming Memory:采用FIFO队列逐帧处理连续视频流,历史记忆随车辆运动对齐并更新,减少计算冗余,更适合真实部署。
- Intent-CFG:语言侧先预测驾驶意图(直行、左转、右转),再以此作为条件引导轨迹扩散过程,实现语言理解对动作生成的实际影响。
- 快/慢推理路径:共享同一权重,简单场景走action_only快路径(跳过语言生成),复杂场景走带语言推理的慢路径,兼顾实时性和安全性。
- 后训练强化学习:以RFS(人类评审偏好)为奖励信号优化轨迹,进一步提升评测表现。
关键实验结果
- 验证集RFS(轨迹质量评分)达8.20,超过人类驾驶参考轨迹(8.13);隐藏测试集RFS达7.87,RFS-GT ADE为1.09/2.66m,轨迹误差低于多数已有VA和VLA方法。
- 语言侧预测意图可显著提升轨迹质量:加入Intent-CFG后RFS从7.83提升至7.92。
- Streaming Memory逐帧训练加记忆使RFS从7.69(chunk-wise)提升至7.83,长序列ADE从1.54降至1.50。
- 快路径推理速度接近VA方法,同时保持较好规划质量。
- 模型规模实验表明2B左右表现较好,并非越大越好,瓶颈包括数据规模、训练时长和接口设计。
研究意义与局限
- 意义:证明VLA可兼顾语义理解和连续控制,语言不是VLA性能下降的原因,接口设计(如意图引导)才是关键。流式记忆和快慢路径使模型更贴近真实部署条件。
- 局限:当前仅完成开放环评测,未验证闭环驾驶表现;仅使用3类简单意图,MindLabel中更丰富的20类意图、轨迹评价QA、CoT rationale尚未充分利用。后续需提升长尾场景处理能力和闭环安全性。
