MindVLA-U1:统一架构让语言真正进入自动驾驶决策,性能首超人类参考轨迹

2026/05/25 15:49阅读量 3

港中文李鸿升团队联合理想汽车、清华大学提出MindVLA-U1架构,通过统一视觉-语言-动作骨干、流式记忆、意图引导(Intent-CFG)和快慢推理路径,在WOD-E2E自动驾驶基准上实现轨迹质量超过人类参考(RFS 8.20 vs 8.13),证明VLA可以在保持语义理解的同时达到甚至超越VA的规划精度,语言能力不再只是附加工件。

事件概述

香港中文大学MMLab、理想汽车和清华大学联合团队在CVPR 2026发表论文《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》,提出一种将视觉、语言、车辆状态、历史记忆和动作生成统一到同一VLM骨干中的新架构,使自动驾驶系统能理解场景语义并直接生成连续驾驶轨迹,在开放环评测中首次达到超过人类参考轨迹的规划效果。

核心架构与设计

  • 统一Backbone:视觉、语言、车辆状态、记忆、动作token共同输入VLM骨干,语言通过自回归生成,动作通过flow-matching连续生成,两类任务共享模型表示。
  • Streaming Memory:采用FIFO队列逐帧处理连续视频流,历史记忆随车辆运动对齐并更新,减少计算冗余,更适合真实部署。
  • Intent-CFG:语言侧先预测驾驶意图(直行、左转、右转),再以此作为条件引导轨迹扩散过程,实现语言理解对动作生成的实际影响。
  • 快/慢推理路径:共享同一权重,简单场景走action_only快路径(跳过语言生成),复杂场景走带语言推理的慢路径,兼顾实时性和安全性。
  • 后训练强化学习:以RFS(人类评审偏好)为奖励信号优化轨迹,进一步提升评测表现。

关键实验结果

  • 验证集RFS(轨迹质量评分)达8.20,超过人类驾驶参考轨迹(8.13);隐藏测试集RFS达7.87,RFS-GT ADE为1.09/2.66m,轨迹误差低于多数已有VA和VLA方法。
  • 语言侧预测意图可显著提升轨迹质量:加入Intent-CFG后RFS从7.83提升至7.92。
  • Streaming Memory逐帧训练加记忆使RFS从7.69(chunk-wise)提升至7.83,长序列ADE从1.54降至1.50。
  • 快路径推理速度接近VA方法,同时保持较好规划质量。
  • 模型规模实验表明2B左右表现较好,并非越大越好,瓶颈包括数据规模、训练时长和接口设计。

研究意义与局限

  • 意义:证明VLA可兼顾语义理解和连续控制,语言不是VLA性能下降的原因,接口设计(如意图引导)才是关键。流式记忆和快慢路径使模型更贴近真实部署条件。
  • 局限:当前仅完成开放环评测,未验证闭环驾驶表现;仅使用3类简单意图,MindLabel中更丰富的20类意图、轨迹评价QA、CoT rationale尚未充分利用。后续需提升长尾场景处理能力和闭环安全性。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。