MindVLA-U1：统一架构让语言真正进入自动驾驶决策，性能首超人类参考轨迹

2026/05/25 15:49阅读量 3

港中文李鸿升团队联合理想汽车、清华大学提出MindVLA-U1架构，通过统一视觉-语言-动作骨干、流式记忆、意图引导（Intent-CFG）和快慢推理路径，在WOD-E2E自动驾驶基准上实现轨迹质量超过人类参考（RFS 8.20 vs 8.13），证明VLA可以在保持语义理解的同时达到甚至超越VA的规划精度，语言能力不再只是附加工件。

事件概述

香港中文大学MMLab、理想汽车和清华大学联合团队在CVPR 2026发表论文《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》，提出一种将视觉、语言、车辆状态、历史记忆和动作生成统一到同一VLM骨干中的新架构，使自动驾驶系统能理解场景语义并直接生成连续驾驶轨迹，在开放环评测中首次达到超过人类参考轨迹的规划效果。

核心架构与设计

统一Backbone：视觉、语言、车辆状态、记忆、动作token共同输入VLM骨干，语言通过自回归生成，动作通过flow-matching连续生成，两类任务共享模型表示。
Streaming Memory：采用FIFO队列逐帧处理连续视频流，历史记忆随车辆运动对齐并更新，减少计算冗余，更适合真实部署。
Intent-CFG：语言侧先预测驾驶意图（直行、左转、右转），再以此作为条件引导轨迹扩散过程，实现语言理解对动作生成的实际影响。
快/慢推理路径：共享同一权重，简单场景走action_only快路径（跳过语言生成），复杂场景走带语言推理的慢路径，兼顾实时性和安全性。
后训练强化学习：以RFS（人类评审偏好）为奖励信号优化轨迹，进一步提升评测表现。

关键实验结果

验证集RFS（轨迹质量评分）达8.20，超过人类驾驶参考轨迹（8.13）；隐藏测试集RFS达7.87，RFS-GT ADE为1.09/2.66m，轨迹误差低于多数已有VA和VLA方法。
语言侧预测意图可显著提升轨迹质量：加入Intent-CFG后RFS从7.83提升至7.92。
Streaming Memory逐帧训练加记忆使RFS从7.69（chunk-wise）提升至7.83，长序列ADE从1.54降至1.50。
快路径推理速度接近VA方法，同时保持较好规划质量。
模型规模实验表明2B左右表现较好，并非越大越好，瓶颈包括数据规模、训练时长和接口设计。

研究意义与局限

意义：证明VLA可兼顾语义理解和连续控制，语言不是VLA性能下降的原因，接口设计（如意图引导）才是关键。流式记忆和快慢路径使模型更贴近真实部署条件。
局限：当前仅完成开放环评测，未验证闭环驾驶表现；仅使用3类简单意图，MindLabel中更丰富的20类意图、轨迹评价QA、CoT rationale尚未充分利用。后续需提升长尾场景处理能力和闭环安全性。

阅读原文详情

事件概述

核心架构与设计

关键实验结果

研究意义与局限

准备好启动您的定制项目了吗？