Momenta押注世界模型而非VLA，上汽大众首发R7大模型

2026/03/23 16:47阅读量 84

Momenta宣布下一代飞轮大模型R7将引入世界模型与强化学习，以赋予AI理解物理规律的能力，该车型将由上汽大众ID.ERA 9X首发。CEO曹旭东指出，相比VLA路线，世界模型更契合自动驾驶对物理因果推理的需求，且传感器选型的重要性已降至第三梯队，核心在于算法架构、数据体系与研发能力。

事件概述

Momenta正式剧透其下一代飞轮大模型R7，决定放弃当前行业热议的VLA（Vision-Language-Action）路线，转而押注世界模型（World Model）。该模型将世界模型引入强化学习框架，旨在让AI具备理解物理世界和运动因果关系的能力。上汽大众总经理陶海龙在亲测R7性能后，直接推动上汽大众旗舰车型ID.ERA 9X成为该技术的全球首发载体。

核心信息：技术路线选择

1. 为何转向世界模型？

突破模仿学习瓶颈：传统的模仿学习范式仅能复制人类轨迹，无法超越人类司机水平。Momenta此前推出的基于强化学习的R6模型已实现开放环境下的自主探索，而R7进一步引入世界模型，使AI能从综合安全、舒适和效率维度筛选最优轨迹。
物理认知需求：曹旭东认为“物理AI时代”已到来，自动驾驶必须具备对物理世界的认知能力。世界模型能让AI基于完整的物理信息做出预测和规划，理解物体交互的潜在可能，这是单纯模仿或语义对齐无法实现的。

2. 为何不选VLA？

曹旭东从直觉与技术两个维度解释了拒绝VLA的原因：

直觉层面：LLM擅长的写代码、解数学题等能力对驾驶帮助有限。开车需要的是对物理规律的即时反应和安全预判，这正是世界模型通过强化学习积累“肌肉记忆”所擅长的。
技术层面：VLA训练起源于LLM，底座参数量通常在100B左右，侧重于视觉与语言的对齐，导致语义优先级高于驾驶任务。大量参数未用于解决具体的驾驶问题，属于“好钢没用在刀刃上”。相比之下，世界模型更能雪中送炭地解决自动驾驶的核心难题。

关键结论：传感器重要性降级

关于底层硬件的争论中，曹旭东提出了新的要素排序，将传感器选型的重要性排在第三位：

第一梯队：算法架构、数据和体系能力。单一算法壁垒低，关键在于整合算法形成合力，以及建立可反向传播的研发体系（识别高价值任务并快速迭代）。
第二梯队：芯片算力。直接决定模型能力的上限。
第三梯队：传感器。曹旭东指出，纯视觉方案（仅用摄像头）相比人类双眼已是“超配”，因为摄像头覆盖范围更广。随着数据、算法和体系能力的提升，堆砌激光雷达等传感器的边际效应正在减弱，这已成为行业共识。

首发车型信息

车型名称：ID.ERA 9X
定位：上汽大众最新旗舰全尺寸增程SUV
规格：车长超5.2米，集成德系机械素质与中国AI技术。

阅读原文详情