Momenta押注世界模型而非VLA,上汽大众首发R7大模型

Momenta宣布下一代飞轮大模型R7将引入世界模型与强化学习,以赋予AI理解物理规律的能力,该车型将由上汽大众ID.ERA 9X首发。CEO曹旭东指出,相比VLA路线,世界模型更契合自动驾驶对物理因果推理的需求,且传感器选型的重要性已降至第三梯队,核心在于算法架构、数据体系与研发能力。

事件概述

Momenta正式剧透其下一代飞轮大模型R7,决定放弃当前行业热议的VLA(Vision-Language-Action)路线,转而押注世界模型(World Model)。该模型将世界模型引入强化学习框架,旨在让AI具备理解物理世界和运动因果关系的能力。上汽大众总经理陶海龙在亲测R7性能后,直接推动上汽大众旗舰车型ID.ERA 9X成为该技术的全球首发载体。

核心信息:技术路线选择

1. 为何转向世界模型?

  • 突破模仿学习瓶颈:传统的模仿学习范式仅能复制人类轨迹,无法超越人类司机水平。Momenta此前推出的基于强化学习的R6模型已实现开放环境下的自主探索,而R7进一步引入世界模型,使AI能从综合安全、舒适和效率维度筛选最优轨迹。
  • 物理认知需求:曹旭东认为“物理AI时代”已到来,自动驾驶必须具备对物理世界的认知能力。世界模型能让AI基于完整的物理信息做出预测和规划,理解物体交互的潜在可能,这是单纯模仿或语义对齐无法实现的。

2. 为何不选VLA?

曹旭东从直觉与技术两个维度解释了拒绝VLA的原因:

  • 直觉层面:LLM擅长的写代码、解数学题等能力对驾驶帮助有限。开车需要的是对物理规律的即时反应和安全预判,这正是世界模型通过强化学习积累“肌肉记忆”所擅长的。
  • 技术层面:VLA训练起源于LLM,底座参数量通常在100B左右,侧重于视觉与语言的对齐,导致语义优先级高于驾驶任务。大量参数未用于解决具体的驾驶问题,属于“好钢没用在刀刃上”。相比之下,世界模型更能雪中送炭地解决自动驾驶的核心难题。

关键结论:传感器重要性降级

关于底层硬件的争论中,曹旭东提出了新的要素排序,将传感器选型的重要性排在第三位

  1. 第一梯队算法架构、数据和体系能力。单一算法壁垒低,关键在于整合算法形成合力,以及建立可反向传播的研发体系(识别高价值任务并快速迭代)。
  2. 第二梯队芯片算力。直接决定模型能力的上限。
  3. 第三梯队传感器。曹旭东指出,纯视觉方案(仅用摄像头)相比人类双眼已是“超配”,因为摄像头覆盖范围更广。随着数据、算法和体系能力的提升,堆砌激光雷达等传感器的边际效应正在减弱,这已成为行业共识。

首发车型信息

  • 车型名称:ID.ERA 9X
  • 定位:上汽大众最新旗舰全尺寸增程SUV
  • 规格:车长超5.2米,集成德系机械素质与中国AI技术。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。