机器人路线之争:VLA已死还是WAM当立?
英伟达机器人负责人Jim Fan在红杉大会上提出“VLA已死,WAM当立”,引发具身智能路线之争。WAM(世界动作模型)相比VLA(视觉语言模型)在泛化能力、数据来源和长程任务上具有优势,国内多家公司已取得进展。但该论断也需考虑英伟达的商业立场,VLA在精细控制上仍有价值。
事件概述
2026年4月底,红杉资本举办的AI Ascent 2026大会上,英伟达机器人方向负责人Jim Fan提出论断:“视觉语言模型VLA已死,世界动作模型WAM当立。”他预测未来一到两年内,机器人学习的主要数据来源将从昂贵的人类遥操作转变为互联网上随手可得的第一视角人类视频。该言论引发具身智能领域热议,同时国内多家公司已在WAM路线上取得实质性进展。
核心信息
技术路线对比
- VLA(视觉语言模型):训练逻辑为模仿人类遥操作。机器人学习特定场景下的动作,泛化能力弱,无法应对色彩、光线等微小变化;本质上是一种脆弱的“条件反射”,难以推广到复杂现实场景。
- WAM(世界动作模型):核心是预测和理解。机器人在执行动作前先在内部模型预演物理变化(如物体移动、液体流动)。其泛化能力大幅跃升:HarmoWAM研究表明,在背景、位置、物体语义均变化的零样本场景中,WAM表现较之前SOTA级别VLA模型提升33%。
数据来源革命
VLA长期受困于遥操作数据——每一帧操作都需要真人遥控、真机采集,成本高昂。WAM则像大语言模型学习互联网文本一样,可利用海量现成的人类第一视角视频。智在无界的Being-H0.7直接用20万小时人类视频进行预训练,证明了该路径可行性。银河通用的LDA-1B进一步将仿真数据、人类视频和机器人操作数据混合联合训练,打破了行业“完美数据迷信”。
长程任务突破
VLA通常只能处理两到三个动作的简单任务,时序稍长则容易迷失。生数科技的Motubrain已能完成十个原子动作级别的复杂任务,在WorldArena与RoboTwin 2.0两项国际权威榜单双双登顶。
国内外进展
- 国内:银河通用联合英伟达、清华、北大发布LDA-1B;生数科技Motubrain登顶两项榜单;智在无界Being-H0.7综合排名全球第一。
- 海外:英伟达提出DreamZero,在真机实验中展现对新任务和新环境的强大泛化能力,较顶尖VLA模型提升2倍以上。
值得关注
WAM方向虽展现潜力,但“VLA已死”需冷静审视。一方面,WAM让机器人从机械模仿走向理解与预测,从依赖昂贵遥操作数据转向利用海量人类视频,确为进步。例如智在无界Being-H0.7凭借20万小时人类视频预训练在6项国际评测中拿下综合排名第一,这是前VLA时代不可想象的。另一方面,该论断背后存在商业叙事:英伟达作为全球最大AI芯片供应商,无论VLA还是WAM都消耗其芯片,但两者算力消耗不在一个量级——WAM需要更大规模计算资源。因此,VLA在精细控制等场景仍不可替代,路线之争远未终结。
