英伟达科学家Jim Fan预言机器人终局:2040年到达,三大关卡待解锁
英伟达资深科学家范麟熙(Jim Fan)在红杉AI Ascent演讲中提出机器人发展“Great Parallel”路径,直接复制大语言模型成功经验,并预言2040年将抵达机器人终局。他批判当前主流的VLA模型“头重脚轻”,提出WAM新范式,同时强调传感器化人类数据将取代低效的遥操作,成为机器人训练核心数据源。
事件概述
英伟达AI资深研究科学家范麟熙(Jim Fan)在红杉AI Ascent活动上发表20分钟演讲,系统梳理了具身智能的发展脉络和路径,并给出2040年达到机器人终局的预言。
核心信息
-
Great Parallel:复制LLM成功路径
Jim Fan将大语言模型的成功归纳为三步:大规模预训练→监督微调对齐→强化学习推理与自动研究。他认为机器人将走完全相同的道路,并命名为「Great Parallel」:用世界模型预训练预测下一个物理世界状态,通过动作微调对齐到真实机器人的仿真空间,最后用强化学习完成落地。 -
VLA时代终结,WAM成为新范式
过去三年的视觉语言动作模型(VLA)本质上是在视觉语言模型上嫁接动作头,绝大部分参数服务于语言,导致物理理解和动作执行能力不足。Jim Fan称之为「在错误的地方头重脚轻」。英伟达提出世界动作模型(WAM),代表性研究DreamZero仅靠预测下一帧像素,自发涌现对重力、浮力等物理规律的理解,能联合解码下一个世界状态与下一步动作,实现训练中未见过任务的零样本泛化。 -
数据策略:遥操作将落幕,传感器化人类数据崛起
传统遥操作(Teleop)每台机器人每天仅产出约3小时有效数据,成本高且难以扩展。英伟达验证的Sensorized Human Data以带手部追踪和密集语言标注的人类第一视角视频为核心,可扩展至千万小时。EgoScale用21,000小时野外第一视角数据预训练(零机器人数据),仅需50小时动作捕捉数据+4小时遥操作微调,即可实现22自由度机器人手的端到端控制,且预训练数据量与验证损失呈清晰对数线性缩放关系。Jim Fan预测未来一两年遥操作占比将降至可忽略水平,第一视角视频将成为核心数据源。 -
训练环境:从Real-to-Sim-to-Real到Dream Dojo
前沿LLM实验室已拥有百万级强化学习编程环境,机器人领域也需要同等规模。英伟达分两步实现:第一步Real-to-Sim-to-Real,用iPhone拍摄完成3D扫描重建,在仿真器中生成无限随机变体(digital cousins),使iPhone成为口袋世界扫描仪;第二步Dream Dojo,纯数据驱动的神经模拟器,输入动作信号即可实时输出下一帧RGB画面与传感器状态,无需传统物理方程和图形引擎。最终形成公式:算力=环境=数据。 -
终局预言:三阶段到达2040年
Jim Fan将机器人终局定义为三个递进阶段:第一关「物理图灵测试」,2-3年内即可实现,人类无法区分日常任务由机器人还是人类完成;第二关「Physical API」,整个机器人机群可通过API编排,实现无人工厂「原子打印机」与自动化科研湿实验室;第三关「Physical Auto-Research」,机器人可自主设计并构建下一代自身。他强调从2012年AlexNet到2026年AI发展用了14年,有95%把握在2040年抵达机器人终局。
