英伟达科学家Jim Fan预言机器人终局：2040年到达，三大关卡待解锁

2026/05/23 10:38阅读量 2

英伟达资深科学家范麟熙（Jim Fan）在红杉AI Ascent演讲中提出机器人发展“Great Parallel”路径，直接复制大语言模型成功经验，并预言2040年将抵达机器人终局。他批判当前主流的VLA模型“头重脚轻”，提出WAM新范式，同时强调传感器化人类数据将取代低效的遥操作，成为机器人训练核心数据源。

事件概述

英伟达AI资深研究科学家范麟熙（Jim Fan）在红杉AI Ascent活动上发表20分钟演讲，系统梳理了具身智能的发展脉络和路径，并给出2040年达到机器人终局的预言。

核心信息

Great Parallel：复制LLM成功路径
Jim Fan将大语言模型的成功归纳为三步：大规模预训练→监督微调对齐→强化学习推理与自动研究。他认为机器人将走完全相同的道路，并命名为「Great Parallel」：用世界模型预训练预测下一个物理世界状态，通过动作微调对齐到真实机器人的仿真空间，最后用强化学习完成落地。
VLA时代终结，WAM成为新范式
过去三年的视觉语言动作模型（VLA）本质上是在视觉语言模型上嫁接动作头，绝大部分参数服务于语言，导致物理理解和动作执行能力不足。Jim Fan称之为「在错误的地方头重脚轻」。英伟达提出世界动作模型（WAM），代表性研究DreamZero仅靠预测下一帧像素，自发涌现对重力、浮力等物理规律的理解，能联合解码下一个世界状态与下一步动作，实现训练中未见过任务的零样本泛化。
数据策略：遥操作将落幕，传感器化人类数据崛起
传统遥操作（Teleop）每台机器人每天仅产出约3小时有效数据，成本高且难以扩展。英伟达验证的Sensorized Human Data以带手部追踪和密集语言标注的人类第一视角视频为核心，可扩展至千万小时。EgoScale用21,000小时野外第一视角数据预训练（零机器人数据），仅需50小时动作捕捉数据+4小时遥操作微调，即可实现22自由度机器人手的端到端控制，且预训练数据量与验证损失呈清晰对数线性缩放关系。Jim Fan预测未来一两年遥操作占比将降至可忽略水平，第一视角视频将成为核心数据源。
训练环境：从Real-to-Sim-to-Real到Dream Dojo
前沿LLM实验室已拥有百万级强化学习编程环境，机器人领域也需要同等规模。英伟达分两步实现：第一步Real-to-Sim-to-Real，用iPhone拍摄完成3D扫描重建，在仿真器中生成无限随机变体（digital cousins），使iPhone成为口袋世界扫描仪；第二步Dream Dojo，纯数据驱动的神经模拟器，输入动作信号即可实时输出下一帧RGB画面与传感器状态，无需传统物理方程和图形引擎。最终形成公式：算力=环境=数据。
终局预言：三阶段到达2040年
Jim Fan将机器人终局定义为三个递进阶段：第一关「物理图灵测试」，2-3年内即可实现，人类无法区分日常任务由机器人还是人类完成；第二关「Physical API」，整个机器人机群可通过API编排，实现无人工厂「原子打印机」与自动化科研湿实验室；第三关「Physical Auto-Research」，机器人可自主设计并构建下一代自身。他强调从2012年AlexNet到2026年AI发展用了14年，有95%把握在2040年抵达机器人终局。

阅读原文详情

事件概述

核心信息

准备好启动您的定制项目了吗？