LeCun团队推出极简世界模型:单GPU训练,规划速度提升48倍
Yann LeCun团队开源了名为LeWorldModel的极简世界模型方案,基于JEPA架构,仅需单张NVIDIA L40S显卡即可在数小时内完成训练。该模型仅含1500万参数,通过简化损失函数实现端到端稳定训练,在推箱子、机械臂控制等任务中表现优异。其核心优势在于规划速度极快(约1秒),比大模型方案快48倍,且能精准捕捉物理规律并识别异常。
事件概述
Yann LeCun及其合作团队发布了一套名为 LeWorldModel (简称 LeWM) 的世界模型新方案。该方案基于 JEPA (Joint Embedding Predictive Architecture) 架构,旨在解决传统 JEPA 方法训练复杂、不稳定的问题。最新进展显示,该模型可在单张 GPU 上运行,具备极高的训练效率和推理速度。
核心技术创新
1. 极简架构设计
团队将 JEPA 架构简化至本质,摒弃了以往常用的启发式技巧(如 EMA、停止梯度法、掩码或复杂损失函数),仅保留两个核心组件:
- 编码器 (Encoder):将像素输入压缩为潜在特征向量 (latent features)。
- 预测器 (Predictor):根据当前特征和动作,预测下一时刻的特征。
2. 双损失函数机制
训练过程仅依赖两个损失项,极大简化了超参数调优:
- 预测损失 (Prediction Loss):使用简单的均方误差 (MSE),迫使模型学习世界的动态变化规律。
- SIGReg 正则损失:强制所有特征向量服从标准高斯分布,防止模型输出坍塌(即避免所有画面输出相同特征)。
总损失公式为:Total Loss = Prediction Loss + λ × SIGReg Regularization,其中λ是唯一需要调整的关键超参数。
性能与实验结果
硬件与效率
- 硬件要求:所有训练与规划实验均在单张 NVIDIA L40S 显卡上完成。
- 训练时间:仅需几小时即可完成训练。
- 参数量:模型仅包含 1500万 参数。
- 推理速度:完整规划耗时约 1秒,相比依赖大模型的方案(如 DINO-WM)快 48倍(后者约需47秒)。这是因为观测数据被压缩了约200倍,大幅降低了计算负载。
任务表现
团队在四个经典机器人与控制任务中进行了测试,并与 PLDM (端到端基线) 和 DINO-WM (基于基础模型的方法) 进行对比:
- Push-T (推箱子):LeWM 成功率达 96%,优于 PLDM (高18%),甚至超过带体感输入的 DINO-WM。
- Reacher (机械臂够目标):表现优于 PLDM,与 DINO-WM 持平。
- OGBench-Cube (3D 机械臂抓方块):略逊于 DINO-WM,但整体表现强劲。
- Two-Room (2D 导航):稍弱于其他方法,但物理信息学习能力依然出色。
物理理解能力
- 状态预测:通过解码 latent 特征,模型能以接近 100% 的准确率预测物体位置、角度及机械臂坐标,精度显著高于 PLDM,与 DINO-WM 相当。
- 异常检测:模型能有效区分“视觉扰动”(如物体变色)与“物理违规”(如物体瞬移)。面对违反物理定律的场景,模型表现出显著的“惊讶”反应,证明其内化了物理常识。
项目资源
- 项目主页:https://le-wm.github.io/
- GitHub 地址:https://github.com/lucas-maes/le-wm
- 论文地址:https://arxiv.org/pdf/2603.19312v1
团队背景
- Lucas Maes:一作,Mila 博士生,现任布朗大学访问研究员。
- Quentin Le Lidec:纽约大学柯朗数学研究所博士后,与 Yann LeCun 合作研究机器人世界模型。
- Damien Scieur:三星研究员,优化算法专家。
- Randall Balestriero:布朗大学助理教授,曾参与 NASA 火星车探测技术,师从 Yann LeCun。
