LeCun团队推出极简世界模型:单GPU训练,规划速度提升48倍

Yann LeCun团队开源了名为LeWorldModel的极简世界模型方案,基于JEPA架构,仅需单张NVIDIA L40S显卡即可在数小时内完成训练。该模型仅含1500万参数,通过简化损失函数实现端到端稳定训练,在推箱子、机械臂控制等任务中表现优异。其核心优势在于规划速度极快(约1秒),比大模型方案快48倍,且能精准捕捉物理规律并识别异常。

事件概述

Yann LeCun及其合作团队发布了一套名为 LeWorldModel (简称 LeWM) 的世界模型新方案。该方案基于 JEPA (Joint Embedding Predictive Architecture) 架构,旨在解决传统 JEPA 方法训练复杂、不稳定的问题。最新进展显示,该模型可在单张 GPU 上运行,具备极高的训练效率和推理速度。

核心技术创新

1. 极简架构设计

团队将 JEPA 架构简化至本质,摒弃了以往常用的启发式技巧(如 EMA、停止梯度法、掩码或复杂损失函数),仅保留两个核心组件:

  • 编码器 (Encoder):将像素输入压缩为潜在特征向量 (latent features)。
  • 预测器 (Predictor):根据当前特征和动作,预测下一时刻的特征。

2. 双损失函数机制

训练过程仅依赖两个损失项,极大简化了超参数调优:

  • 预测损失 (Prediction Loss):使用简单的均方误差 (MSE),迫使模型学习世界的动态变化规律。
  • SIGReg 正则损失:强制所有特征向量服从标准高斯分布,防止模型输出坍塌(即避免所有画面输出相同特征)。
    总损失公式为:Total Loss = Prediction Loss + λ × SIGReg Regularization,其中 λ 是唯一需要调整的关键超参数。

性能与实验结果

硬件与效率

  • 硬件要求:所有训练与规划实验均在单张 NVIDIA L40S 显卡上完成。
  • 训练时间:仅需几小时即可完成训练。
  • 参数量:模型仅包含 1500万 参数。
  • 推理速度:完整规划耗时约 1秒,相比依赖大模型的方案(如 DINO-WM)快 48倍(后者约需47秒)。这是因为观测数据被压缩了约200倍,大幅降低了计算负载。

任务表现

团队在四个经典机器人与控制任务中进行了测试,并与 PLDM (端到端基线) 和 DINO-WM (基于基础模型的方法) 进行对比:

  • Push-T (推箱子):LeWM 成功率达 96%,优于 PLDM (高18%),甚至超过带体感输入的 DINO-WM。
  • Reacher (机械臂够目标):表现优于 PLDM,与 DINO-WM 持平。
  • OGBench-Cube (3D 机械臂抓方块):略逊于 DINO-WM,但整体表现强劲。
  • Two-Room (2D 导航):稍弱于其他方法,但物理信息学习能力依然出色。

物理理解能力

  • 状态预测:通过解码 latent 特征,模型能以接近 100% 的准确率预测物体位置、角度及机械臂坐标,精度显著高于 PLDM,与 DINO-WM 相当。
  • 异常检测:模型能有效区分“视觉扰动”(如物体变色)与“物理违规”(如物体瞬移)。面对违反物理定律的场景,模型表现出显著的“惊讶”反应,证明其内化了物理常识。

项目资源

团队背景

  • Lucas Maes:一作,Mila 博士生,现任布朗大学访问研究员。
  • Quentin Le Lidec:纽约大学柯朗数学研究所博士后,与 Yann LeCun 合作研究机器人世界模型。
  • Damien Scieur:三星研究员,优化算法专家。
  • Randall Balestriero:布朗大学助理教授,曾参与 NASA 火星车探测技术,师从 Yann LeCun。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。