LeCun团队推出极简世界模型：单GPU训练，规划速度提升48倍

2026/03/24 15:00阅读量 114

Yann LeCun团队开源了名为LeWorldModel的极简世界模型方案，基于JEPA架构，仅需单张NVIDIA L40S显卡即可在数小时内完成训练。该模型仅含1500万参数，通过简化损失函数实现端到端稳定训练，在推箱子、机械臂控制等任务中表现优异。其核心优势在于规划速度极快（约1秒），比大模型方案快48倍，且能精准捕捉物理规律并识别异常。

事件概述

Yann LeCun及其合作团队发布了一套名为 LeWorldModel (简称 LeWM) 的世界模型新方案。该方案基于 JEPA (Joint Embedding Predictive Architecture) 架构，旨在解决传统 JEPA 方法训练复杂、不稳定的问题。最新进展显示，该模型可在单张 GPU 上运行，具备极高的训练效率和推理速度。

核心技术创新

1. 极简架构设计

团队将 JEPA 架构简化至本质，摒弃了以往常用的启发式技巧（如 EMA、停止梯度法、掩码或复杂损失函数），仅保留两个核心组件：

编码器 (Encoder)：将像素输入压缩为潜在特征向量 (latent features)。
预测器 (Predictor)：根据当前特征和动作，预测下一时刻的特征。

2. 双损失函数机制

训练过程仅依赖两个损失项，极大简化了超参数调优：

预测损失 (Prediction Loss)：使用简单的均方误差 (MSE)，迫使模型学习世界的动态变化规律。
SIGReg 正则损失：强制所有特征向量服从标准高斯分布，防止模型输出坍塌（即避免所有画面输出相同特征）。
总损失公式为：Total Loss = Prediction Loss + λ × SIGReg Regularization，其中 λ 是唯一需要调整的关键超参数。

性能与实验结果

硬件与效率

硬件要求：所有训练与规划实验均在单张 NVIDIA L40S 显卡上完成。
训练时间：仅需几小时即可完成训练。
参数量：模型仅包含 1500万 参数。
推理速度：完整规划耗时约 1秒，相比依赖大模型的方案（如 DINO-WM）快 48倍（后者约需47秒）。这是因为观测数据被压缩了约200倍，大幅降低了计算负载。

任务表现

团队在四个经典机器人与控制任务中进行了测试，并与 PLDM (端到端基线) 和 DINO-WM (基于基础模型的方法) 进行对比：

Push-T (推箱子)：LeWM 成功率达 96%，优于 PLDM (高18%)，甚至超过带体感输入的 DINO-WM。
Reacher (机械臂够目标)：表现优于 PLDM，与 DINO-WM 持平。
OGBench-Cube (3D 机械臂抓方块)：略逊于 DINO-WM，但整体表现强劲。
Two-Room (2D 导航)：稍弱于其他方法，但物理信息学习能力依然出色。

物理理解能力

状态预测：通过解码 latent 特征，模型能以接近 100% 的准确率预测物体位置、角度及机械臂坐标，精度显著高于 PLDM，与 DINO-WM 相当。
异常检测：模型能有效区分“视觉扰动”（如物体变色）与“物理违规”（如物体瞬移）。面对违反物理定律的场景，模型表现出显著的“惊讶”反应，证明其内化了物理常识。

项目资源

项目主页：https://le-wm.github.io/
GitHub 地址：https://github.com/lucas-maes/le-wm
论文地址：https://arxiv.org/pdf/2603.19312v1

团队背景

Lucas Maes：一作，Mila 博士生，现任布朗大学访问研究员。
Quentin Le Lidec：纽约大学柯朗数学研究所博士后，与 Yann LeCun 合作研究机器人世界模型。
Damien Scieur：三星研究员，优化算法专家。
Randall Balestriero：布朗大学助理教授，曾参与 NASA 火星车探测技术，师从 Yann LeCun。

阅读原文详情