LeCun团队提出AdaJEPA:世界模型学会持续学习,部署中实时自我校准
2026/07/05 14:52阅读量 2
纽约大学联合LeCun初创AMI发布AdaJEPA,基于JEPA架构实现世界模型的测试时自适应持续学习。通过在规划-执行-观测-更新-再规划闭环中轻量更新编码器和预测器参数,AdaJEPA在分布外环境下的规划成功率显著提升,额外延迟仅0.01至0.03秒。
事件概述
纽约大学与Yann LeCun初创公司AMI联合提出AdaJEPA,这是JEPA系列的最新成果。与以往训练后冻结参数的世界模型不同,AdaJEPA能在与环境交互中通过测试时自适应(Test-Time Adaptation, TTA)实时调整编码器和预测器参数,实现持续学习。
核心方法
AdaJEPA的核心循环为:计划、执行、观测、更新、再规划。具体流程如下:
- 规划:模型将当前观测编码为隐状态(latent state),使用当前世界模型进行模型预测控制(MPC),在隐空间滚动预测并优化动作序列。
- 执行:只执行MPC规划出的第一步动作,然后获取真实环境反馈的下一帧观测。
- 更新:将真实状态转移存入在线缓存区(默认保留最近N条)。模型根据观测和动作预测下一步隐状态,与真实观测编码后的隐状态对齐,并计算梯度进行更新。为防止表征崩溃,对目标表征使用stop-gradient,且仅更新编码器和预测器的最后几层,每次重规划只做1步梯度下降。
- 再规划:使用更新后的世界模型进入下一轮MPC。
这种方法借鉴了Dyna类强化学习思想,使模型在真实交互中不断修正对世界的理解,而非一次训练后冻结。
实验结果
在PushT/PushObj和PointMaze基准上测试:
- 在PushObj未见过形状上,规划成功率几乎翻倍。
- 在PointMaze未见过布局中,GD规划成功率从53.3%提升至78.7%,CEM从49.3%提升至70.7%。
- 在线更新带来的额外延迟极低,仅0.01至0.03秒。
结果表明,轻量的部署时自我校准机制能显著提升世界模型面对环境变化的鲁棒性。
第一作者Ying Wang是纽约大学数据科学中心CILVR Lab博士生,研究方向为世界模型,导师为Mengye Ren和Yann LeCun。另一作者Oumayma Bounou为纽约大学博士后研究员,研究兴趣包括世界模型、控制和优化。指导作者为Mengye Ren(纽约大学助理教授)和Yann LeCun(图灵奖获得者)。
