杨立昆:大语言模型路线是错的,JEPA世界模型才是通往AGI的正确方向

2026/05/04 12:02阅读量 3

杨立昆再次公开反对仅靠大语言模型实现AGI,认为自回归机制无法掌握物理因果。他力推基于联合嵌入预测架构(JEPA)的世界模型,通过抽象表征空间预测物理规律,并称Barlow Twins等方案已解决表征坍塌,DINOv3图像分类准确率达88.4%,逼近监督模型水平。

事件概述

Meta首席AI科学家杨立昆在科技频道Welch Labs详细阐述反对仅依靠大语言模型(LLM)通向AGI的理由。他认为,LLM的自回归机制只能复现统计模式,缺乏因果推理能力;真正的通用人工智能需要具备物理世界推理和预测能力,而联合嵌入预测架构(JEPA)构建的世界模型是实现这一目标的根本路径。

核心信息

1. 大语言模型的根本缺陷

  • 自回归机制:模型仅计算下一个字符或像素的概率,未建立全局因果逻辑,误差随输出累积导致严重偏离事实。
  • 数据对比:GPT-3训练样本达数千亿,但单纯扩大参数规模无法解决结构性缺陷。以视频预测为例,全高清视频下一帧约有10^1500万种可能性,远超语言Token枚举能力,生成式方法直接输出像素会引发模糊退化。

2. JEPA世界模型的技术原理

  • JEPA不是生成式模型,不输出文字、图片或视频。它通过编码器将输入压缩为抽象表征(如128维嵌入),再用预测器在数学空间内预测动作后果,避免像素级重建。
  • 案例:V-JEPA让机器人通过动作指令预测环境变化,在ImageNet分类上达到73.2%准确率,比监督学习AlexNet(59.3%)高约10个百分点。

3. 解决表征坍塌的关键突破

  • 早期联合嵌入易输出恒定向量(如全1),即表征坍塌,导致无效学习。
  • 解决方案:Barlow Twins通过最大化不同特征之间的差异(使互相关矩阵趋近单位矩阵),迫使模型学习真实信息;后续DINOv3于2025年8月发布,在ImageNet上实现88.4%准确率,首次在图像分类上与监督模型相当,且无需人工标签即可实现物体分割。

4. 世界模型的应用价值与对比

  • 杨立昆指出,常识本质上是世界模型的集合,AI可预判行为后果(如驾驶决策),通过优化控制反向推导最优动作序列。
  • 他批评LLM缺乏安全规划能力,世界模型是实现自主智能体的必要条件。

值得关注

杨立昆在2022年发表立场论文《A Path Towards Autonomous Machine Intelligence》,系统论证了世界模型的重要性。他自2015年起强调自监督学习是智能的“蛋糕主体”,监督学习和强化学习只是糖霜与樱桃。目前,JEPA路线已在视觉自监督学习上取得实质进展,但能否向语言、规划等更通用领域扩展,仍待进一步验证。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。