杨立昆：大语言模型路线是错的，JEPA世界模型才是通往AGI的正确方向

2026/05/04 12:02阅读量 3

杨立昆再次公开反对仅靠大语言模型实现AGI，认为自回归机制无法掌握物理因果。他力推基于联合嵌入预测架构（JEPA）的世界模型，通过抽象表征空间预测物理规律，并称Barlow Twins等方案已解决表征坍塌，DINOv3图像分类准确率达88.4%，逼近监督模型水平。

事件概述

Meta首席AI科学家杨立昆在科技频道Welch Labs详细阐述反对仅依靠大语言模型（LLM）通向AGI的理由。他认为，LLM的自回归机制只能复现统计模式，缺乏因果推理能力；真正的通用人工智能需要具备物理世界推理和预测能力，而联合嵌入预测架构（JEPA）构建的世界模型是实现这一目标的根本路径。

核心信息

1. 大语言模型的根本缺陷

自回归机制：模型仅计算下一个字符或像素的概率，未建立全局因果逻辑，误差随输出累积导致严重偏离事实。
数据对比：GPT-3训练样本达数千亿，但单纯扩大参数规模无法解决结构性缺陷。以视频预测为例，全高清视频下一帧约有10^1500万种可能性，远超语言Token枚举能力，生成式方法直接输出像素会引发模糊退化。

2. JEPA世界模型的技术原理

JEPA不是生成式模型，不输出文字、图片或视频。它通过编码器将输入压缩为抽象表征（如128维嵌入），再用预测器在数学空间内预测动作后果，避免像素级重建。
案例：V-JEPA让机器人通过动作指令预测环境变化，在ImageNet分类上达到73.2%准确率，比监督学习AlexNet（59.3%）高约10个百分点。

3. 解决表征坍塌的关键突破

早期联合嵌入易输出恒定向量（如全1），即表征坍塌，导致无效学习。
解决方案：Barlow Twins通过最大化不同特征之间的差异（使互相关矩阵趋近单位矩阵），迫使模型学习真实信息；后续DINOv3于2025年8月发布，在ImageNet上实现88.4%准确率，首次在图像分类上与监督模型相当，且无需人工标签即可实现物体分割。

4. 世界模型的应用价值与对比

杨立昆指出，常识本质上是世界模型的集合，AI可预判行为后果（如驾驶决策），通过优化控制反向推导最优动作序列。
他批评LLM缺乏安全规划能力，世界模型是实现自主智能体的必要条件。

值得关注

杨立昆在2022年发表立场论文《A Path Towards Autonomous Machine Intelligence》，系统论证了世界模型的重要性。他自2015年起强调自监督学习是智能的“蛋糕主体”，监督学习和强化学习只是糖霜与樱桃。目前，JEPA路线已在视觉自监督学习上取得实质进展，但能否向语言、规划等更通用领域扩展，仍待进一步验证。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？