杨立昆:大语言模型路线是错的,JEPA世界模型才是通往AGI的正确方向
2026/05/04 12:02阅读量 3
杨立昆再次公开反对仅靠大语言模型实现AGI,认为自回归机制无法掌握物理因果。他力推基于联合嵌入预测架构(JEPA)的世界模型,通过抽象表征空间预测物理规律,并称Barlow Twins等方案已解决表征坍塌,DINOv3图像分类准确率达88.4%,逼近监督模型水平。
事件概述
Meta首席AI科学家杨立昆在科技频道Welch Labs详细阐述反对仅依靠大语言模型(LLM)通向AGI的理由。他认为,LLM的自回归机制只能复现统计模式,缺乏因果推理能力;真正的通用人工智能需要具备物理世界推理和预测能力,而联合嵌入预测架构(JEPA)构建的世界模型是实现这一目标的根本路径。
核心信息
1. 大语言模型的根本缺陷
- 自回归机制:模型仅计算下一个字符或像素的概率,未建立全局因果逻辑,误差随输出累积导致严重偏离事实。
- 数据对比:GPT-3训练样本达数千亿,但单纯扩大参数规模无法解决结构性缺陷。以视频预测为例,全高清视频下一帧约有10^1500万种可能性,远超语言Token枚举能力,生成式方法直接输出像素会引发模糊退化。
2. JEPA世界模型的技术原理
- JEPA不是生成式模型,不输出文字、图片或视频。它通过编码器将输入压缩为抽象表征(如128维嵌入),再用预测器在数学空间内预测动作后果,避免像素级重建。
- 案例:V-JEPA让机器人通过动作指令预测环境变化,在ImageNet分类上达到73.2%准确率,比监督学习AlexNet(59.3%)高约10个百分点。
3. 解决表征坍塌的关键突破
- 早期联合嵌入易输出恒定向量(如全1),即表征坍塌,导致无效学习。
- 解决方案:Barlow Twins通过最大化不同特征之间的差异(使互相关矩阵趋近单位矩阵),迫使模型学习真实信息;后续DINOv3于2025年8月发布,在ImageNet上实现88.4%准确率,首次在图像分类上与监督模型相当,且无需人工标签即可实现物体分割。
4. 世界模型的应用价值与对比
- 杨立昆指出,常识本质上是世界模型的集合,AI可预判行为后果(如驾驶决策),通过优化控制反向推导最优动作序列。
- 他批评LLM缺乏安全规划能力,世界模型是实现自主智能体的必要条件。
值得关注
杨立昆在2022年发表立场论文《A Path Towards Autonomous Machine Intelligence》,系统论证了世界模型的重要性。他自2015年起强调自监督学习是智能的“蛋糕主体”,监督学习和强化学习只是糖霜与樱桃。目前,JEPA路线已在视觉自监督学习上取得实质进展,但能否向语言、规划等更通用领域扩展,仍待进一步验证。
