普林斯顿刘壮访谈：架构创新边际效应递减，数据规模与记忆才是核心瓶颈

2026/04/29 12:20阅读量 2

普林斯顿大学助理教授刘壮在最新访谈中指出，只要基础组件设计得当，ConvNet与Transformer等架构最终性能趋同，过去十年AI进步主要归功于数据规模与计算资源的提升。他通过实验揭示主流亿级数据集仍存在显著偏差，且大语言模型仅在语言空间具备世界模型能力，视觉精细建模受限于算力。当前AI发展的最大瓶颈并非推理能力，而是长期稳定记忆，智能体协作仅是弥补记忆缺失的权宜之计。

事件概述

普林斯顿大学助理教授、清华姚班校友刘壮（Zhuang Liu）近期接受《信息瓶颈》播客深度访谈。作为ConvNeXt、ImageBind及《无归一化的Transformer》等论文的作者，刘壮对当前AI领域的多个“理所当然”的假设提出了质疑，并给出了关于架构、数据、世界模型及记忆瓶颈的核心判断。

核心观点提炼

1. 架构重要性被高估，细节决定上限

架构收敛性：只要正确实现残差连接、自注意力机制、归一化层和线性层这四大基础组件，无论是ConvNet还是Transformer，最终都会收敛到相同的性能前沿曲线（Pareto frontier）。
历史驱动力：过去十年推动AI进步的主要因素是数据规模和计算规模，而非架构本身的颠覆性创新。架构研究活跃度下降的部分原因在于验证新架构所需的计算资源过于昂贵。
细节组合效应：ConvNeXt的研究表明，看似微小的组件调整（如激活函数选择、归一化层数量减少）叠加后，能产生媲美架构大改动的性能提升。真正的挑战在于如何充分探索设计空间以逼近理论极限。

2. 数据集远未实现“无偏全球分布”

多样性存疑：刘壮与何恺明合作进行了一项实验，训练神经网络识别图片来源。结果显示，在三个号称拥有亿级样本的“多样化”数据集上，模型判断图片来源的准确率超过80%（随机猜测仅为33%）。
结论：这意味着现有数据集在模型眼中依然泾渭分明，并未达到理想的“无偏全球分布”。构建真正通用的模型仍需解决数据覆盖度与配比问题，简单的等权重混合不同领域高质量数据可能是当前较优解。

3. 世界模型的局限性与视觉瓶颈

语言空间的世界模型：大语言模型（LLM）在高层次事件推理上表现出色，实际上已具备语言空间内的世界模型，能够逻辑严密地推演假设性历史或场景。
视觉空间的缺失：目前尚未建立精细的视觉世界模型。根本原因在于视觉数据的信息密度极高（单帧图像信息量远超千词），现有算力无法支撑像素级的完整模拟。
应用场景差异：对于超过一半的数字化白领工作，不需要视觉世界模型；但在建筑、驾驶、外科手术等需要细粒度物理反馈的体力劳动场景中，视觉世界模型仍是刚需。

4. 记忆是最大瓶颈，智能体是权宜之计

推理非短板：现有模型的推理能力已足够强大，真正的短板在于缺乏稳定的长期记忆。
智能体的本质：当前大量涌现的智能体（Agent）协作系统，本质上是因为单个智能体无法记住所有事情而采取的补救措施。随着模型上下文窗口和记忆能力的提升，许多复杂任务将不再依赖繁琐的智能体脚手架。
科研替代现状：AI目前尚无法完全替代研究生。虽然能完成低层次编码任务，但在提出有趣问题、设计实验路径及保持宏观方向感方面仍显不足。

值得关注的技术趋势

去归一化探索：刘壮团队提出的《Transformers Without Normalization》证明，使用动态双曲正切激活函数可替代LayerNorm，在多种设置下表现持平甚至更优，暗示归一化层并非绝对必需。
多模态对齐：基于ImageBind的研究证实，视觉是连接音频、文本、深度等多种模态的天然桥梁，但CLIP等视觉编码器存在系统性盲点（如忽略物体位置关系），需结合自监督学习特征进行优化。
持续学习需求：未来的关键不在于重复预训练，而在于建立成熟的持续训练机制（包括强化学习、情境工程等），使模型能像人类一样快速适应新情境并保留长期记忆。

阅读原文详情