DeepMind论文:Transformer存在拓扑级状态追踪缺陷,思维链只是“补丁”

2026/06/17 19:50阅读量 28

谷歌DeepMind新研究指出,Transformer架构存在根本性的状态追踪缺陷,思维链(CoT)虽能缓解但成本高昂且治标不治本。论文主张转向循环架构实现长效状态追踪,并对比了深度循环与序列循环等不同改进方向。

事件概述

谷歌DeepMind发表论文《Transformer的拓扑麻烦》,指出Transformer架构存在拓扑层面的状态追踪缺陷,当前广泛使用的思维链(CoT)只是治标补丁。论文主张将研究重心转向循环架构,以实现高效的长时认知。

核心信息

Transformer的架构性缺陷

原初Transformer将完整对话历史装入上下文窗口,依靠注意力机制检索历史信息,解决了RNN的远距离记忆问题。但该架构存在根本性缺陷:每整合一条新信息,更新后的内部状态会被推送到更深网络层,网络深度有限,耗尽后无法可靠追踪状态。论文通过神经网络可解释性工具Patchscopes观察到,模型对语义消歧等状态更新发生在较深网络层,浅层无法访问该结果。

思维链仅为治标补丁

思维链让模型将深层状态输出为可见文本再重新读入,将深层信息搬运到处理表层,能缓解状态追踪问题,但代价高昂:占用大量上下文窗口和计算资源,导致推理成本飙升。论文指出,对人类自动完成的底层推断(如词义消歧)诉诸外显思考是冗余消耗。

循环架构的改进方向

论文将研究重心从外显思维链转向隐式激活动态,用循环架构补充或替代纯前馈结构。按循环轴分类:

  • 深度方向循环(如循环Transformer、通用Transformer):仅放缓状态推深速度,未解决本质问题。
  • 序列方向循环:每处理新输入显式传入前一步状态向量,结合注意力优势,可实现无限期状态追踪。代表包括MAMBA、RWKV-7、DeltaNet等状态空间模型和线性注意力架构。

DeltaNet改进版通过扩展特征值范围至负数,在保留并行训练优势的同时,状态追踪能力超越标准Transformer,并在大规模语言建模测试中表现具有竞争力。

值得关注

论文提出后续研究方向:在更粗粒度(如句子为单位)引入循环;利用残差连接降低循环训练成本;分阶段训练策略(先标准预训练,再引入循环微调)。结论指出,下一代基础模型需要构建“流动的、持续演化的再现表示”,跨越多个时间尺度,这是实现稳定连贯长时认知的必经之路。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。