DeepMind论文：Transformer存在拓扑级状态追踪缺陷，思维链只是“补丁”

2026/06/17 19:50阅读量 28

谷歌DeepMind新研究指出，Transformer架构存在根本性的状态追踪缺陷，思维链（CoT）虽能缓解但成本高昂且治标不治本。论文主张转向循环架构实现长效状态追踪，并对比了深度循环与序列循环等不同改进方向。

事件概述

谷歌DeepMind发表论文《Transformer的拓扑麻烦》，指出Transformer架构存在拓扑层面的状态追踪缺陷，当前广泛使用的思维链（CoT）只是治标补丁。论文主张将研究重心转向循环架构，以实现高效的长时认知。

核心信息

Transformer的架构性缺陷

原初Transformer将完整对话历史装入上下文窗口，依靠注意力机制检索历史信息，解决了RNN的远距离记忆问题。但该架构存在根本性缺陷：每整合一条新信息，更新后的内部状态会被推送到更深网络层，网络深度有限，耗尽后无法可靠追踪状态。论文通过神经网络可解释性工具Patchscopes观察到，模型对语义消歧等状态更新发生在较深网络层，浅层无法访问该结果。

思维链仅为治标补丁

思维链让模型将深层状态输出为可见文本再重新读入，将深层信息搬运到处理表层，能缓解状态追踪问题，但代价高昂：占用大量上下文窗口和计算资源，导致推理成本飙升。论文指出，对人类自动完成的底层推断（如词义消歧）诉诸外显思考是冗余消耗。

循环架构的改进方向

论文将研究重心从外显思维链转向隐式激活动态，用循环架构补充或替代纯前馈结构。按循环轴分类：

深度方向循环（如循环Transformer、通用Transformer）：仅放缓状态推深速度，未解决本质问题。
序列方向循环：每处理新输入显式传入前一步状态向量，结合注意力优势，可实现无限期状态追踪。代表包括MAMBA、RWKV-7、DeltaNet等状态空间模型和线性注意力架构。

DeltaNet改进版通过扩展特征值范围至负数，在保留并行训练优势的同时，状态追踪能力超越标准Transformer，并在大规模语言建模测试中表现具有竞争力。

值得关注

论文提出后续研究方向：在更粗粒度（如句子为单位）引入循环；利用残差连接降低循环训练成本；分阶段训练策略（先标准预训练，再引入循环微调）。结论指出，下一代基础模型需要构建“流动的、持续演化的再现表示”，跨越多个时间尺度，这是实现稳定连贯长时认知的必经之路。

阅读原文详情