Apple 提出 Exclusive Self Attention：正交约束提升 Transformer 序列建模性能

2026/03/25 08:00阅读量 28

Apple ML Research 提出 Exclusive Self Attention (XSA)，通过约束注意力机制仅捕获与 token 自身值向量正交的信息，从而排除自位置信息干扰。在标准语言建模任务中，XSA 在高达 27 亿参数的模型规模下均优于传统自注意力机制（SA），且随着序列长度增加，性能增益愈发显著。该研究为改进 Transformer 的上下文建模能力提供了新的简单修改方案。

事件概述

Apple Machine Learning Research 于 2026 年 3 月发表题为《Exclusive Self Attention》的研究论文，提出了一种名为 Exclusive Self Attention (XSA) 的新机制。该机制是对传统自注意力（Self-Attention, SA）的简单修改，旨在提升 Transformer 模型的序列建模性能。

核心机制

XSA 的核心思想在于对注意力计算施加约束：

正交性约束：强制注意力机制仅捕获与当前 token 自身值向量（value vector）正交的信息。
排除自位置信息：通过上述约束，明确排除了 token 自身位置的信息，从而鼓励模型进行更纯粹的上下文建模。

实验结果与表现

研究团队在标准语言建模任务中对 XSA 进行了评估，主要发现如下：

跨规模优势：在模型参数量高达 2.7B 的不同规模下，XSA 的表现 consistently 优于传统 SA 机制。
长序列增益：随着输入序列长度的增加，XSA 相对于 SA 的性能提升幅度呈现增长趋势，显示出其在处理长上下文时的潜力。

Apple 提出 Exclusive Self Attention：正交约束提升 Transformer 序列建模性能

事件概述

核心机制

实验结果与表现

相关背景

准备好启动您的定制项目了吗？