Apple 提出 Exclusive Self Attention:正交约束提升 Transformer 序列建模性能

Apple ML Research 提出 Exclusive Self Attention (XSA),通过约束注意力机制仅捕获与 token 自身值向量正交的信息,从而排除自位置信息干扰。在标准语言建模任务中,XSA 在高达 27 亿参数的模型规模下均优于传统自注意力机制(SA),且随着序列长度增加,性能增益愈发显著。该研究为改进 Transformer 的上下文建模能力提供了新的简单修改方案。

事件概述

Apple Machine Learning Research 于 2026 年 3 月发表题为《Exclusive Self Attention》的研究论文,提出了一种名为 Exclusive Self Attention (XSA) 的新机制。该机制是对传统自注意力(Self-Attention, SA)的简单修改,旨在提升 Transformer 模型的序列建模性能。

核心机制

XSA 的核心思想在于对注意力计算施加约束:

  • 正交性约束:强制注意力机制仅捕获与当前 token 自身值向量(value vector)正交的信息。
  • 排除自位置信息:通过上述约束,明确排除了 token 自身位置的信息,从而鼓励模型进行更纯粹的上下文建模。

实验结果与表现

研究团队在标准语言建模任务中对 XSA 进行了评估,主要发现如下:

  • 跨规模优势:在模型参数量高达 2.7B 的不同规模下,XSA 的表现 consistently 优于传统 SA 机制。
  • 长序列增益:随着输入序列长度的增加,XSA 相对于 SA 的性能提升幅度呈现增长趋势,显示出其在处理长上下文时的潜力。

相关背景

该研究属于“方法与算法”及“语音与自然语言处理”领域。尽管自注意力机制是 Transformer 成功的关键,但学界对其数学特性(如 Lipschitz 性质,这对分析鲁棒性和表达能力至关重要)的理解仍不完整。XSA 的提出为理解注意力机制的改进方向提供了新的视角。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。