Transformer诞生的故事:八位“叛徒”、一个念头如何开启大算力时代

2026/06/10 00:50阅读量 2

2017年一篇仅八页的论文《Attention Is All You Need》悄然发布,其提出的自注意力机制彻底颠覆序列建模范式,释放GPU并行算力,催生ChatGPT等大模型。八位年轻研究者因谷歌忽视该技术而相继出走创业,各自在对话AI、药物设计等领域落地创新,重演“仙童八叛徒”历史。从P100到H100,硬件为Transformer特化优化,算力暴增数十倍,但算法与算力的博弈仍在继续。

事件概述

2017年6月,一篇题为《Attention Is All You Need》的预印本论文在arXiv上发布。当时全球AI圈正聚焦于深度残差网络和对抗生成网络,这篇仅有八页的论文并未引起关注。然而,它后来催生了ChatGPT、Claude、Midjourney等产品,将英伟达推上数万亿美元市值,并迫使谷歌、亚马逊乃至主权国家重构半导体战略。论文的起点并非顶级实验室的顶层设计,而是谷歌研究员在白板上画的草图。

核心机制:自注意力取代循环

在Transformer出现前,深度学习主流是循环神经网络(RNN),其串行计算方式导致GPU并行算力浪费严重(90%算力闲置),且存在长程记忆丢失问题。Transformer的核心创新是自注意力机制:模型可同时处理序列中的所有词,动态根据上下文调整每个词的理解。具体而言,每个输入词被转化为查询(Q)、键(K)、值(V)三个向量;计算Q与所有K的相似度得到权重,再对V加权求和。这一简单公式覆盖了翻译、图像理解、代码生成等多项任务。

为捕捉多维度信息,论文引入多头注意力——相当于给模型装上“复眼”,不同头分别关注语法、语义、时空等不同子空间。同时,用正弦和余弦函数进行位置编码,将位置信息注入词嵌入,解决并行处理丢失词序的问题。

八位作者与出走创业

论文由八位研究者完成,无顶级大佬坐镇,也无预算和管理层支持。核心实验验证由当时20岁的多伦多大学大二学生艾登·戈麦斯在宿舍完成。八人分工如下:

  • 阿西什·瓦斯瓦尼(第一作者,全局设计协调)
  • 诺姆·沙泽尔(发明多头注意力)
  • 雅各布·臼克雷特(自注意力理论推动者,提出让注意力独挑大梁)
  • 尼基·帕尔玛(实验专家,评估大量模型变体)
  • 卢卡什·凯泽(工程实现,将数学转化为可运行的代码)
  • 莉昂·琼斯(构思论文标题《Attention Is All You Need》)
  • 伊利亚·波洛舒金(早期基础设计)

当时谷歌核心资源向搜索广告倾斜,这项颠覆技术被束之高阁或仅用于改进搜索排名等细枝末节。八人先后离开谷歌:诺姆·沙泽尔创立Character.AI(对话AI)、艾登·戈麦斯创立Cohere(企业AI)、雅各布·臼克雷特创立Inceptive(AI药物设计)、阿西什·瓦斯瓦尼与尼基·帕尔玛创立Essential AI(行动模型)、莉昂·琼斯创立Sakana AI(高效小模型)、伊利亚·波洛舒金参与NEAR Protocol(去中心化计算)。这重现了1957年“仙童八叛徒”出走开创硅谷的历史。

开启大算力时代

Transformer将计算转化为大规模矩阵乘法,彻底释放GPU并行算力。黄仁勋率先意识到这一转折,英伟达随后每一代架构均针对Transformer做特化:

  • P100(2016年):无专用Tensor Core,性能基准设为1.0x
  • V100(2017年):第一代Tensor Core,半精度训练速度大幅提升,性能3.5x
  • TPU v2(2017年):谷歌张量处理单元,支持bfloat16,性能4.0x
  • H100(2022年):专用Transformer引擎,支持FP8计算,性能25-30x
  • TPU v4(2020年):全局光交换互联,系统级性能提升10x
  • Groq LPU(2023年):采用时钟级静态调度与片上SRAM,实现实时推理每秒数百Token

未来方向

当前已有Mamba等基于状态空间模型的新架构试图以线性复杂度实现长文本理解,表明算法与算力的博弈正从“暴力计算”转向“精妙调度”。AI领域仍处于发展初期。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。