Transformer诞生的故事：八位“叛徒”、一个念头如何开启大算力时代

2026/06/10 00:50阅读量 2

2017年一篇仅八页的论文《Attention Is All You Need》悄然发布，其提出的自注意力机制彻底颠覆序列建模范式，释放GPU并行算力，催生ChatGPT等大模型。八位年轻研究者因谷歌忽视该技术而相继出走创业，各自在对话AI、药物设计等领域落地创新，重演“仙童八叛徒”历史。从P100到H100，硬件为Transformer特化优化，算力暴增数十倍，但算法与算力的博弈仍在继续。

事件概述

2017年6月，一篇题为《Attention Is All You Need》的预印本论文在arXiv上发布。当时全球AI圈正聚焦于深度残差网络和对抗生成网络，这篇仅有八页的论文并未引起关注。然而，它后来催生了ChatGPT、Claude、Midjourney等产品，将英伟达推上数万亿美元市值，并迫使谷歌、亚马逊乃至主权国家重构半导体战略。论文的起点并非顶级实验室的顶层设计，而是谷歌研究员在白板上画的草图。

核心机制：自注意力取代循环

在Transformer出现前，深度学习主流是循环神经网络（RNN），其串行计算方式导致GPU并行算力浪费严重（90%算力闲置），且存在长程记忆丢失问题。Transformer的核心创新是自注意力机制：模型可同时处理序列中的所有词，动态根据上下文调整每个词的理解。具体而言，每个输入词被转化为查询（Q）、键（K）、值（V）三个向量；计算Q与所有K的相似度得到权重，再对V加权求和。这一简单公式覆盖了翻译、图像理解、代码生成等多项任务。

为捕捉多维度信息，论文引入多头注意力——相当于给模型装上“复眼”，不同头分别关注语法、语义、时空等不同子空间。同时，用正弦和余弦函数进行位置编码，将位置信息注入词嵌入，解决并行处理丢失词序的问题。

八位作者与出走创业

论文由八位研究者完成，无顶级大佬坐镇，也无预算和管理层支持。核心实验验证由当时20岁的多伦多大学大二学生艾登·戈麦斯在宿舍完成。八人分工如下：

阿西什·瓦斯瓦尼（第一作者，全局设计协调）
诺姆·沙泽尔（发明多头注意力）
雅各布·臼克雷特（自注意力理论推动者，提出让注意力独挑大梁）
尼基·帕尔玛（实验专家，评估大量模型变体）
卢卡什·凯泽（工程实现，将数学转化为可运行的代码）
莉昂·琼斯（构思论文标题《Attention Is All You Need》）
伊利亚·波洛舒金（早期基础设计）

当时谷歌核心资源向搜索广告倾斜，这项颠覆技术被束之高阁或仅用于改进搜索排名等细枝末节。八人先后离开谷歌：诺姆·沙泽尔创立Character.AI（对话AI）、艾登·戈麦斯创立Cohere（企业AI）、雅各布·臼克雷特创立Inceptive（AI药物设计）、阿西什·瓦斯瓦尼与尼基·帕尔玛创立Essential AI（行动模型）、莉昂·琼斯创立Sakana AI（高效小模型）、伊利亚·波洛舒金参与NEAR Protocol（去中心化计算）。这重现了1957年“仙童八叛徒”出走开创硅谷的历史。

开启大算力时代

Transformer将计算转化为大规模矩阵乘法，彻底释放GPU并行算力。黄仁勋率先意识到这一转折，英伟达随后每一代架构均针对Transformer做特化：

P100（2016年）：无专用Tensor Core，性能基准设为1.0x
V100（2017年）：第一代Tensor Core，半精度训练速度大幅提升，性能3.5x
TPU v2（2017年）：谷歌张量处理单元，支持bfloat16，性能4.0x
H100（2022年）：专用Transformer引擎，支持FP8计算，性能25-30x
TPU v4（2020年）：全局光交换互联，系统级性能提升10x
Groq LPU（2023年）：采用时钟级静态调度与片上SRAM，实现实时推理每秒数百Token

未来方向

当前已有Mamba等基于状态空间模型的新架构试图以线性复杂度实现长文本理解，表明算法与算力的博弈正从“暴力计算”转向“精妙调度”。AI领域仍处于发展初期。

阅读原文详情

事件概述

核心机制：自注意力取代循环

八位作者与出走创业

开启大算力时代

未来方向

准备好启动您的定制项目了吗？