最早的大语言模型是香农的妻子贝蒂:70年前的“下一个字符预测”实验
2026/07/05 11:51阅读量 2
信息论创始人香农在1950年代与妻子贝蒂进行了猜字母实验,被视为人类最早的“next-token prediction”。该实验揭示了语言可预测性等同于可压缩性,进而引出熵的概念。3Blue1Brown 最新视频将此与当代大语言模型训练中的交叉熵损失直接关联,并探讨了“压缩即智能”的思想。
事件概述
信息论创始人克劳德·香农的妻子贝蒂在1950年左右参与了一个家庭实验:香农从书中逐字母念出内容,每到一个位置就让贝蒂猜测下一个字母。猜对时香农画短横,猜错才写下正确字母。最终得到的转录本比原始文本短得多,但仍可通过贝蒂的“模型”还原。3Blue1Brown 主理人 Grant Sanderson 在其视频中将此视为人类最早的 next-token prediction 实验,称贝蒂是世界上第一个“明牌”的大语言模型。
核心信息
- 预测即压缩:贝蒂能预测的部分可被省略(用短横代替),这正是可预测性允许压缩的最直观例证。香农后来在论文《Prediction and Entropy of Printed English》中系统化实验,让多名受试者多次猜测直至命中,将猜测次数转换为受试者心中的隐含概率分布,从而量化人脑模型的语言预测能力。
- 从熵到损失函数:香农信息论中,信息量定义为 -log₂(p)。在一个分布下,每来一个新符号平均所需 bit 数即为熵。语言模型的交叉熵损失正是衡量在给定前文后,下一个 token 平均还有多少不确定性。交叉熵越低,模型越像一个更好的压缩器。
- 压缩与智能:Grant 指出,大模型训练中的预测任务本质是捕捉语言(及世界)中的可重复结构。虽然不能简单将压缩等同于智能,但智能至少包含“抓住世界里可预测的结构”这一能力。贝蒂的短横对应大模型的低损失,贝蒂的猜测对应 GPT 的 token 预测。
值得关注
该实验串联了信息论、压缩与大模型训练的根本性联系:预测下一个 token 不只是语言游戏,更是编码世界规律、压缩信息的过程。香农60多年前的设计,如今在大规模 Transformer 模型中以交叉熵 loss 的形式被重新验证。
参考链接:3Blue1Brown 视频 [https://www.youtube.com/watch?v=l6DKRf-fAAM&t=745s%5D%28https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3Dl6DKRf-fAAM&t=745s%29
