最早的大语言模型是香农的妻子贝蒂：70年前的“下一个字符预测”实验

2026/07/05 11:51阅读量 2

信息论创始人香农在1950年代与妻子贝蒂进行了猜字母实验，被视为人类最早的“next-token prediction”。该实验揭示了语言可预测性等同于可压缩性，进而引出熵的概念。3Blue1Brown 最新视频将此与当代大语言模型训练中的交叉熵损失直接关联，并探讨了“压缩即智能”的思想。

事件概述

信息论创始人克劳德·香农的妻子贝蒂在1950年左右参与了一个家庭实验：香农从书中逐字母念出内容，每到一个位置就让贝蒂猜测下一个字母。猜对时香农画短横，猜错才写下正确字母。最终得到的转录本比原始文本短得多，但仍可通过贝蒂的“模型”还原。3Blue1Brown 主理人 Grant Sanderson 在其视频中将此视为人类最早的 next-token prediction 实验，称贝蒂是世界上第一个“明牌”的大语言模型。

核心信息

预测即压缩：贝蒂能预测的部分可被省略（用短横代替），这正是可预测性允许压缩的最直观例证。香农后来在论文《Prediction and Entropy of Printed English》中系统化实验，让多名受试者多次猜测直至命中，将猜测次数转换为受试者心中的隐含概率分布，从而量化人脑模型的语言预测能力。
从熵到损失函数：香农信息论中，信息量定义为 -log₂(p)。在一个分布下，每来一个新符号平均所需 bit 数即为熵。语言模型的交叉熵损失正是衡量在给定前文后，下一个 token 平均还有多少不确定性。交叉熵越低，模型越像一个更好的压缩器。
压缩与智能：Grant 指出，大模型训练中的预测任务本质是捕捉语言（及世界）中的可重复结构。虽然不能简单将压缩等同于智能，但智能至少包含“抓住世界里可预测的结构”这一能力。贝蒂的短横对应大模型的低损失，贝蒂的猜测对应 GPT 的 token 预测。

值得关注

该实验串联了信息论、压缩与大模型训练的根本性联系：预测下一个 token 不只是语言游戏，更是编码世界规律、压缩信息的过程。香农60多年前的设计，如今在大规模 Transformer 模型中以交叉熵 loss 的形式被重新验证。

参考链接：3Blue1Brown 视频 [https://www.youtube.com/watch?v=l6DKRf-fAAM&t=745s%5D%28https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3Dl6DKRf-fAAM&t=745s%29

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？