大模型在语义层面的校准能力:基于概念而非令牌的意外涌现
Apple ML Research 研究发现,基础大语言模型(LLMs)虽未显式训练用于评估回答的置信度,但在开放域问答任务中表现出显著的语义校准能力。理论分析表明,这种能力是下一词预测任务的副产品,源于局部损失最优性与校准概念的内在联系。实验进一步证实,RL 指令微调及思维链推理会系统性破坏这种原本存在的语义校准特性。
事件概述
Apple Machine Learning Research 团队发表新研究,揭示了大型语言模型(LLMs)在“语义校准”方面的意外涌现机制。尽管基础 LLMs 仅针对下一个令牌(token)进行训练,缺乏对输出整体含义的显式置信度评估训练,但研究发现它们在开放域问答任务中能够准确评估自身回答的可信度。
核心发现与理论机制
1. 语义校准的涌现
- 现象:当采用基于采样的语义校准定义时,基础 LLMs 展现出惊人的校准表现。它们能够在不经过专门训练的情况下,对回答的实际意义进行有意义的置信度评估。
- 理论解释:研究建立了语义校准作为下一词预测副产品的理论机制。该机制利用了校准与局部损失最优性(local loss optimality)之间的最新关联。
- B-校准定义:提出了一种通用的“B-校准”(B-calibration)定义,即通过选择等价类(如语义类别或其他类别)来参数化的校准概念。
2. 可验证的预测
理论推导出了一个可测试的预测:当基础 LLMs 能够在生成回答前轻松预测其自身在语义答案类别上的分布时,它们将具备语义校准能力。
实验验证与关键结论
基于上述预测,研究通过实验验证了以下三个重要结论:
- 普遍存在的校准性:基础 LLMs 在各类问答任务中均表现出语义校准特性。
- RL 指令微调的负面影响:强化学习(RL)指令微调过程会系统性地破坏这种固有的语义校准能力。
- 思维链推理的干扰:引入思维链(Chain-of-Thought, CoT)推理方法同样会打破模型的语义校准状态。
研究意义
该工作首次提供了关于大语言模型何时以及为何会出现语义校准的原理解释,为理解模型内部置信度估计的形成机制提供了新的理论视角。
