少即是多:训练数据剪枝提升大模型事实记忆能力
2026/04/13 08:00阅读量 4
Apple ML Research 提出一种仅基于训练损失的数据选择方案,通过限制训练数据中的事实数量并平滑其频率分布,有效提升了大语言模型的事实记忆准确率。实验表明,该方法使 GPT2-Small 模型在维基百科语料上的实体事实记忆量达到标准训练的 1.3 倍,性能媲美参数量大 10 倍的模型。研究从信息论角度证明,当训练数据包含的信息量超过模型容量或事实频率分布呈偏态时,事实准确率将低于理论极限。
事件概述
Apple Machine Learning Research 团队在 ICLR 2026 的“基础模型数据问题导航与应对”研讨会上发表论文《Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts》(少即是多:训练数据剪枝提升事实记忆)。该研究针对大语言模型(LLMs)因参数限制难以充分记忆事实知识,从而导致幻觉和知识密集型任务表现不佳的问题,提出了基于信息论视角的解决方案。
核心发现与机制
- 理论瓶颈:研究指出,当训练数据中包含的事实信息总量超过模型容量,或者事实频率分布呈现偏态(如幂律分布)时,模型的事实准确率无法达到理论上限。
- 解决方案:提出了一种仅依赖训练损失(training loss)的数据选择策略。该策略旨在减少训练数据中的事实数量,并扁平化事实的频率分布,使其更均匀地覆盖各类事实。
- 验证结果:在半合成高熵事实数据集上,该方法成功将事实准确率提升至模型容量极限。
关键实验数据
在从头预训练(pretraining from scratch)的实验中,研究团队使用标注过的维基百科语料库进行对比测试:
- 模型配置:GPT2-Small(1.1 亿参数)。
- 对比效果:采用数据剪枝方法的模型,其记忆的实体事实数量比标准训练方法多出 1.3 倍。
- 规模等效性:经过剪枝的小模型表现,达到了在完整数据集上预训练的 10 倍大模型(13 亿参数)的水平。
结论
该研究表明,通过优化训练数据的分布而非单纯增加模型规模,可以显著提升大模型对事实知识的记忆效率,为平衡模型容量与训练数据质量提供了新的技术路径。
