少即是多:训练数据剪枝提升大模型事实记忆能力

2026/04/13 08:00阅读量 4

Apple ML Research 提出一种仅基于训练损失的数据选择方案,通过限制训练数据中的事实数量并平滑其频率分布,有效提升了大语言模型的事实记忆准确率。实验表明,该方法使 GPT2-Small 模型在维基百科语料上的实体事实记忆量达到标准训练的 1.3 倍,性能媲美参数量大 10 倍的模型。研究从信息论角度证明,当训练数据包含的信息量超过模型容量或事实频率分布呈偏态时,事实准确率将低于理论极限。

事件概述

Apple Machine Learning Research 团队在 ICLR 2026 的“基础模型数据问题导航与应对”研讨会上发表论文《Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts》(少即是多:训练数据剪枝提升事实记忆)。该研究针对大语言模型(LLMs)因参数限制难以充分记忆事实知识,从而导致幻觉和知识密集型任务表现不佳的问题,提出了基于信息论视角的解决方案。

核心发现与机制

  • 理论瓶颈:研究指出,当训练数据中包含的事实信息总量超过模型容量,或者事实频率分布呈现偏态(如幂律分布)时,模型的事实准确率无法达到理论上限。
  • 解决方案:提出了一种仅依赖训练损失(training loss)的数据选择策略。该策略旨在减少训练数据中的事实数量,并扁平化事实的频率分布,使其更均匀地覆盖各类事实。
  • 验证结果:在半合成高熵事实数据集上,该方法成功将事实准确率提升至模型容量极限。

关键实验数据

在从头预训练(pretraining from scratch)的实验中,研究团队使用标注过的维基百科语料库进行对比测试:

  • 模型配置:GPT2-Small(1.1 亿参数)。
  • 对比效果:采用数据剪枝方法的模型,其记忆的实体事实数量比标准训练方法多出 1.3 倍
  • 规模等效性:经过剪枝的小模型表现,达到了在完整数据集上预训练的 10 倍大模型(13 亿参数)的水平。

结论

该研究表明,通过优化训练数据的分布而非单纯增加模型规模,可以显著提升大模型对事实知识的记忆效率,为平衡模型容量与训练数据质量提供了新的技术路径。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。