少即是多：训练数据剪枝提升大模型事实记忆能力

2026/04/13 08:00阅读量 33

Apple ML Research 提出一种仅基于训练损失的数据选择方案，通过限制训练数据中的事实数量并平滑其频率分布，有效提升了大语言模型的事实记忆准确率。实验表明，该方法使 GPT2-Small 模型在维基百科语料上的实体事实记忆量达到标准训练的 1.3 倍，性能媲美参数量大 10 倍的模型。研究从信息论角度证明，当训练数据包含的信息量超过模型容量或事实频率分布呈偏态时，事实准确率将低于理论极限。

事件概述

Apple Machine Learning Research 团队在 ICLR 2026 的“基础模型数据问题导航与应对”研讨会上发表论文《Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts》（少即是多：训练数据剪枝提升事实记忆）。该研究针对大语言模型（LLMs）因参数限制难以充分记忆事实知识，从而导致幻觉和知识密集型任务表现不佳的问题，提出了基于信息论视角的解决方案。

核心发现与机制

理论瓶颈：研究指出，当训练数据中包含的事实信息总量超过模型容量，或者事实频率分布呈现偏态（如幂律分布）时，模型的事实准确率无法达到理论上限。
解决方案：提出了一种仅依赖训练损失（training loss）的数据选择策略。该策略旨在减少训练数据中的事实数量，并扁平化事实的频率分布，使其更均匀地覆盖各类事实。
验证结果：在半合成高熵事实数据集上，该方法成功将事实准确率提升至模型容量极限。

关键实验数据

在从头预训练（pretraining from scratch）的实验中，研究团队使用标注过的维基百科语料库进行对比测试：

模型配置：GPT2-Small（1.1 亿参数）。
对比效果：采用数据剪枝方法的模型，其记忆的实体事实数量比标准训练方法多出 1.3 倍。
规模等效性：经过剪枝的小模型表现，达到了在完整数据集上预训练的 10 倍大模型（13 亿参数）的水平。

结论

该研究表明，通过优化训练数据的分布而非单纯增加模型规模，可以显著提升大模型对事实知识的记忆效率，为平衡模型容量与训练数据质量提供了新的技术路径。

阅读原文详情

事件概述

核心发现与机制

关键实验数据

结论

准备好启动您的定制项目了吗？