Apple ML Research:基于混合数据的最优语言模型拆分策略

该研究提出了一种从通用预训练语料中独立训练多个模型,并利用缩放定律确定预训练与持续预训练之间最优计算分配的方法。该方法能准确预测不同规模模型在特定 token 数量下的损失,并有效外推至更大规模。实验表明,此策略在常识知识和推理基准测试中,针对不同模型大小和计算预算均实现了性能提升。

事件概述

Apple Machine Learning Research 团队发表了一篇题为《Optimal Splitting of Language Models from Mixtures to Specialized Domains》的论文,该论文已被 ICLR 2026 的“基础模型数据问题导航与解决”研讨会(Workshop on Navigating and Addressing Data Problems for Foundation Models)接收。

核心信息

背景与挑战

  • 标准范式:当前大语言模型(LLM)通常采用两阶段训练范式:先在完整语料库上进行预训练,随后在高质量、特定领域的子集上进行微调或持续预训练(Specialization)。
  • 多领域场景:在多领域设置下,这涉及对每个专用领域分别进行模型的持续预训练(Split Model Training)。
  • 专家模型局限:专注于特定任务或领域的专家模型(Specialist LMs)往往表现优于同规模的通用模型,但针对这些领域的高质量预训练数据通常非常有限。

提出的方法

  • 独立预训练:提出一种方法,允许在通用预训练语料上独立训练多个模型。
  • 最优计算分配:利用缩放定律(Scaling Laws),确定预训练阶段与持续预训练阶段之间的最优计算资源分配比例。
  • 损失预测与外推:该方法能够准确预测规模为 $N$、拥有 $D$ 个预训练 token 和 $D'$ 个专用化 token 的模型损失,并能将预测结果外推至更大的模型规模和 token 数量。

关键结论与效果

  • 性能提升:将该方法应用于语言模型训练后,在不同模型大小和计算预算下,其在常识知识(common sense knowledge)和推理(reasoning)基准测试中的表现均得到了一致的提升。

  • 数据利用优化:通过调整通用数据的训练分布并结合有限的领域特定数据进行指导,能够从大型通用训练集中构建出专家模型,从而缓解特定领域数据稀缺的问题。

  • 主要作者:Skyler Seto, Pierre Ablin, Anastasiia Filippova, Jiayuan Ye, Louis Bethune, Angelos Katharopoulos, David Grangier。

  • 相关机构:新加坡国立大学(National University of Singapore)等。

  • 发布时间:2026年3月。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。