Apple ML Research：基于混合数据的最优语言模型拆分策略

2026/03/23 08:00阅读量 22

该研究提出了一种从通用预训练语料中独立训练多个模型，并利用缩放定律确定预训练与持续预训练之间最优计算分配的方法。该方法能准确预测不同规模模型在特定 token 数量下的损失，并有效外推至更大规模。实验表明，此策略在常识知识和推理基准测试中，针对不同模型大小和计算预算均实现了性能提升。

事件概述

Apple Machine Learning Research 团队发表了一篇题为《Optimal Splitting of Language Models from Mixtures to Specialized Domains》的论文，该论文已被 ICLR 2026 的“基础模型数据问题导航与解决”研讨会（Workshop on Navigating and Addressing Data Problems for Foundation Models）接收。

核心信息

背景与挑战

标准范式：当前大语言模型（LLM）通常采用两阶段训练范式：先在完整语料库上进行预训练，随后在高质量、特定领域的子集上进行微调或持续预训练（Specialization）。
多领域场景：在多领域设置下，这涉及对每个专用领域分别进行模型的持续预训练（Split Model Training）。
专家模型局限：专注于特定任务或领域的专家模型（Specialist LMs）往往表现优于同规模的通用模型，但针对这些领域的高质量预训练数据通常非常有限。

提出的方法

独立预训练：提出一种方法，允许在通用预训练语料上独立训练多个模型。
最优计算分配：利用缩放定律（Scaling Laws），确定预训练阶段与持续预训练阶段之间的最优计算资源分配比例。
损失预测与外推：该方法能够准确预测规模为 $N$、拥有 $D$ 个预训练 token 和 $D'$ 个专用化 token 的模型损失，并能将预测结果外推至更大的模型规模和 token 数量。

关键结论与效果

性能提升：将该方法应用于语言模型训练后，在不同模型大小和计算预算下，其在常识知识（common sense knowledge）和推理（reasoning）基准测试中的表现均得到了一致的提升。
数据利用优化：通过调整通用数据的训练分布并结合有限的领域特定数据进行指导，能够从大型通用训练集中构建出专家模型，从而缓解特定领域数据稀缺的问题。
主要作者：Skyler Seto, Pierre Ablin, Anastasiia Filippova, Jiayuan Ye, Louis Bethune, Angelos Katharopoulos, David Grangier。
相关机构：新加坡国立大学（National University of Singapore）等。
发布时间：2026年3月。

阅读原文详情

事件概述

核心信息

背景与挑战

提出的方法

关键结论与效果

准备好启动您的定制项目了吗？