重新审视大语言模型下游指标的缩放规律:直接建模优于两阶段法

Apple ML Research 提出一种直接框架,利用训练预算预测大语言模型在多个下游任务上的基准性能。研究发现,在固定 token 与参数比例下,简单的幂律能准确描述对数准确率的变化趋势。该直接方法比传统的两阶段流程具有更好的外推能力,且避免了误差累积问题。研究团队基于最高 17B 参数、350B token 的模型验证了结论,并公开了完整数据以支持复现。

事件概述

传统的大语言模型(LLM)缩放定律主要关注预训练损失等代理指标,而预测下游任务表现常被视为不可靠。Apple Machine Learning Research 发表的新论文挑战了这一观点,提出了一种直接从训练预算建模基准性能缩放的框架。

核心发现

  • 幂律适用性:对于固定的 token-to-parameter(token 与参数)比例,简单的幂律能够准确描述多个流行下游任务上 log accuracy(对数准确率)的缩放行为。
  • 方法论优势:相比于此前提出的两阶段过程(two-stage procedure),这种直接方法的外推效果更佳,有效避免了误差累积问题。
  • 功能形式创新:研究引入了新的函数形式,能够预测不同 token-to-parameter 比例下的准确率,并考虑了重复采样下的推理计算量。

实验验证与数据

  • 模型规模:验证工作涵盖了参数规模高达 17B 的模型。
  • 训练数据量:使用了多达 350B tokens 的数据进行训练。
  • 数据集配置:测试在两种不同的数据集混合(dataset mixtures)上进行。
  • 开源贡献:为支持可复现性及鼓励后续研究,作者发布了完整的预训练损失数据和下游评估结果。

相关背景

该研究与 Apple 此前关于“最优数据混合缩放定律”及“预测器自我损失认知”的研究共同构成了其在 LLM 训练效率与评估方法论上的系统性探索。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。