重新审视大语言模型下游指标的缩放规律：直接建模优于两阶段法

2026/03/26 08:00阅读量 23

Apple ML Research 提出一种直接框架，利用训练预算预测大语言模型在多个下游任务上的基准性能。研究发现，在固定 token 与参数比例下，简单的幂律能准确描述对数准确率的变化趋势。该直接方法比传统的两阶段流程具有更好的外推能力，且避免了误差累积问题。研究团队基于最高 17B 参数、350B token 的模型验证了结论，并公开了完整数据以支持复现。

事件概述

传统的大语言模型（LLM）缩放定律主要关注预训练损失等代理指标，而预测下游任务表现常被视为不可靠。Apple Machine Learning Research 发表的新论文挑战了这一观点，提出了一种直接从训练预算建模基准性能缩放的框架。

核心发现

幂律适用性：对于固定的 token-to-parameter（token 与参数）比例，简单的幂律能够准确描述多个流行下游任务上 log accuracy（对数准确率）的缩放行为。
方法论优势：相比于此前提出的两阶段过程（two-stage procedure），这种直接方法的外推效果更佳，有效避免了误差累积问题。
功能形式创新：研究引入了新的函数形式，能够预测不同 token-to-parameter 比例下的准确率，并考虑了重复采样下的推理计算量。

实验验证与数据

模型规模：验证工作涵盖了参数规模高达 17B 的模型。
训练数据量：使用了多达 350B tokens 的数据进行训练。
数据集配置：测试在两种不同的数据集混合（dataset mixtures）上进行。
开源贡献：为支持可复现性及鼓励后续研究，作者发布了完整的预训练损失数据和下游评估结果。

重新审视大语言模型下游指标的缩放规律：直接建模优于两阶段法

事件概述

核心发现

实验验证与数据

相关背景

准备好启动您的定制项目了吗？