LaCy:小语言模型的学习策略不仅是损失函数的问题
2026/04/09 08:00阅读量 2
Apple ML Research 提出 LaCy 预训练方法,旨在解决小语言模型(SLM)因参数有限导致的知识上限问题。研究发现,仅凭损失值无法准确判断哪些 token 应被模型学习、哪些应委托给外部大模型,因为高损失值有时对应的是事实正确的替代续写。实验表明,结合 spaCy 语法解析器增强信号后,LaCy 模型在级联生成中的事实准确率(FactScore)优于 Rho 或 LLM-judge 训练的 SLM,且成本更低。
事件概述
Apple Machine Learning Research 团队提出了一种名为 LaCy 的新型预训练方法,该论文已被 ICLR Workshop on Memory for LLM-Based Agentic Systems 接收。研究核心在于重新定义小语言模型(Small Language Models, SLMs)在预训练阶段的学习边界:即明确区分哪些 token 应当由 SLM 内部掌握,哪些应当通过 <CALL> 令牌委托给外部资源(如更大模型、文档或数据库)。
核心发现
- 损失函数的局限性:传统观点认为低损失意味着正确预测,但研究发现,某些 token 虽然导致较高的训练损失,实则是原文档中事实正确的替代续写(truthful alternative continuations)。若仅依据损失值触发委托机制,会导致不必要的调用,降低效率。
- 引入语法信号:为了解决上述问题,研究团队利用 spaCy 语法解析器来增强损失信号。通过分析句法结构,模型能更准确地识别出哪些高损失 token 是安全的(可学习),哪些是可能导致事实错误的(需委托)。
- 决策逻辑重构:LaCy 的核心理念并非单纯最小化损失,而是基于“事实准确性”和“知识边界”进行 token 级别的分类决策。
实验结果与优势
- 性能表现:在与更大模型进行级联生成(cascade generation)的测试中,LaCy 模型显著提高了 FactScores(事实评分)。
- 对比优势:相比采用 Rho 或 LLM-judge 训练的 SLM,LaCy 在保持更简单架构的同时,实现了更高的准确性和更低的计算成本。
- 结论:该方法证明了通过优化 token 选择哲学,可以有效缓解 SLM 因容量限制而产生的事实性错误问题。
