LaCy：小语言模型的学习策略不仅是损失函数的问题

2026/04/09 08:00阅读量 32

Apple ML Research 提出 LaCy 预训练方法，旨在解决小语言模型（SLM）因参数有限导致的知识上限问题。研究发现，仅凭损失值无法准确判断哪些 token 应被模型学习、哪些应委托给外部大模型，因为高损失值有时对应的是事实正确的替代续写。实验表明，结合 spaCy 语法解析器增强信号后，LaCy 模型在级联生成中的事实准确率（FactScore）优于 Rho 或 LLM-judge 训练的 SLM，且成本更低。

事件概述

Apple Machine Learning Research 团队提出了一种名为 LaCy 的新型预训练方法，该论文已被 ICLR Workshop on Memory for LLM-Based Agentic Systems 接收。研究核心在于重新定义小语言模型（Small Language Models, SLMs）在预训练阶段的学习边界：即明确区分哪些 token 应当由 SLM 内部掌握，哪些应当通过 <CALL> 令牌委托给外部资源（如更大模型、文档或数据库）。

核心发现

损失函数的局限性：传统观点认为低损失意味着正确预测，但研究发现，某些 token 虽然导致较高的训练损失，实则是原文档中事实正确的替代续写（truthful alternative continuations）。若仅依据损失值触发委托机制，会导致不必要的调用，降低效率。
引入语法信号：为了解决上述问题，研究团队利用 spaCy 语法解析器来增强损失信号。通过分析句法结构，模型能更准确地识别出哪些高损失 token 是安全的（可学习），哪些是可能导致事实错误的（需委托）。
决策逻辑重构：LaCy 的核心理念并非单纯最小化损失，而是基于“事实准确性”和“知识边界”进行 token 级别的分类决策。

实验结果与优势

性能表现：在与更大模型进行级联生成（cascade generation）的测试中，LaCy 模型显著提高了 FactScores（事实评分）。
对比优势：相比采用 Rho 或 LLM-judge 训练的 SLM，LaCy 在保持更简单架构的同时，实现了更高的准确性和更低的计算成本。
结论：该方法证明了通过优化 token 选择哲学，可以有效缓解 SLM 因容量限制而产生的事实性错误问题。

阅读原文详情

事件概述

核心发现

实验结果与优势

准备好启动您的定制项目了吗？