Apple ML 提出潜在前瞻训练:让 Transformer 在生成前“思考”
Apple Machine Learning Research 提出了一种名为“潜在前瞻(Latent Lookahead)”的训练策略,旨在解决自回归语言模型在逐词生成时无法探索多种可能路径及计算分配不均的问题。该方法通过在序列关键位置递归地将隐藏状态反馈至上下文进行多步潜在空间推演,使模型在确定下一个 token 前能进行深度“思考”。实验表明,该策略在迷宫求解、数独和 ProsQA 等需要前瞻规划的任务中,显著优于传统的自回归和非自回归基线模型。
事件概述
Apple Machine Learning Research 发表了一篇题为《Thinking into the Future: Latent Lookahead Training for Transformers》的论文,该研究已被 ICLR 2026 的“潜在与隐式思维研讨会”(Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning)接收。作者包括 Lorenzo Noci、Gregor Bachmann、Seyed-Mohsen Moosavi-Dezfooli 和 Moin Nabi。
核心问题
现有的自回归语言模型(Autoregressive Language Models)基于下一词预测(next-token prediction)目标,通过一次采样一个离散 token 来生成文本。这种范式存在两个主要局限:
- 缺乏探索能力:模型必须在每一步立即做出承诺,无法探索或反思多种合理的后续内容。
- 计算分配不均:所有 token 的计算量是均匀的,每个 token 仅基于单次前向传播生成。对于难以预测的 token,这种单一计算量可能限制了模型的表达能力。
解决方案:潜在前瞻(Latent Lookahead)
为了解决上述限制,研究团队提出了“潜在前瞻”训练策略,其核心机制如下:
- 延迟承诺:在序列的选定位置,模型在提交下一个 token 之前,先在潜在空间(latent space)中进行多步前瞻。
- 递归反馈:不直接采样未来 token,而是将网络的隐藏状态(hidden states)递归地反馈回上下文,持续 τ 步。
- 强化计算:通过这种方式,模型针对特定 token 投入更多计算资源,产生 τ 个潜在预测。
- 监督学习:这些潜在预测将接受随后 τ 个真实 token(ground-truth tokens)的监督,从而鼓励模型进行前瞻并优化预测结果。
实验结果
研究表明,潜在前瞻策略在需要前瞻能力的规划任务中表现优异,显著超越了自回归和非自回归基线模型。测试任务包括:
- 迷宫求解(Maze solving)
- 数独(Sudoku)
- ProsQA(需要推理的问题解答)
在这些任务中,模型的前瞻能力得到了实质性提升。
