LaDiR:利用潜在扩散模型增强大语言模型的文本推理能力
2026/04/28 08:00阅读量 2
Apple ML Research 提出 LaDiR(Latent Diffusion Reasoner),一种结合变分自编码器与潜在扩散模型的新型文本推理框架,旨在解决传统自回归解码无法全局反思和迭代优化的问题。该模型通过构建结构化潜在推理空间,实现了对思维步骤的紧凑编码与双向注意力去噪,支持并行生成多样化的推理轨迹。在数学推理和规划基准测试中,LaDiR 在准确率、多样性及可解释性上均优于现有的自回归及扩散基方法,相关论文已被 ICLR 2026 研讨会录用。
事件概述
Apple Machine Learning Research 提出了 LaDiR (Latent Diffusion Reasoner),这是一种旨在提升大语言模型(LLM)文本推理能力的新框架。该研究针对传统自回归解码模式在探索多样解和全局优化早期 token 方面的局限性,引入潜在扩散机制进行改进。
核心机制
- 结构化潜在推理空间:利用变分自编码器(VAE)将文本推理步骤编码为“思维 token 块”(blocks of thought tokens)。这种设计在保持语义信息和可解释性的同时,提供了紧凑且表达力强的表示形式。
- 潜在扩散去噪:采用潜在扩散模型对 latent thought tokens 块进行去噪学习。通过引入块级双向注意力掩码(blockwise bidirectional attention mask),模型能够进行长视野的迭代优化,并具备自适应的测试时计算能力。
- 并行推理轨迹:该架构允许高效地并行生成多种推理轨迹,使模型能够从整体角度规划和修订推理过程,而非仅按顺序单向生成。
实验结果与影响
- 评估基准:研究团队在一系列数学推理和规划基准任务上进行了评估。
- 性能表现:实证结果显示,LaDiR 在准确性、多样性以及可解释性方面, consistently(持续地)优于现有的自回归方法、基于扩散的方法以及其他潜在推理方法。
- 学术认可:该论文已被 ICLR 2026 的 "Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning" 研讨会录用。
Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang, Nicklas Majamaki, Navdeep Jaitly, Yi-An Ma, Lianhui Qin。
部分作者来自加州大学圣地亚哥分校(University of California, San Diego)。
