LaDiR：利用潜在扩散模型增强大语言模型的文本推理能力

2026/04/28 08:00阅读量 2

Apple ML Research 提出 LaDiR（Latent Diffusion Reasoner），一种结合变分自编码器与潜在扩散模型的新型文本推理框架，旨在解决传统自回归解码无法全局反思和迭代优化的问题。该模型通过构建结构化潜在推理空间，实现了对思维步骤的紧凑编码与双向注意力去噪，支持并行生成多样化的推理轨迹。在数学推理和规划基准测试中，LaDiR 在准确率、多样性及可解释性上均优于现有的自回归及扩散基方法，相关论文已被 ICLR 2026 研讨会录用。

事件概述

Apple Machine Learning Research 提出了 LaDiR (Latent Diffusion Reasoner)，这是一种旨在提升大语言模型（LLM）文本推理能力的新框架。该研究针对传统自回归解码模式在探索多样解和全局优化早期 token 方面的局限性，引入潜在扩散机制进行改进。

核心机制

结构化潜在推理空间：利用变分自编码器（VAE）将文本推理步骤编码为“思维 token 块”（blocks of thought tokens）。这种设计在保持语义信息和可解释性的同时，提供了紧凑且表达力强的表示形式。
潜在扩散去噪：采用潜在扩散模型对 latent thought tokens 块进行去噪学习。通过引入块级双向注意力掩码（blockwise bidirectional attention mask），模型能够进行长视野的迭代优化，并具备自适应的测试时计算能力。
并行推理轨迹：该架构允许高效地并行生成多种推理轨迹，使模型能够从整体角度规划和修订推理过程，而非仅按顺序单向生成。

实验结果与影响

评估基准：研究团队在一系列数学推理和规划基准任务上进行了评估。
性能表现：实证结果显示，LaDiR 在准确性、多样性以及可解释性方面， consistently（持续地）优于现有的自回归方法、基于扩散的方法以及其他潜在推理方法。
学术认可：该论文已被 ICLR 2026 的 "Workshop on Latent & Implicit Thinking – Going Beyond CoT Reasoning" 研讨会录用。

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang, Nicklas Majamaki, Navdeep Jaitly, Yi-An Ma, Lianhui Qin。
部分作者来自加州大学圣地亚哥分校（University of California, San Diego）。

阅读原文详情

事件概述

核心机制

实验结果与影响

准备好启动您的定制项目了吗？