自适应思考：大模型如何动态分配推理预算

2026/04/29 08:00阅读量 9

Apple ML Research 提出名为 Sonata 的轻量级适配器，利用自一致性（self-consistency）作为代理指标，让大语言模型在生成答案前动态判断是否需要延长推理时间。该方法通过预测隐藏层表示中的自一致性程度，实现推理 token 数量的自适应分配，无需增加推理时的计算开销。实验显示，Sonata 能在保持准确率不变的情况下减少 20% 至 80% 的推理 token，或在同等成本下提升高达 5% 的准确率。

事件概述

针对大语言模型（LLM）在测试时计算中“何时需要思考”的问题，Apple Machine Learning Research 团队提出了一种自适应思考机制。现有研究虽证实增加推理预算能提升性能，但如何根据查询复杂度与模型能力进行最优预算分配仍不明确。

核心方法：Sonata

团队提出了 Sonata (Self-Consistency-Guided Adapter for Thinking Allocation)，一种基于自一致性的轻量级适配器：

原理：利用多条推理路径的一致性（self-consistency）作为判断依据。低自一致性表明查询复杂，需要更长的推理过程；高自一致性则意味着可直接输出。
实现：适配器在离线阶段于校准数据集上训练，用于在查询预填充（prefilling）阶段直接从最后一层隐藏表示中预测自一致性。
优势：该预测结果可实时指导推理前的预算分配。适配器具有通用性和可迁移性，且推理时几乎零计算开销。
兼容性：Sonata 与现有的 CoT 压缩方法正交，可进一步结合使用以提升效率。

实验结果

在多个模型（Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B, Intern-S1-mini）和基准测试（AIME24, AIME25, GSM8K, MATH500, GPQA）上的广泛实验表明：

效率提升：在保持相同准确率的前提下，推理 token 数量减少了 20% 至 80%。
性能提升：在消耗相同 token 成本的情况下，准确率最高提升了 5%。

关键结论

该研究证明了 LLM 能够识别何时需要在潜在空间（latent space）中进行深度思考，并通过自适应分配策略实现了性能与效率的最佳平衡。

阅读原文详情

事件概述

核心方法：Sonata

实验结果

关键结论

准备好启动您的定制项目了吗？