自适应思考:大模型如何动态分配推理预算
2026/04/29 08:00阅读量 9
Apple ML Research 提出名为 Sonata 的轻量级适配器,利用自一致性(self-consistency)作为代理指标,让大语言模型在生成答案前动态判断是否需要延长推理时间。该方法通过预测隐藏层表示中的自一致性程度,实现推理 token 数量的自适应分配,无需增加推理时的计算开销。实验显示,Sonata 能在保持准确率不变的情况下减少 20% 至 80% 的推理 token,或在同等成本下提升高达 5% 的准确率。
事件概述
针对大语言模型(LLM)在测试时计算中“何时需要思考”的问题,Apple Machine Learning Research 团队提出了一种自适应思考机制。现有研究虽证实增加推理预算能提升性能,但如何根据查询复杂度与模型能力进行最优预算分配仍不明确。
核心方法:Sonata
团队提出了 Sonata (Self-Consistency-Guided Adapter for Thinking Allocation),一种基于自一致性的轻量级适配器:
- 原理:利用多条推理路径的一致性(self-consistency)作为判断依据。低自一致性表明查询复杂,需要更长的推理过程;高自一致性则意味着可直接输出。
- 实现:适配器在离线阶段于校准数据集上训练,用于在查询预填充(prefilling)阶段直接从最后一层隐藏表示中预测自一致性。
- 优势:该预测结果可实时指导推理前的预算分配。适配器具有通用性和可迁移性,且推理时几乎零计算开销。
- 兼容性:Sonata 与现有的 CoT 压缩方法正交,可进一步结合使用以提升效率。
实验结果
在多个模型(Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B, Intern-S1-mini)和基准测试(AIME24, AIME25, GSM8K, MATH500, GPQA)上的广泛实验表明:
- 效率提升:在保持相同准确率的前提下,推理 token 数量减少了 20% 至 80%。
- 性能提升:在消耗相同 token 成本的情况下,准确率最高提升了 5%。
关键结论
该研究证明了 LLM 能够识别何时需要在潜在空间(latent space)中进行深度思考,并通过自适应分配策略实现了性能与效率的最佳平衡。
