多样化推理轨迹训练提升LLM决策能力

2026/05/26 23:17阅读量 2

亚马逊科学发布研究，通过让大语言模型学习多样化的推理路径，提高其决策质量。

亚马逊研究团队提出了一种新方法，通过为LLM提供多样化的推理轨迹进行训练，显著提升模型在复杂任务中的决策能力。该方法鼓励模型探索多种推理路径，而非单一最优解，从而增强泛化性和鲁棒性。实验表明，该策略在多个推理基准上取得了更好效果。