多样化推理轨迹训练提升LLM决策能力2026/05/26 23:17阅读量 2亚马逊科学发布研究,通过让大语言模型学习多样化的推理路径,提高其决策质量。亚马逊研究团队提出了一种新方法,通过为LLM提供多样化的推理轨迹进行训练,显著提升模型在复杂任务中的决策能力。该方法鼓励模型探索多种推理路径,而非单一最优解,从而增强泛化性和鲁棒性。实验表明,该策略在多个推理基准上取得了更好效果。阅读原文详情