多样化推理轨迹训练提升LLM决策能力

2026/05/26 23:17阅读量 2

亚马逊科学发布研究,通过让大语言模型学习多样化的推理路径,提高其决策质量。

亚马逊研究团队提出了一种新方法,通过为LLM提供多样化的推理轨迹进行训练,显著提升模型在复杂任务中的决策能力。该方法鼓励模型探索多种推理路径,而非单一最优解,从而增强泛化性和鲁棒性。实验表明,该策略在多个推理基准上取得了更好效果。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。