ICML 2026:PRM-PBE——用过程奖励模型强化大模型程序样例归纳能力
北京大学等团队提出PRM-PBE框架,针对大语言模型在Programming-by-Example任务中缺乏推理过程监督的问题,利用反馈引导的推理树构建过程监督数据,训练Process Reward Model评估中间步骤可靠性,并基于三阶段课程学习的PPO优化模型。在多个基准上显著提升程序合成准确率,例如在DeepSeek-Coder-V2上Pass@1从42.76%提升至56.61%。
事件概述
北京大学、京东、华东师范大学等联合研究团队提出PRM-PBE框架,旨在解决大语言模型在Programming-by-Example(PBE)任务中缺乏对中间推理过程细粒度监督的问题。相关论文《PRM-PBE: Process Reward Model for Reinforcement Learning in Programming-by-Example》被ICML 2026接收。
核心方法
- 推理树构建:从输入输出样例出发,模型逐步采样自然语言形式的中间推理节点,形成推理路径。路径末端转化为完整程序并通过执行测试验证正确性。系统用后续路径的成功比例评估节点质量,对持续失败的推理前缀引入外部指令定向修复以生成更多正样本。
- 过程奖励模型(PRM)训练:以节点后继成功率作为偏好信号,训练PRM为每个推理状态分配分数,估计其继续生成正确程序的可能性。这种偏好学习能更好地区分不同推理方向的可靠程度。
- 三阶段课程学习+PPO强化学习:第一阶段解决语法和运行时错误,第二阶段处理与目标行为完全不一致的程序,第三阶段应对只通过部分样例的程序。每个阶段PRM提供过程级奖励,并通过PPO更新策略模型。
实验结果
论文在PROSE、SyGuS、Playgol、Lists、MBPP五个基准上测试。以DeepSeek-Coder-V2为基础模型时,SFT的Pass@1平均为42.76%,PRM-PBE提升至56.61%,涨幅13.85个百分点。相比最强非PRM基线(Claude-3.5-Sonnet的WPS方法),PRM-PBE仍高出8.73个百分点。实验覆盖GPT-4o、Claude-3.5-Sonnet、Qwen2.5-Coder等模型,PRM-PBE在所有基准上均显著优于现有基线。
意义
该工作显式建模了PBE中“从样例归纳程序意图”的推理过程,用过程奖励提供比最终执行结果更细粒度的训练信号,减少只满足部分样例的shortcut程序。框架为难以直接标注中间过程的任务提供了可扩展思路:通过采样后续路径、验证最终结果、反推中间状态价值的方式构建过程监督信号,有望扩展到更复杂的程序归纳和真实软件工程任务。
