ICML 2026：PRM-PBE——用过程奖励模型强化大模型程序样例归纳能力

2026/06/16 13:47阅读量 2

北京大学等团队提出PRM-PBE框架，针对大语言模型在Programming-by-Example任务中缺乏推理过程监督的问题，利用反馈引导的推理树构建过程监督数据，训练Process Reward Model评估中间步骤可靠性，并基于三阶段课程学习的PPO优化模型。在多个基准上显著提升程序合成准确率，例如在DeepSeek-Coder-V2上Pass@1从42.76%提升至56.61%。

事件概述

北京大学、京东、华东师范大学等联合研究团队提出PRM-PBE框架，旨在解决大语言模型在Programming-by-Example（PBE）任务中缺乏对中间推理过程细粒度监督的问题。相关论文《PRM-PBE: Process Reward Model for Reinforcement Learning in Programming-by-Example》被ICML 2026接收。

核心方法

推理树构建：从输入输出样例出发，模型逐步采样自然语言形式的中间推理节点，形成推理路径。路径末端转化为完整程序并通过执行测试验证正确性。系统用后续路径的成功比例评估节点质量，对持续失败的推理前缀引入外部指令定向修复以生成更多正样本。
过程奖励模型（PRM）训练：以节点后继成功率作为偏好信号，训练PRM为每个推理状态分配分数，估计其继续生成正确程序的可能性。这种偏好学习能更好地区分不同推理方向的可靠程度。
三阶段课程学习+PPO强化学习：第一阶段解决语法和运行时错误，第二阶段处理与目标行为完全不一致的程序，第三阶段应对只通过部分样例的程序。每个阶段PRM提供过程级奖励，并通过PPO更新策略模型。

实验结果

论文在PROSE、SyGuS、Playgol、Lists、MBPP五个基准上测试。以DeepSeek-Coder-V2为基础模型时，SFT的Pass@1平均为42.76%，PRM-PBE提升至56.61%，涨幅13.85个百分点。相比最强非PRM基线（Claude-3.5-Sonnet的WPS方法），PRM-PBE仍高出8.73个百分点。实验覆盖GPT-4o、Claude-3.5-Sonnet、Qwen2.5-Coder等模型，PRM-PBE在所有基准上均显著优于现有基线。

意义

该工作显式建模了PBE中“从样例归纳程序意图”的推理过程，用过程奖励提供比最终执行结果更细粒度的训练信号，减少只满足部分样例的shortcut程序。框架为难以直接标注中间过程的任务提供了可扩展思路：通过采样后续路径、验证最终结果、反推中间状态价值的方式构建过程监督信号，有望扩展到更复杂的程序归纳和真实软件工程任务。

阅读原文详情

事件概述

核心方法

实验结果

意义

准备好启动您的定制项目了吗？