西交大与 A*STAR 提出 PaCo-RL：基于成对奖励与强化学习实现多图生成一致性突破

2026/03/24 11:33阅读量 18

西安交通大学与新加坡 A*STAR 研究团队提出 PaCo-RL 方法，通过构建成对比较的奖励模型结合强化学习，解决了多模态生成中跨图身份、风格及逻辑一致性的难题。实验显示，该方法在 ConsistencyRank 基准测试中准确率提升至 0.449，并在 Text-to-ImageSet 任务中将一致性指标提升约 10.3% 至 11.7%。研究还创新性地采用低分辨率训练策略与奖励平衡机制，显著降低了计算成本并提升了训练稳定性。

事件概述

针对当前图像生成模型擅长单张优化但缺乏跨图关系稳定建模能力的问题，西安交通大学与新加坡 A*STAR 研究团队提出了《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling》论文。该研究将图像一致性判断转化为“跨图比较”的学习问题，通过强化学习框架实现了从“会判断”到“会生成”的能力闭环。

核心信息

1. 方法论创新

成对奖励建模：摒弃传统的单图打分模式，构建 PaCo-Reward 模型。输入由两张图像及对应文本组成，输出为 Yes/No 判断结果并生成推理过程，将一致性判断转化为语言生成任务，增强可解释性。
数据构建流程：利用生成模型构建数据源，筛选 708 条代表性 Prompt 生成图像网格，通过拆分与重组构造出 33,984 个排序样本，进一步转化为 54,624 个包含推理解释的成对样本（含 27,599 个一致样本和 27,025 个不一致样本）。
强化学习应用：引入 RL 框架，让生成模型根据奖励模型的评分信号更新参数，模拟人类通过反馈优化的学习过程。

2. 关键性能表现

判断能力提升：在 ConsistencyRank 基准测试中，PaCo-Reward 准确率达 0.449，较原模型提升超 10%，Spearman 相关系数达 0.288，优于 Qwen2.5-VL-7B、CLIP-I 及 DreamSim 等现有方法。
编辑与生成效果：在 EditReward-Bench 测试中，一致性指标达 0.709，整体指标 0.751，接近 GPT-5 水平。在 Text-to-ImageSet 任务中，身份、风格和逻辑一致性指标整体提升 10.3%-11.7%；在 Qwen-Image-Edit 模型上，整体分数从 7.307 提升至 7.451。
泛化能力：在多语言设置下表现出一致的改进趋势，证明模型具备跨任务泛化能力而非简单记忆。

3. 效率与稳定性优化

分辨率解耦策略：训练阶段使用 512 分辨率图像，推理阶段生成 1024 分辨率图像。实验表明 512 分辨率训练约 6 小时即可达到 1024 分辨率约 12 小时的效果，且 50 个轮次后性能收敛。
奖励平衡策略：针对传统多奖励加权导致单一奖励主导优化的问题，通过对波动较大的奖励进行压缩处理，将奖励比例稳定控制在 1.8 以内，避免优化偏移并保持多目标平衡。

值得关注

范式转变：该研究标志着图像生成从“单点生成”向“关系建模”的范式变化，使 AI 能够像人类一样通过比较来理解主观的一致性概念。
落地潜力：通过降低计算成本和提升训练稳定性，该技术有望加速进入实际产品，解决 IP 设计、品牌视觉、故事分镜等场景中人物形象不统一、风格割裂等痛点。
作者背景：论文共同一作包括西安交通大学博士生贾成铕（导师罗敏楠教授），通讯作者为新加坡 A*STAR 钱航薇研究员。

阅读原文详情