普林斯顿刘壮团队开源Vero:无思考数据刷新视觉推理SOTA
2026/04/11 09:23阅读量 3
普林斯顿大学刘壮与陈丹琦团队推出通用视觉推理强化学习框架Vero,在30多项测试中超越Qwen3-VL-8B-Thinking等专用模型。该方案通过构建60万样本的均衡数据集、设计任务路由奖励机制及单阶段RL训练,实现了无需私有“思考”数据的通用视觉推理能力。目前Vero的数据、代码及模型已全面开源。
事件概述
普林斯顿大学PLI实验室刘壮团队(陈丹琦参与)发布了适用于通用视觉推理的强化学习(RL)框架 Vero。该框架打破了闭源大厂对视觉推理RL方案的垄断,证明了在学术环境下,通过高质量数据过滤、均衡任务混合及精确奖励机制,同样能实现顶尖工业界水平的视觉推理能力。
核心信息
1. 性能表现
- 基准测试:在30项视觉推理基准测试中,基于Vero训练的模型在23项上超越了经过专门微调的 Qwen3-VL-8B-Thinking。
- 适用范围:涵盖图表理解、科学问题、空间感知及开放域视觉任务。
- 关键突破:在未引入任何私有“思考(Thinking)”数据的情况下,仅凭单阶段强化学习即达到SOTA水平。
2. 技术架构与创新
针对传统开源VLM模型存在的“单任务擅长但泛化差”或“多任务混合导致能力退化”问题,Vero提出了三项核心策略:
-
Vero-600K 数据集
- 从59个原始数据集中筛选并构建了包含60万高质量样本的多样化训练集。
- 样本覆盖六大类:图表与OCR、STEM、空间与动作、知识与识别、定位/计数/搜索、描述与指令遵循。
- 结论:广泛且均衡的数据覆盖是视觉推理RL Scaling的主要驱动力,避免了单一任务训练导致的过拟合或能力崩塌。
-
任务路由奖励机制 (Task-Routed Rewards)
- 针对不同任务答案格式差异大的痛点,设计了多路奖励系统。
- 自动路由:根据任务类型将输出分发至对应验证器。
- 选择题:校验选项正确性。
- 数学题:调用数学校验器。
- 开放描述:引入大模型作为裁判评估质量。
-
单阶段强化学习
- 摒弃了依赖私有“思考”数据的复杂流程,证明基础模型配合上述数据与奖励机制,即可激发通用视觉推理能力。
值得关注
- 开源状态:Vero的所有数据、代码及模型均已开源,项目地址为 https://vero-reasoning.github.io/。
- 研究背景:通讯作者包括Gabriel Sarch(CMU博士,普林斯顿博士后)和Linrong Cai(威斯康星大学麦迪逊分校本科,普林斯顿硕士)。项目负责人刘壮(清华姚班出身,加州伯克利博士)曾主导DenseNet、ConvNeXt等知名工作。
