普林斯顿刘壮团队开源Vero：无思考数据刷新视觉推理SOTA

2026/04/11 09:23阅读量 69

普林斯顿大学刘壮与陈丹琦团队推出通用视觉推理强化学习框架Vero，在30多项测试中超越Qwen3-VL-8B-Thinking等专用模型。该方案通过构建60万样本的均衡数据集、设计任务路由奖励机制及单阶段RL训练，实现了无需私有“思考”数据的通用视觉推理能力。目前Vero的数据、代码及模型已全面开源。

事件概述

普林斯顿大学PLI实验室刘壮团队（陈丹琦参与）发布了适用于通用视觉推理的强化学习（RL）框架 Vero。该框架打破了闭源大厂对视觉推理RL方案的垄断，证明了在学术环境下，通过高质量数据过滤、均衡任务混合及精确奖励机制，同样能实现顶尖工业界水平的视觉推理能力。

核心信息

1. 性能表现

基准测试：在30项视觉推理基准测试中，基于Vero训练的模型在23项上超越了经过专门微调的 Qwen3-VL-8B-Thinking。
适用范围：涵盖图表理解、科学问题、空间感知及开放域视觉任务。
关键突破：在未引入任何私有“思考（Thinking）”数据的情况下，仅凭单阶段强化学习即达到SOTA水平。

2. 技术架构与创新

针对传统开源VLM模型存在的“单任务擅长但泛化差”或“多任务混合导致能力退化”问题，Vero提出了三项核心策略：

Vero-600K 数据集
- 从59个原始数据集中筛选并构建了包含60万高质量样本的多样化训练集。
- 样本覆盖六大类：图表与OCR、STEM、空间与动作、知识与识别、定位/计数/搜索、描述与指令遵循。
- 结论：广泛且均衡的数据覆盖是视觉推理RL Scaling的主要驱动力，避免了单一任务训练导致的过拟合或能力崩塌。
任务路由奖励机制 (Task-Routed Rewards)
- 针对不同任务答案格式差异大的痛点，设计了多路奖励系统。
- 自动路由：根据任务类型将输出分发至对应验证器。
  - 选择题：校验选项正确性。
  - 数学题：调用数学校验器。
  - 开放描述：引入大模型作为裁判评估质量。
单阶段强化学习
- 摒弃了依赖私有“思考”数据的复杂流程，证明基础模型配合上述数据与奖励机制，即可激发通用视觉推理能力。

值得关注

开源状态：Vero的所有数据、代码及模型均已开源，项目地址为 https://vero-reasoning.github.io/。
研究背景：通讯作者包括Gabriel Sarch（CMU博士，普林斯顿博士后）和Linrong Cai（威斯康星大学麦迪逊分校本科，普林斯顿硕士）。项目负责人刘壮（清华姚班出身，加州伯克利博士）曾主导DenseNet、ConvNeXt等知名工作。

阅读原文详情

事件概述

核心信息

1. 性能表现

2. 技术架构与创新

值得关注

准备好启动您的定制项目了吗？