普林斯顿刘壮团队开源Vero:无思考数据刷新视觉推理SOTA

2026/04/11 09:23阅读量 3

普林斯顿大学刘壮与陈丹琦团队推出通用视觉推理强化学习框架Vero,在30多项测试中超越Qwen3-VL-8B-Thinking等专用模型。该方案通过构建60万样本的均衡数据集、设计任务路由奖励机制及单阶段RL训练,实现了无需私有“思考”数据的通用视觉推理能力。目前Vero的数据、代码及模型已全面开源。

事件概述

普林斯顿大学PLI实验室刘壮团队(陈丹琦参与)发布了适用于通用视觉推理的强化学习(RL)框架 Vero。该框架打破了闭源大厂对视觉推理RL方案的垄断,证明了在学术环境下,通过高质量数据过滤、均衡任务混合及精确奖励机制,同样能实现顶尖工业界水平的视觉推理能力。

核心信息

1. 性能表现

  • 基准测试:在30项视觉推理基准测试中,基于Vero训练的模型在23项上超越了经过专门微调的 Qwen3-VL-8B-Thinking
  • 适用范围:涵盖图表理解、科学问题、空间感知及开放域视觉任务。
  • 关键突破:在未引入任何私有“思考(Thinking)”数据的情况下,仅凭单阶段强化学习即达到SOTA水平。

2. 技术架构与创新

针对传统开源VLM模型存在的“单任务擅长但泛化差”或“多任务混合导致能力退化”问题,Vero提出了三项核心策略:

  • Vero-600K 数据集

    • 从59个原始数据集中筛选并构建了包含60万高质量样本的多样化训练集。
    • 样本覆盖六大类:图表与OCRSTEM空间与动作知识与识别定位/计数/搜索描述与指令遵循
    • 结论:广泛且均衡的数据覆盖是视觉推理RL Scaling的主要驱动力,避免了单一任务训练导致的过拟合或能力崩塌。
  • 任务路由奖励机制 (Task-Routed Rewards)

    • 针对不同任务答案格式差异大的痛点,设计了多路奖励系统。
    • 自动路由:根据任务类型将输出分发至对应验证器。
      • 选择题:校验选项正确性。
      • 数学题:调用数学校验器。
      • 开放描述:引入大模型作为裁判评估质量。
  • 单阶段强化学习

    • 摒弃了依赖私有“思考”数据的复杂流程,证明基础模型配合上述数据与奖励机制,即可激发通用视觉推理能力。

值得关注

  • 开源状态:Vero的所有数据、代码及模型均已开源,项目地址为 https://vero-reasoning.github.io/。
  • 研究背景:通讯作者包括Gabriel Sarch(CMU博士,普林斯顿博士后)和Linrong Cai(威斯康星大学麦迪逊分校本科,普林斯顿硕士)。项目负责人刘壮(清华姚班出身,加州伯克利博士)曾主导DenseNet、ConvNeXt等知名工作。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。