代码驱动的视觉感知:'看得懂代码'才是大模型攻克理科题的真正钥匙
上海交通大学AI研究院与Qwen团队联合提出CodePercept方法,通过系统实验证明当前多模态大模型在STEM视觉推理中的真正瓶颈是视觉感知而非推理能力。该方法以代码作为视觉感知的“第二语言”,构建百万级三元组数据集ICC-1M,并设计两阶段训练策略(监督微调+强化学习),使仅有80亿参数的CodePercept-8B在精确感知评测上超越72B级别大模型,逼近闭源前沿。
事件概述
上海交通大学人工智能研究院与Qwen团队在CVPR 2026上提出CodePercept(代码驱动的视觉感知)框架。该工作通过解耦STEM视觉推理任务中的“感知”与“推理”阶段,系统性地证明了当前多模态大模型在科学、技术、工程和数学(STEM)领域视觉推理中的真正瓶颈是视觉感知能力不足,而非推理能力。
核心信息
-
诊断方法:团队将STEM视觉推理任务拆分为感知和推理两个独立阶段,分别扩展其中一项能力而保持另一项不变。实验结果表明,扩展感知能力带来的性能提升始终优于扩展推理能力,颠覆了业界此前将问题归于“推理能力不足”的主流认知。
-
自然语言的局限性:传统使用自然语言描述图像的方式天然存在模糊性,难以精确表达几何中的坐标、角度、空间关系等数学信息,团队称之为“描述性失语”。而代码(如Python)具有二值化的精确性——每个坐标、参数均可验证、可执行,天然适合作为精确视觉感知的载体。
-
CodePercept范式:核心思想是让代码成为视觉感知的“第二语言”,从两个维度重新定义视觉感知任务:
- 代码驱动的描述生成:模型先看图像生成代码,再用执行代码验证描述的正确性。
- STEM图像到代码转录:模型直接学习从图像生成可复现该图的Python代码,通过执行比对实现二值化验证。
-
数据集构建:团队构建了ICC-1M数据集,包含100万个“图像-描述-代码”三元组,通过三条合成流水线生成:
- 图像复现:将现有STEM图像转化为可执行代码
- 图像多样化:保持原理不变,通过参数变化生成视觉不同但等价的图像-代码对
- 立体几何合成:基于模板生成大量带有三维空间变换、多面体交叉的立体几何训练样本
-
两阶段训练策略:
- 第一阶段(CodePercept-S1):监督微调,同时优化“看图写描述”和“看图写代码”两个任务,共享视觉编码器。
- 第二阶段(CodePercept-R1):基于GRPO的强化学习,设计三层递增奖励(格式奖励、内容执行奖励、图码相似度奖励),促使模型从“会写代码”到“写对代码”。
-
评估基准:团队推出STEM2Code-Eval,包含1000张人工精校图像,要求模型生成能100%还原图像的Python代码,并通过像素级比对评分,真正解耦了感知与推理的评测。
值得关注
-
性能对比:在Captioner-Solver评测模式下,CodePercept-8B-S1(80亿参数)以6.2%的优势超越Qwen2.5-VL-72B,逼近Claude-Opus 4.1-Thinking和GPT5-Thinking。在纯粹感知的STEM2Code-Eval上,CodePercept-8B-R1得分63.56,全面超越Seed 1.6-Vision和Qwen3-VL-Plus等超大参数模型。
-
方法论意义:该成果打破了过去“参数越大、推理链越长”的默认升级路径,提出用代码作为视觉感知的锚点,实现可验证的精确理解。这一范式有望促使更多团队重新审视感知与推理的权重分配,将代码纳入视觉理解的标准工具箱。
