代码驱动的视觉感知：'看得懂代码'才是大模型攻克理科题的真正钥匙

2026/05/19 16:58阅读量 5

上海交通大学AI研究院与Qwen团队联合提出CodePercept方法，通过系统实验证明当前多模态大模型在STEM视觉推理中的真正瓶颈是视觉感知而非推理能力。该方法以代码作为视觉感知的“第二语言”，构建百万级三元组数据集ICC-1M，并设计两阶段训练策略（监督微调+强化学习），使仅有80亿参数的CodePercept-8B在精确感知评测上超越72B级别大模型，逼近闭源前沿。

事件概述

上海交通大学人工智能研究院与Qwen团队在CVPR 2026上提出CodePercept（代码驱动的视觉感知）框架。该工作通过解耦STEM视觉推理任务中的“感知”与“推理”阶段，系统性地证明了当前多模态大模型在科学、技术、工程和数学（STEM）领域视觉推理中的真正瓶颈是视觉感知能力不足，而非推理能力。

核心信息

诊断方法：团队将STEM视觉推理任务拆分为感知和推理两个独立阶段，分别扩展其中一项能力而保持另一项不变。实验结果表明，扩展感知能力带来的性能提升始终优于扩展推理能力，颠覆了业界此前将问题归于“推理能力不足”的主流认知。
自然语言的局限性：传统使用自然语言描述图像的方式天然存在模糊性，难以精确表达几何中的坐标、角度、空间关系等数学信息，团队称之为“描述性失语”。而代码（如Python）具有二值化的精确性——每个坐标、参数均可验证、可执行，天然适合作为精确视觉感知的载体。
CodePercept范式：核心思想是让代码成为视觉感知的“第二语言”，从两个维度重新定义视觉感知任务：
- 代码驱动的描述生成：模型先看图像生成代码，再用执行代码验证描述的正确性。
- STEM图像到代码转录：模型直接学习从图像生成可复现该图的Python代码，通过执行比对实现二值化验证。
数据集构建：团队构建了ICC-1M数据集，包含100万个“图像-描述-代码”三元组，通过三条合成流水线生成：
- 图像复现：将现有STEM图像转化为可执行代码
- 图像多样化：保持原理不变，通过参数变化生成视觉不同但等价的图像-代码对
- 立体几何合成：基于模板生成大量带有三维空间变换、多面体交叉的立体几何训练样本
两阶段训练策略：
- 第一阶段（CodePercept-S1）：监督微调，同时优化“看图写描述”和“看图写代码”两个任务，共享视觉编码器。
- 第二阶段（CodePercept-R1）：基于GRPO的强化学习，设计三层递增奖励（格式奖励、内容执行奖励、图码相似度奖励），促使模型从“会写代码”到“写对代码”。
评估基准：团队推出STEM2Code-Eval，包含1000张人工精校图像，要求模型生成能100%还原图像的Python代码，并通过像素级比对评分，真正解耦了感知与推理的评测。

值得关注

性能对比：在Captioner-Solver评测模式下，CodePercept-8B-S1（80亿参数）以6.2%的优势超越Qwen2.5-VL-72B，逼近Claude-Opus 4.1-Thinking和GPT5-Thinking。在纯粹感知的STEM2Code-Eval上，CodePercept-8B-R1得分63.56，全面超越Seed 1.6-Vision和Qwen3-VL-Plus等超大参数模型。
方法论意义：该成果打破了过去“参数越大、推理链越长”的默认升级路径，提出用代码作为视觉感知的锚点，实现可验证的精确理解。这一范式有望促使更多团队重新审视感知与推理的权重分配，将代码纳入视觉理解的标准工具箱。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？