何恺明团队CVPR 2026五篇论文全景：从流匹配到视觉推理，重构生成范式

2026/05/12 14:26阅读量 13

何恺明团队在CVPR 2026发表五篇论文，覆盖生成模型、视觉推理与自监督学习。核心突破包括：JiT通过直接预测干净图像实现高质量去噪（FID 1.78）；VARC用纯视觉模型在ARC-1上达到人类水平（60.4%）；BiFlow将归一化流生成速度提升700倍（FID 2.39）；iMF实现无需蒸馏的单步生成（FID 1.72）；Pixo证明像素级自监督在大规模数据下仍具竞争力。这些工作共同挑战了扩散模型、蒸馏依赖等传统假设，表明流匹配等更高效范式正在崛起。

核心突破概览

何恺明团队在CVPR 2026上连续发布五篇论文，分别针对图像生成、视觉推理和自监督学习三大方向，从不同角度挑战了当前主流技术路径的默认假设。

JiT：让扩散模型真正“去噪”

核心思想：传统扩散模型预测噪声 ε 或速度 v，这些目标通常不在自然图像流形上，导致训练不稳定。JiT（Just-in-Time）直接预测干净图像 x，使网络专注于图像流形本身。
工程创新：使用标准Vision Transformer，支持大patch（16×16至64×64），完全去除VAE Tokenizer、GAN损失或感知损失，模型仅86M参数，可在256~1024分辨率下生成，计算量基本不变。
性能：ImageNet 512×512上FID 1.78，无任何蒸馏或外部模型辅助。
意义：证明简单的预测目标替换即可显著提升质量，无需复杂技巧。

VARC：纯视觉模型挑战ARC推理任务

核心思想：将ARC（Abstraction and Reasoning Corpus）重新建模为图像到图像的翻译问题，而非语言问题。
方法：使用18M参数的ViT，将输入网格嵌入32×32画布（背景用第11种颜色填充），采用测试时训练（TTT）快速学习新任务。
性能：ARC-1单模型54.5%，集成60.4%，与人类平均水平（60.2%）持平，远超此前依赖大语言模型的方法。
意义：证明了视觉推理可以不依赖语言模型，纯视觉模型在画布和推理时训练机制下潜力巨大。

BiFlow：归一化流700倍加速

核心问题：传统归一化流受限于精确可逆架构和自回归因果解码，生成速度极慢。
创新：放弃“逆向必须精确等于前向的逆”的约束，单独训练一个并行Transformer作为逆向模型，通过隐藏层对齐机制确保表示空间一致性。
性能：ImageNet 256×256上FID 2.39，单张图像生成时间从0.7秒降至0.001秒，加速约700倍。
意义：打破归一化流“理论上优美、工程上低效”的偏见，使其具备实际部署价值。

iMF：无需蒸馏的单步高质量生成

背景：2025年5月何恺明团队提出MeanFlow（均值速度场）实现单步生成，但初版存在三个缺陷：训练目标自依赖导致振荡、CFG强度固定无法调节、条件编码简单导致参数利用率低。
改进：
- 将平均速度损失等价转换为瞬时速度损失（v-loss），消除自依赖。
- 将CFG强度、引导区间编码为条件变量，支持推理时自由调节。
- 用多组可学习token（类别8个、时间步4个等）替代条件求和，Base模型参数从133M降至89M。
性能：1-NFE FID 1.72（从零训练，无蒸馏），优于所有蒸馏单步方法（如FACM-XL/2 FID 1.76）；2-NFE时FID降至1.54，接近主流多步扩散模型水平。
意义：证明高质量单步生成不需要蒸馏，打破领域默认假设。

Pixo：像素级自监督的边界探索

核心问题：自监督预训练领域主流认为像素空间不如潜空间（如DINOv3）。Pixo在20亿张网络图像上系统提升MAE范式，从预训练任务、架构、训练策略三方面增强。
对比结果：在深度估计、3D重建、语义分割、机器人操控等下游任务上与DINOv3各有胜负，并未出现明显劣势。
意义：证明像素监督在大规模数据下仍具竞争力，两种范式各有所长，像素监督的边界远未到达。

值得注意的趋势

流匹配路线：何恺明团队密集押注流匹配（Flow Matching），以BiFlow和iMF为代表，挑战扩散模型的统治地位。这些工作从基础理论（训练目标、架构约束）入手重构生成框架，而非在已有框架内优化指标。
去语言化：VARC和Pixo均表现出对语言模型的祛魅——视觉推理和自监督学习可以独立于自然语言，以纯视觉方式取得顶尖结果。
简单原则：几项突破都源于对传统假设的直接质疑（预测噪声 vs 预测图像、精确逆 vs 近似逆、蒸馏依赖 vs 直接训练），回归更朴素但更本质的设计。

阅读原文详情