何恺明团队CVPR 2026五篇论文全景:从流匹配到视觉推理,重构生成范式
2026/05/12 14:26阅读量 13
何恺明团队在CVPR 2026发表五篇论文,覆盖生成模型、视觉推理与自监督学习。核心突破包括:JiT通过直接预测干净图像实现高质量去噪(FID 1.78);VARC用纯视觉模型在ARC-1上达到人类水平(60.4%);BiFlow将归一化流生成速度提升700倍(FID 2.39);iMF实现无需蒸馏的单步生成(FID 1.72);Pixo证明像素级自监督在大规模数据下仍具竞争力。这些工作共同挑战了扩散模型、蒸馏依赖等传统假设,表明流匹配等更高效范式正在崛起。
核心突破概览
何恺明团队在CVPR 2026上连续发布五篇论文,分别针对图像生成、视觉推理和自监督学习三大方向,从不同角度挑战了当前主流技术路径的默认假设。
JiT:让扩散模型真正“去噪”
- 核心思想:传统扩散模型预测噪声 ε 或速度 v,这些目标通常不在自然图像流形上,导致训练不稳定。JiT(Just-in-Time)直接预测干净图像 x,使网络专注于图像流形本身。
- 工程创新:使用标准Vision Transformer,支持大patch(16×16至64×64),完全去除VAE Tokenizer、GAN损失或感知损失,模型仅86M参数,可在256~1024分辨率下生成,计算量基本不变。
- 性能:ImageNet 512×512上FID 1.78,无任何蒸馏或外部模型辅助。
- 意义:证明简单的预测目标替换即可显著提升质量,无需复杂技巧。
VARC:纯视觉模型挑战ARC推理任务
- 核心思想:将ARC(Abstraction and Reasoning Corpus)重新建模为图像到图像的翻译问题,而非语言问题。
- 方法:使用18M参数的ViT,将输入网格嵌入32×32画布(背景用第11种颜色填充),采用测试时训练(TTT)快速学习新任务。
- 性能:ARC-1单模型54.5%,集成60.4%,与人类平均水平(60.2%)持平,远超此前依赖大语言模型的方法。
- 意义:证明了视觉推理可以不依赖语言模型,纯视觉模型在画布和推理时训练机制下潜力巨大。
BiFlow:归一化流700倍加速
- 核心问题:传统归一化流受限于精确可逆架构和自回归因果解码,生成速度极慢。
- 创新:放弃“逆向必须精确等于前向的逆”的约束,单独训练一个并行Transformer作为逆向模型,通过隐藏层对齐机制确保表示空间一致性。
- 性能:ImageNet 256×256上FID 2.39,单张图像生成时间从0.7秒降至0.001秒,加速约700倍。
- 意义:打破归一化流“理论上优美、工程上低效”的偏见,使其具备实际部署价值。
iMF:无需蒸馏的单步高质量生成
- 背景:2025年5月何恺明团队提出MeanFlow(均值速度场)实现单步生成,但初版存在三个缺陷:训练目标自依赖导致振荡、CFG强度固定无法调节、条件编码简单导致参数利用率低。
- 改进:
- 将平均速度损失等价转换为瞬时速度损失(v-loss),消除自依赖。
- 将CFG强度、引导区间编码为条件变量,支持推理时自由调节。
- 用多组可学习token(类别8个、时间步4个等)替代条件求和,Base模型参数从133M降至89M。
- 性能:1-NFE FID 1.72(从零训练,无蒸馏),优于所有蒸馏单步方法(如FACM-XL/2 FID 1.76);2-NFE时FID降至1.54,接近主流多步扩散模型水平。
- 意义:证明高质量单步生成不需要蒸馏,打破领域默认假设。
Pixo:像素级自监督的边界探索
- 核心问题:自监督预训练领域主流认为像素空间不如潜空间(如DINOv3)。Pixo在20亿张网络图像上系统提升MAE范式,从预训练任务、架构、训练策略三方面增强。
- 对比结果:在深度估计、3D重建、语义分割、机器人操控等下游任务上与DINOv3各有胜负,并未出现明显劣势。
- 意义:证明像素监督在大规模数据下仍具竞争力,两种范式各有所长,像素监督的边界远未到达。
值得注意的趋势
- 流匹配路线:何恺明团队密集押注流匹配(Flow Matching),以BiFlow和iMF为代表,挑战扩散模型的统治地位。这些工作从基础理论(训练目标、架构约束)入手重构生成框架,而非在已有框架内优化指标。
- 去语言化:VARC和Pixo均表现出对语言模型的祛魅——视觉推理和自监督学习可以独立于自然语言,以纯视觉方式取得顶尖结果。
- 简单原则:几项突破都源于对传统假设的直接质疑(预测噪声 vs 预测图像、精确逆 vs 近似逆、蒸馏依赖 vs 直接训练),回归更朴素但更本质的设计。
