CVPR 2026 五篇论文集体“拆墙”:深度学习标准件从外围到核心遭遇全面质疑
2026/06/04 18:06阅读量 4
CVPR 2026 上五篇工作分别挑战了注意力浮点精度、量化定制策略、扩散模型训练目标、归一化流可逆约束以及 Transformer 归一化层等传统“标准件”。实验表明,1-bit 注意力比全精度快 2 倍,扩散模型直接预测干净图像在几何上更优,放弃精确可逆可让采样速度提升两个数量级,归一化层能被更简洁的函数全面超越。这些工作从推理端、训练目标到架构底层逐一拆解了深度学习中被视为“理所当然”的设计。
事件概述
CVPR 2026 上出现的五篇论文不约而同地指向同一件事:深度学习中那些被当作“标准件”装配进去的设计,远没有想象中那么不可动摇。从推理端的精度和定制化,到训练目标的参数化方式,再到架构层最底层的归一化层和可逆约束,全部被质疑并给出了更优解。
核心信息
-
BinaryAttention:1-bit 注意力,比全精度还能打
- 论证了注意力机制的核心——相似度计算——在二值化后仍能被有效保留。仅保留 Q 和 K 的符号,用 XNOR + popcount 位运算替代浮点矩阵乘法。
- 在 A100 GPU 上比 FlashAttention2 快 2 倍以上,在视觉和扩散 Transformer 上不仅保持精度,部分任务甚至超过全精度版本。
-
SegQuant:量化策略不需要为每个架构手工定制
- 由浙大 OptiSys 团队提出,包含 SegLinear(基于计算图拓扑自动分配量化配置)和 DualScale(双尺度校准正负分布不对称)。
- 同一套方法适配 UNet 系和 DiT 系扩散模型,无需为每个模型单独调参,且与主流工业部署工具无缝兼容。
-
JiT:扩散模型不需要“预测噪声”,直接预测干净图像更优
- Kaiming He 和 Tianhong Li 指出:预测噪声是在流形之外寻找弥散目标,预测干净图像目标始终在流形上,几何本质不同。
- 提出 JiT:直接以预测干净图像为目标,只用大 patch Transformer + MSE 损失,无 VAE、无预训练、无额外正则化。在 ImageNet 256/512 上取得有竞争力结果,32×32 大 patch 在 512 分辨率依然良好。
-
BiFlow:精确可逆可以放弃
- Yiyang Lu、Qiao Sun 等人与 Kaiming He 合作,同时学习前向(数据→噪声)和反向(噪声→数据)两个方向的独立网络,反向模型不受可逆性约束,可使用双向注意力实现完全并行解码。
- 在 ImageNet 上生成质量显著提升,采样速度比因果解码方法快两个数量级,达到归一化流类方法最优。
-
Derf:归一化层不仅能替代,还能被打败
- Mingzhi Chen、Taiming Lu 等人先理论分析逐点函数内在特性对训练的影响,再大规模搜索找到最优形式 Derf:Derf(x)=erf(αx+s),形式简洁。
- 在视觉识别、视觉生成、语音表示学习、DNA 序列建模等任务上全面优于 LayerNorm、RMSNorm 和 DyT。优势来自泛化能力提升而非拟合能力增强。
值得关注
这五篇论文不是在同一层拆解:从推理端(精度、定制策略)到训练目标(参数化方式)再到架构层(归一化层、可逆约束),全部涉及。它们共同传达的信号是:那些看似必须的“标准件”中有不少只是“一直在那儿所以以为必须”。当这些隔断被拆除后,模型不仅没有倒塌,反而释放了更大的设计空间和计算效率。
