CVPR 2026 五篇论文集体“拆墙”：深度学习标准件从外围到核心遭遇全面质疑

2026/06/04 18:06阅读量 4

CVPR 2026 上五篇工作分别挑战了注意力浮点精度、量化定制策略、扩散模型训练目标、归一化流可逆约束以及 Transformer 归一化层等传统“标准件”。实验表明，1-bit 注意力比全精度快 2 倍，扩散模型直接预测干净图像在几何上更优，放弃精确可逆可让采样速度提升两个数量级，归一化层能被更简洁的函数全面超越。这些工作从推理端、训练目标到架构底层逐一拆解了深度学习中被视为“理所当然”的设计。

事件概述

CVPR 2026 上出现的五篇论文不约而同地指向同一件事：深度学习中那些被当作“标准件”装配进去的设计，远没有想象中那么不可动摇。从推理端的精度和定制化，到训练目标的参数化方式，再到架构层最底层的归一化层和可逆约束，全部被质疑并给出了更优解。

核心信息

BinaryAttention：1-bit 注意力，比全精度还能打
- 论证了注意力机制的核心——相似度计算——在二值化后仍能被有效保留。仅保留 Q 和 K 的符号，用 XNOR + popcount 位运算替代浮点矩阵乘法。
- 在 A100 GPU 上比 FlashAttention2 快 2 倍以上，在视觉和扩散 Transformer 上不仅保持精度，部分任务甚至超过全精度版本。
SegQuant：量化策略不需要为每个架构手工定制
- 由浙大 OptiSys 团队提出，包含 SegLinear（基于计算图拓扑自动分配量化配置）和 DualScale（双尺度校准正负分布不对称）。
- 同一套方法适配 UNet 系和 DiT 系扩散模型，无需为每个模型单独调参，且与主流工业部署工具无缝兼容。
JiT：扩散模型不需要“预测噪声”，直接预测干净图像更优
- Kaiming He 和 Tianhong Li 指出：预测噪声是在流形之外寻找弥散目标，预测干净图像目标始终在流形上，几何本质不同。
- 提出 JiT：直接以预测干净图像为目标，只用大 patch Transformer + MSE 损失，无 VAE、无预训练、无额外正则化。在 ImageNet 256/512 上取得有竞争力结果，32×32 大 patch 在 512 分辨率依然良好。
BiFlow：精确可逆可以放弃
- Yiyang Lu、Qiao Sun 等人与 Kaiming He 合作，同时学习前向（数据→噪声）和反向（噪声→数据）两个方向的独立网络，反向模型不受可逆性约束，可使用双向注意力实现完全并行解码。
- 在 ImageNet 上生成质量显著提升，采样速度比因果解码方法快两个数量级，达到归一化流类方法最优。
Derf：归一化层不仅能替代，还能被打败
- Mingzhi Chen、Taiming Lu 等人先理论分析逐点函数内在特性对训练的影响，再大规模搜索找到最优形式 Derf：Derf(x)=erf(αx+s)，形式简洁。
- 在视觉识别、视觉生成、语音表示学习、DNA 序列建模等任务上全面优于 LayerNorm、RMSNorm 和 DyT。优势来自泛化能力提升而非拟合能力增强。

值得关注

这五篇论文不是在同一层拆解：从推理端（精度、定制策略）到训练目标（参数化方式）再到架构层（归一化层、可逆约束），全部涉及。它们共同传达的信号是：那些看似必须的“标准件”中有不少只是“一直在那儿所以以为必须”。当这些隔断被拆除后，模型不仅没有倒塌，反而释放了更大的设计空间和计算效率。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？