用于鲁棒视频人脸伪造检测的多频融合

2026/03/06 08:00阅读量 7

该研究提出了一种轻量级的多频融合方法，仅需增加292个参数即可显著提升视频人脸伪造检测的准确率。基于Xception基线模型构建的LFWS和LFWL两个检测器，在多个公共基准测试中均优于F3Net、SRM等现有主流模型。结果表明，精心配对的定制特征通过轻量级融合模块结合，能以极低的成本实现最先进的鲁棒性。这一发现呼吁重新评估当前人脸视频伪造检测中过度依赖大规模模型的设计选择。

Markdown内容：
当前的人脸视频伪造检测器通常使用宽体或双流骨干网络。我们表明，仅对两种手工设计的线索进行单一、轻量的融合，就能以远小得多的模型规模实现更高的准确率。
基于Xception基线模型（2190万个参数），我们构建了两种检测器：LFWS，它添加了一个1x1卷积层，将低频小波去噪特征（Wavelet-Denoised Feature, WDF）与仅相位的空间相位浅层学习（Spatial-Phase Shallow Learning, SPSL）图相结合；LFWL则以相同方式将WDF与局部二值模式（Local Binary Patterns, LBP）合并。这个额外的模块仅增加了292个参数，使总参数量保持在2190万——小于F3Net（2250万个参数），且不到SRM（5530万个参数）的一半。
即使开销极小，融合模型在FaceForensics++数据集上的平均曲线下面积（AUC）仍从74.8%提升至78.6%，在DFDC-Preview数据集上从70.5%提升至74.9%，相比Xception基线分别提升了3.8%和4.4%。此外，在不使用额外数据或测试时增强（test-time augmentation）的情况下，它们在八个公共基准测试中始终优于F3Net、SRM和SPSL。
这些结果表明，通过轻量级融合模块结合的精心配对的手工特征，能够以显著更低的成本提供最先进的鲁棒性。我们的发现表明，需要重新评估人脸视频伪造检测中基于规模驱动的设计选择。

† Google * ‡ 卡内基梅隆大学 * ** 在Apple工作期间完成的工作
相关阅读与更新。

深度生成模型的近期进展促成了神经人脸视频压缩编解码器的开发，其带宽消耗比工程化编解码器少一个数量级。这些神经编解码器通过扭曲源帧并利用生成模型补偿扭曲源帧中的缺陷来重建当前帧。因此，扭曲过程是使用少量关键点而非稠密光流场进行编码和传输的……阅读更多
Apple自iOS 10起开始使用深度学习进行人脸检测。随着Vision框架的发布，开发者现在可以在其应用中使用这项技术以及许多其他计算机视觉算法。我们在开发该框架时面临巨大挑战，以便既能保护用户隐私，又能在设备上高效运行。本文讨论了这些挑战并描述了该人脸检测算法。阅读更多

阅读原文详情

准备好启动您的定制项目了吗？