Apple研究:实际学习图像压缩的关键建模选择与性能突破
2026/05/07 08:00阅读量 22
Apple团队对学习型图像编解码器进行综合研究,联合优化感知质量与运行时性能。通过神经架构搜索从数百万个配置中识别最优模型,新编码器在主观测试中比AV1、AV2、VVC、ECM和JPEG-AI节省2.3-3倍比特率,比最佳学习型编码器额外节省20-40%。在iPhone 17 Pro Max上,12MP图像编码仅需230ms,解码150ms,速度超过大多数顶级ML编解码器在V100 GPU上的表现。
事件概述
Apple机器学习团队在CVPR 2026上发表论文《What Matters in Practical Learned Image Compression》,系统研究了面向实际部署的学习型图像编解码器关键建模选择,并在感知质量与运行时间之间实现了显著更优的权衡。
核心信息
- 研究目标:构建一个既具备感知优化又实用的学习型图像编解码器,弥补现有方案在感知质量与实时性之间的差距。
- 方法:对影响编解码器设计的核心建模选择进行大规模消融研究(包括多种新技术);执行性能感知的神经架构搜索,评估数百万个骨干网络配置,选取在目标设备运行时下压缩性能(以感知指标衡量)最优的模型。
- 性能结果:
- 比特率节省:在严格的主观用户研究中,新编码器相比传统标准 AV1、AV2、VVC、ECM 和 JPEG-AI 节省 2.3–3 倍比特率;相比最佳学习型编解码器额外节省 20–40%。
- 运行速度:在 iPhone 17 Pro Max 上,编码12MP图像仅需230ms,解码150ms,比多数顶级 ML 编解码器在 V100 GPU 上运行更快。
- 开源与论文:论文已发布在 arXiv(2605.05148),源代码已开源(GitHub: apple/ml-pico)。
值得关注
该工作首次在单个编解码器中同时实现感知优化与设备端实时运行,并通过大规模架构搜索自动化了模型设计流程。实际部署中,2–3倍的比特率节省意味着在同等画质下可大幅降低存储或传输带宽需求,对移动端和云端图像服务有重要意义。
