合成数据与真实数据的最佳配比:基于正则化视角的理论框架
2026/03/30 08:00阅读量 2
Apple ML Research 提出一种学习理论框架,量化合成数据与真实数据混合使用时的泛化误差权衡。研究发现测试误差随合成数据比例呈 U 型分布,存在一个由 Wasserstein 距离决定的最优配比。该理论在 CIFAR-10 和临床脑 MRI 数据集上得到验证,并证明在域适应场景下混合合成目标数据可缓解域偏移。
事件概述
Apple Machine Learning Research 发表题为《Beyond Real Data: Synthetic Data through the Lens of Regularization》的论文,针对真实数据稀缺时利用合成数据提升模型泛化能力的问题,建立了一套基于算法稳定性的学习理论框架。
核心信息
- 理论框架:通过算法稳定性推导泛化误差界,将最优的合成数据与真实数据比例定义为真实分布与合成分布之间 Wasserstein 距离的函数。
- 关键发现:理论预测测试误差随合成数据比例呈现 U 型行为(U-shaped behavior),即存在一个特定的合成数据占比能最小化期望测试误差;过度依赖合成数据会因分布不匹配导致性能下降。
- 实验验证:研究者在 CIFAR-10 图像分类任务和临床脑 MRI 数据集上验证了上述理论预测。
- 域适应应用:该理论扩展至域适应(Domain Adaptation)场景,表明在源数据有限的情况下,谨慎混合合成目标数据有助于缓解域偏移(domain shift)并增强泛化能力。
- 分析基础:研究以混合数据的核岭回归(kernel ridge regression)为设定背景进行了详细分析。
值得关注
研究结论为实际应用中如何平衡合成数据与真实数据提供了理论依据和实践指导,适用于域内(in-domain)及域外(out-of-domain)场景。
