Apple ML Research提出MixAtlas:基于不确定性感知的多模态大模型混合数据优化框架
2026/04/16 08:00阅读量 2
Apple Machine Learning Research提出MixAtlas,一种通过系统域分解和小规模代理模型实现计算高效的多模态LLM中期训练数据混合优化框架。该方法将训练数据沿“图像概念”和“任务监督”两个可解释维度进行分解,利用高斯过程代理模型以全量训练1/100的成本探索混合空间。实验显示,该策略使收敛速度提升3倍,并在多个基准测试中带来2-5%的性能增益,在ChartQA和TextVQA等文本丰富型任务上分别提升10%和13%,且小规模模型得出的混合比例可有效迁移至大规模模型训练。
MixAtlas: 面向多模态LLM中期训练的不确定性感知数据混合优化
事件概述
针对多模态预训练中数据混合优化(Data Mixture Optimization)研究不足的问题,Apple Machine Learning Research提出了MixAtlas框架。该框架旨在解决当前多模态训练配方仅从单一视角(如数据格式或任务类型)调整混合比例的低效问题,通过系统性的域分解和代理模型技术,实现计算高效且可解释的数据混合优化。
核心方法
- 双轴域分解:MixAtlas将训练数据因子化分解为两个可解释的维度:
- Image Concepts(图像概念)
- Task Supervision(任务监督)
这种分解使得研究者能够精细地控制混合比例,并将下游性能归因于特定维度的具体领域。
- 低成本探索机制:利用小型代理模型(Small Proxy Models)结合高斯过程代理(Gaussian-process surrogate),在远低于全量训练成本的环境下探索混合空间。据报告,其探索成本仅为全规模训练的 1/100。
- 可扩展性验证:研究证实,通过小规模代理模型获得的混合比例,能够有效迁移至更大规模的模型训练中,同时保持效率与精度的优势。
关键成果与数据
该框架在多项基准测试中展现出显著优势:
- 收敛速度:相比现有方法,收敛速度最高提升 3倍。
- 整体性能:在多样化基准测试中,一致获得 2%—5% 的性能提升。
- 特定任务突破:
- ChartQA(图表问答):性能提升 10%。
- TextVQA(文本视觉问答):性能提升 13%。
发表信息
- 会议:ICLR 2026 Workshop on Navigating and Addressing Data Problems for Foundation Models (NADPFM)
- 发布时间:2026年4月
- 作者团队:Bingbing Wen, Sirajul Salekin, Feiyang Kang, Lucy Lu Wang, Bill Howe, Javier Movellan, Manjot Bilkhu(部分作者来自弗吉尼亚理工大学、华盛顿大学,部分工作期间任职于Apple)
