Apple ML Research提出MixAtlas：基于不确定性感知的多模态大模型混合数据优化框架

2026/04/16 08:00阅读量 18

Apple Machine Learning Research提出MixAtlas，一种通过系统域分解和小规模代理模型实现计算高效的多模态LLM中期训练数据混合优化框架。该方法将训练数据沿“图像概念”和“任务监督”两个可解释维度进行分解，利用高斯过程代理模型以全量训练1/100的成本探索混合空间。实验显示，该策略使收敛速度提升3倍，并在多个基准测试中带来2-5%的性能增益，在ChartQA和TextVQA等文本丰富型任务上分别提升10%和13%，且小规模模型得出的混合比例可有效迁移至大规模模型训练。

MixAtlas: 面向多模态LLM中期训练的不确定性感知数据混合优化

事件概述

针对多模态预训练中数据混合优化（Data Mixture Optimization）研究不足的问题，Apple Machine Learning Research提出了MixAtlas框架。该框架旨在解决当前多模态训练配方仅从单一视角（如数据格式或任务类型）调整混合比例的低效问题，通过系统性的域分解和代理模型技术，实现计算高效且可解释的数据混合优化。

核心方法

双轴域分解：MixAtlas将训练数据因子化分解为两个可解释的维度：
- Image Concepts（图像概念）
- Task Supervision（任务监督）
  这种分解使得研究者能够精细地控制混合比例，并将下游性能归因于特定维度的具体领域。
低成本探索机制：利用小型代理模型（Small Proxy Models）结合高斯过程代理（Gaussian-process surrogate），在远低于全量训练成本的环境下探索混合空间。据报告，其探索成本仅为全规模训练的 1/100。
可扩展性验证：研究证实，通过小规模代理模型获得的混合比例，能够有效迁移至更大规模的模型训练中，同时保持效率与精度的优势。

关键成果与数据

该框架在多项基准测试中展现出显著优势：

收敛速度：相比现有方法，收敛速度最高提升 3倍。
整体性能：在多样化基准测试中，一致获得 2%—5% 的性能提升。
特定任务突破：
- ChartQA（图表问答）：性能提升 10%。
- TextVQA（文本视觉问答）：性能提升 13%。

发表信息

会议：ICLR 2026 Workshop on Navigating and Addressing Data Problems for Foundation Models (NADPFM)
发布时间：2026年4月
作者团队：Bingbing Wen, Sirajul Salekin, Feiyang Kang, Lucy Lu Wang, Bill Howe, Javier Movellan, Manjot Bilkhu（部分作者来自弗吉尼亚理工大学、华盛顿大学，部分工作期间任职于Apple）

阅读原文详情

MixAtlas: 面向多模态LLM中期训练的不确定性感知数据混合优化

事件概述

核心方法

关键成果与数据

发表信息

准备好启动您的定制项目了吗？