深圳市大数据研究院四项成果入选ICML 2026:聚焦零阶优化与高效序列建模

2026/06/16 15:08阅读量 2

深圳市大数据研究院4项科研成果被ICML 2026录用,涵盖零阶大模型微调优化器AdaMeZO、Romberg外推梯度估计器、边云协同视频推理框架SCOPE和矩阵值注意力MIMOMamba。这些工作分别在内存效率、梯度估计精度、长视频推理效率及序列建模能力方面取得突破,相关论文已在第43届国际机器学习大会上发表。

事件概述

近日,深圳市大数据研究院四项科研成果同时被第43届国际机器学习大会(ICML 2026)录用。ICML是人工智能领域顶级学术会议,与NeurIPS、ICLR并称机器学习三大顶级会议。公开数据显示,ICML 2026共收到23,918篇有效投稿,录用率约为26.6%。

核心成果详情

1. AdaMeZO:Adam风格的零阶优化器,无需维护动量矩
该方法针对大语言模型微调中的显存瓶颈,提出基于截断历史梯度的自适应零阶优化器。通过分块伪随机数生成器状态缓存机制,AdaMeZO在保留低显存优势的同时引入类似Adam的自适应预条件更新,收敛速度显著提升。理论分析证明其在非凸优化下能以O(1/√T)速度收敛至平稳点。实验表明,在RoBERTa-large、OPT-1.3B、LLaMA-3B等模型上,AdaMeZO达到与MeZO相同终止损失时,前向传播次数减少约70%;额外显存仅约7%,远低于传统矩估计方法(50-100%)。

2. Romberg-ZOGE:Romberg外推零阶梯度估计器
该工作解决零阶优化中梯度估计的偏差-方差权衡问题。通过多尺度两点估计结合Romberg外推,在保持主导方向方差不增的前提下实现高阶偏差减少。实验覆盖合成函数、无线网络优化和大模型黑箱prompt tuning等场景:R=2时偏差降至接近O(r⁶);在OPT-1.3B的SST-2任务中取得最低训练损失及最高验证/测试准确率。

3. SCOPE:语义驱动的边云协同视频推理框架
针对长视频理解中带宽、时延与精度的矛盾,提出“云端思考、边缘观察”范式。云端大模型将用户问题分解为带依赖关系的DAG观测计划,边缘侧据此进行预算分配、语义匹配与关键帧选择。在Video-MME和LongVideoBench上,16帧设置下达到与纯云端相同的66.04%准确率,端到端时延由154.22秒降至23.94秒(降低约85%)。

4. MIMOMamba:从标量对偶到矩阵值注意力
该工作将状态空间模型的对偶性推广至多输入多输出(MIMO)设置,通过矩阵多项式参数化联合建模时间依赖与跨通道交互,保持线性效率。核心参数复杂度由Transformer的约3D²降至约D²。在SSP物理预测基准上以约35k参数取得最优精度(RMSE=0.687),推理内存线性增长,训练吞吐量较Mamba-2提升1.5–1.6倍。

值得关注

四项工作分别从内存高效微调、梯度估计理论、边缘推理部署和序列建模架构四个方向推动了机器学习的前沿发展,其实际收益(显存节省70%、时延降低85%、参数效率提升等)为资源受限场景下的AI落地提供了可行方案。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。