深圳市大数据研究院四项成果入选ICML 2026：聚焦零阶优化与高效序列建模

2026/06/16 15:08阅读量 2

深圳市大数据研究院4项科研成果被ICML 2026录用，涵盖零阶大模型微调优化器AdaMeZO、Romberg外推梯度估计器、边云协同视频推理框架SCOPE和矩阵值注意力MIMOMamba。这些工作分别在内存效率、梯度估计精度、长视频推理效率及序列建模能力方面取得突破，相关论文已在第43届国际机器学习大会上发表。

事件概述

近日，深圳市大数据研究院四项科研成果同时被第43届国际机器学习大会（ICML 2026）录用。ICML是人工智能领域顶级学术会议，与NeurIPS、ICLR并称机器学习三大顶级会议。公开数据显示，ICML 2026共收到23,918篇有效投稿，录用率约为26.6%。

核心成果详情

1. AdaMeZO：Adam风格的零阶优化器，无需维护动量矩
该方法针对大语言模型微调中的显存瓶颈，提出基于截断历史梯度的自适应零阶优化器。通过分块伪随机数生成器状态缓存机制，AdaMeZO在保留低显存优势的同时引入类似Adam的自适应预条件更新，收敛速度显著提升。理论分析证明其在非凸优化下能以O(1/√T)速度收敛至平稳点。实验表明，在RoBERTa-large、OPT-1.3B、LLaMA-3B等模型上，AdaMeZO达到与MeZO相同终止损失时，前向传播次数减少约70%；额外显存仅约7%，远低于传统矩估计方法（50-100%）。

2. Romberg-ZOGE：Romberg外推零阶梯度估计器
该工作解决零阶优化中梯度估计的偏差-方差权衡问题。通过多尺度两点估计结合Romberg外推，在保持主导方向方差不增的前提下实现高阶偏差减少。实验覆盖合成函数、无线网络优化和大模型黑箱prompt tuning等场景：R=2时偏差降至接近O(r⁶)；在OPT-1.3B的SST-2任务中取得最低训练损失及最高验证/测试准确率。

3. SCOPE：语义驱动的边云协同视频推理框架
针对长视频理解中带宽、时延与精度的矛盾，提出“云端思考、边缘观察”范式。云端大模型将用户问题分解为带依赖关系的DAG观测计划，边缘侧据此进行预算分配、语义匹配与关键帧选择。在Video-MME和LongVideoBench上，16帧设置下达到与纯云端相同的66.04%准确率，端到端时延由154.22秒降至23.94秒（降低约85%）。

4. MIMOMamba：从标量对偶到矩阵值注意力
该工作将状态空间模型的对偶性推广至多输入多输出（MIMO）设置，通过矩阵多项式参数化联合建模时间依赖与跨通道交互，保持线性效率。核心参数复杂度由Transformer的约3D²降至约D²。在SSP物理预测基准上以约35k参数取得最优精度（RMSE=0.687），推理内存线性增长，训练吞吐量较Mamba-2提升1.5–1.6倍。

值得关注

四项工作分别从内存高效微调、梯度估计理论、边缘推理部署和序列建模架构四个方向推动了机器学习的前沿发展，其实际收益（显存节省70%、时延降低85%、参数效率提升等）为资源受限场景下的AI落地提供了可行方案。

阅读原文详情

事件概述

核心成果详情

值得关注

准备好启动您的定制项目了吗？