东南大学耿新团队:模型能力并非缺失,而是被「挤占」——CVPR 2026 ESM 方法解析

2026/04/22 14:44阅读量 3

东南大学耿新团队在 CVPR 2026 提出 ESM(Essential Subspace Merging)方法,指出多任务融合性能下降的根源在于关键表示方向的重叠与冲突,而非参数本身无法合并。该方法通过 ESD 子空间选择与 Polarized Scaling 机制,将不同任务的核心知识解耦并保留,使融合模型性能逼近单任务专家水平。实验表明,ESM 在多任务干扰下损耗率比基线低约 20%,且仅需少量样本即可稳定提取任务结构。

事件概述

东南大学耿新团队针对多任务学习中“任务越多、性能越乱”的痛点,提出了《Model Merging in the Essential Subspace》论文。研究核心观点认为,模型能力的衰退并非因为模型“不会做”,而是因为新增任务挤占了原本用于存储关键信息的内部表示空间(子空间),导致原有能力被干扰或覆盖。

核心信息

1. 问题根源:子空间冲突

  • 共享空间竞争:所有任务共享同一套内部表示空间,当任务增加时,它们会争夺空间中最重要的位置。强任务占据更多资源,弱任务则被“挤掉”。
  • 非均匀分布:模型的有效能力并非均匀分布在所有参数中,而是集中在少数几个关键方向上。多任务融合失败的本质是这些关键方向发生了重叠和冲突。

2. 解决方案:ESM (Essential Subspace Merging)

研究团队提出两步走策略,实现多任务能力的稳定共存:

  • 子空间解耦(ESD):使用基于输出空间的 ESD(Essential Subspace Decomposition)替代传统的 SVD。ESD 能更集中地保留有效信息,即使只保留 5% 的成分,也能保持与原专家模型更高的特征一致性,解决“信息丢失”问题。
  • 信号重加权(Polarized Scaling):引入极化缩放机制,放大强信号(重要信息),抑制弱噪声(次要信息)。这解决了“信息竞争”问题,确保重要知识不被淹没。

3. 实验数据与表现

  • 性能稳定性:随着任务数量增加,传统基线方法的性能损耗通常在 8%-9%,而 ESM 的整体损耗率比基线低约 20%。
  • 逼近理想上界:在未微调模型(50%-65%)、单任务专家模型(>90%)之间,ESM 达到了 81%-91% 的性能区间,显著逼近“多任务合并后仍保持单任务效果”的理想状态。
  • 数据依赖性低:任务子空间具有低维结构特性。仅需 1 个样本即可超越基线,4 个样本接近最优,32 个样本即收敛,证明其提取的是模型内在结构而非依赖大量数据统计。
  • 抗干扰能力:在图像、文本、数字等高异质性任务(如 Cars, SUN397, SST2, MNIST)混合场景下,ESM 依然能有效抵抗干扰。

值得关注

  • 方法论转变:该研究将模型融合从简单的“参数平均/拼接”提升到了“知识结构重组”层面。它证明了大模型内部存在可提炼、可压缩的低维结构,未来优化模型不一定依赖更大规模数据,而是可以通过理解并重组内部知识组织方式来实现。
  • 应用价值:该技术使得 AI 系统能够在不反复重训的情况下,将多种能力整合到单一模型中,且增加新功能时不易损伤旧能力。这将有助于降低部署成本,推动通用型 AI 助手的发展,并支持更多智能功能在本地设备上运行。
  • 作者背景:通讯作者为东南大学首席教授耿新及副研究员祁磊,团队长期深耕机器学习、大模型及模式识别领域,此前已提出“学习基因”思想,致力于探索从基础模型中提取可复用的核心能力。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。