东南大学耿新团队：模型能力并非缺失，而是被「挤占」——CVPR 2026 ESM 方法解析

2026/04/22 14:44阅读量 3

东南大学耿新团队在 CVPR 2026 提出 ESM（Essential Subspace Merging）方法，指出多任务融合性能下降的根源在于关键表示方向的重叠与冲突，而非参数本身无法合并。该方法通过 ESD 子空间选择与 Polarized Scaling 机制，将不同任务的核心知识解耦并保留，使融合模型性能逼近单任务专家水平。实验表明，ESM 在多任务干扰下损耗率比基线低约 20%，且仅需少量样本即可稳定提取任务结构。

事件概述

东南大学耿新团队针对多任务学习中“任务越多、性能越乱”的痛点，提出了《Model Merging in the Essential Subspace》论文。研究核心观点认为，模型能力的衰退并非因为模型“不会做”，而是因为新增任务挤占了原本用于存储关键信息的内部表示空间（子空间），导致原有能力被干扰或覆盖。

核心信息

1. 问题根源：子空间冲突

共享空间竞争：所有任务共享同一套内部表示空间，当任务增加时，它们会争夺空间中最重要的位置。强任务占据更多资源，弱任务则被“挤掉”。
非均匀分布：模型的有效能力并非均匀分布在所有参数中，而是集中在少数几个关键方向上。多任务融合失败的本质是这些关键方向发生了重叠和冲突。

2. 解决方案：ESM (Essential Subspace Merging)

研究团队提出两步走策略，实现多任务能力的稳定共存：

子空间解耦（ESD）：使用基于输出空间的 ESD（Essential Subspace Decomposition）替代传统的 SVD。ESD 能更集中地保留有效信息，即使只保留 5% 的成分，也能保持与原专家模型更高的特征一致性，解决“信息丢失”问题。
信号重加权（Polarized Scaling）：引入极化缩放机制，放大强信号（重要信息），抑制弱噪声（次要信息）。这解决了“信息竞争”问题，确保重要知识不被淹没。

3. 实验数据与表现

性能稳定性：随着任务数量增加，传统基线方法的性能损耗通常在 8%-9%，而 ESM 的整体损耗率比基线低约 20%。
逼近理想上界：在未微调模型（50%-65%）、单任务专家模型（>90%）之间，ESM 达到了 81%-91% 的性能区间，显著逼近“多任务合并后仍保持单任务效果”的理想状态。
数据依赖性低：任务子空间具有低维结构特性。仅需 1 个样本即可超越基线，4 个样本接近最优，32 个样本即收敛，证明其提取的是模型内在结构而非依赖大量数据统计。
抗干扰能力：在图像、文本、数字等高异质性任务（如 Cars, SUN397, SST2, MNIST）混合场景下，ESM 依然能有效抵抗干扰。

值得关注

方法论转变：该研究将模型融合从简单的“参数平均/拼接”提升到了“知识结构重组”层面。它证明了大模型内部存在可提炼、可压缩的低维结构，未来优化模型不一定依赖更大规模数据，而是可以通过理解并重组内部知识组织方式来实现。
应用价值：该技术使得 AI 系统能够在不反复重训的情况下，将多种能力整合到单一模型中，且增加新功能时不易损伤旧能力。这将有助于降低部署成本，推动通用型 AI 助手的发展，并支持更多智能功能在本地设备上运行。
作者背景：通讯作者为东南大学首席教授耿新及副研究员祁磊，团队长期深耕机器学习、大模型及模式识别领域，此前已提出“学习基因”思想，致力于探索从基础模型中提取可复用的核心能力。

阅读原文详情