北大彭宇新团队提出TARA:融合生物分类学知识提升多模态模型层级识别与泛化能力

北京大学王选所彭宇新团队在CVPR 2026提出TARA方法,通过将生物基础模型的分类学知识与多模态大模型的中间表征对齐,解决了现有模型在层级视觉识别中路径不一致及未知类别推断难的问题。实验显示,该方法在iNaturalist等数据集上显著提升了层级一致性准确率(HCA)和叶节点准确率,并在开放世界场景下增强了模型对未知物种的泛化能力。该研究为医学影像、商品分类等具有层级结构的应用提供了通用的技术路径。

事件概述

针对多模态大模型在复杂层级视觉识别任务中存在的分类路径不一致、层级关系冲突以及面对未知类别时推理能力不足等问题,北京大学王选计算机研究所彭宇新团队提出了TARA(Taxonomy-Aware Representation Alignment,分类学感知表示对齐)方法。该研究通过引入生物基础模型中的分类学知识,将其与多模态模型的中间表征进行对齐,使模型能够学习具有层级结构的视觉表示,从而提升层级识别的一致性及在开放环境下的泛化能力。

核心信息与方法论

1. 技术原理

TARA方法包含两个关键的对齐任务,旨在将领域知识注入多模态模型:

  • 视觉表示对齐:利用生物基础模型(BFM)提取图像特征,获取多模态模型中间层的视觉特征,将两者映射到同一特征空间并利用余弦相似度进行对齐,使模型学习符合生物分类结构的视觉空间。
  • 标签表示对齐:将分类标签输入BFM文本编码器获得标签嵌入,将多模态模型生成答案的token表征映射到同一空间并进行相似度对齐,使模型掌握不同层级标签间的语义关系。

训练过程中采用交替策略,结合No-Thinking强化学习微调(直接输出答案,奖励函数基于预测正确性)与上述表征对齐任务,优化模型在分类任务中的表现并吸收分类学知识。

2. 实验验证与数据表现

研究团队在多个公开数据集上进行了全面评估,主要结果如下:

  • 已知类别识别能力(iNaturalist-2021):
    • 在植物子集(Plant)上,Qwen3-VL-2B模型的层级一致性准确率(HCA)从9.23%提升至12.78%,叶节点准确率(Accleaf)从31.96%提升至32.66%,其他层级指标(POR, S-POR, TOR)提升约3%-6%。
    • 在动物子集(Animal)上,HCA从8.57%提升至10.26%,Accleaf从29.32%提升至30.77%。
    • 对于更大规模的Qwen2.5-VL-3B模型,植物和动物数据集的HCA分别提升至19.53%和24.02%。
  • 未知类别泛化能力(TerraIncognita):
    • 在已知类别场景下,Order F1从23.30提升至41.56,Family F1从11.47提升至25.47。
    • 未知类别场景下,Order F1从23.30提升至33.45,Family F1从11.47提升至12.67,证明模型具备利用层级知识推断未见物种的能力。
  • 表征能力与推理任务
    • 线性探针实验显示,引入TARA后,iNat21-Plant数据集的分类准确率从13.30%提升至18.30%。
    • 在ImageWikiQA复杂视觉问答任务中,准确率从基础模型的46.60%提升至51.40%。
  • 训练效率:引入TARA的模型在训练早期即超越基线,且因仅增加少量投影层,计算开销较小,加速了收敛过程。

3. 评价指标体系

为全面评估层级识别性能,研究采用了以下指标:

  • **Hierarchical Consistent Accuracy **(HCA):评估完整分类路径(如界门纲目科属种)的正确性,任一层级错误即视为整条路径错误。
  • **Leaf-level Accuracy **(Accleaf):衡量最细粒度(叶节点)类别的预测准确率。
  • **Point-Overlap Ratio **(POR):统计预测路径中正确节点的比例。
  • **Strict Point-Overlap Ratio **(S-POR):要求预测节点必须连续正确才计分。
  • **Top Overlap Ratio **(TOR):衡量相邻层级间预测结果的一致性。

值得关注

  • 通用性潜力:TARA不仅适用于生物分类,其“通过中间表征对齐注入领域知识”的思路可推广至医学影像分类、商品分类及知识图谱推理等具有层级结构的其他领域。
  • 未来方向:该研究推动了视觉系统从单纯的对象识别向理解对象间结构关系的演进,为构建具备结构化知识理解能力的通用视觉智能系统提供了技术路径。
  • 论文信息:论文题为《Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models》,作者包括何胡凌霄(一作)及彭宇新(通讯作者),相关代码与数据可在arXiv获取(链接:https://arxiv.org/pdf/2603.00431)。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。