ReCALL框架破解大模型检索范式冲突，多模态检索性能全面刷新SOTA

2026/04/06 23:30阅读量 58

紫东太初团队与新加坡国立大学联合提出ReCALL框架，通过“诊断-生成-校准”闭环体系解决了多模态大模型（MLLM）在组合图像检索任务中因范式冲突导致的细粒度推理能力退化问题。该框架在CIRR和FashionIQ等主流基准测试中全面超越现有最先进方法（SOTA），R@1指标分别提升8.38%并达到新纪录。研究揭示了从盲目对齐到逻辑内化的适配新路径，为大模型垂直领域落地提供了无损能力迁移的解决方案。

事件概述

针对多模态大模型（MLLM）应用于组合图像检索（CIR）时出现的“能力退化”难题，紫东太初团队联合新加坡国立大学提出了ReCALL框架。该成果已被计算机视觉顶会 CVPR 2026 录用，成功化解了生成式与判别式范式之间的冲突，使大模型在保留原生细粒度推理能力的同时，成为高效的检索器。

核心痛点：范式冲突导致智能倒退

将擅长生成式推理的大模型强行改造为判别式检索器时，存在显著的范式冲突（Paradigm Conflict）：

机制矛盾：原生大模型依赖链式思考（Step-wise reasoning）理解细粒度视觉关系，而传统检索方法将其高维思考压缩为单一向量计算相似度。
后果严重：这种暴力压缩导致模型丧失细粒度定位（grounding）能力。数据显示，在原生模型能100%解决的子集上，微调后的检索器在 CIRR 数据集上的 R@1 暴跌至 62.33%，在 FashionIQ 上跌至 55.80%。

ReCALL框架：四阶段校准闭环

ReCALL框架通过独创的“诊断-生成-校准”流程，利用大模型原生的推理信号纠正检索空间盲区，具体分为四个阶段：

1. 基础检索适配 (Baseline Adaptation)

使用标准 InfoNCE 损失函数将原生大模型微调为基础检索器（Rbase）。此步骤虽赋予基础判别能力，但也诱发了前述的能力退化症状。

2. 自我诊断 (Diagnose)

让基础检索器在训练集上运行，专门筛选出“找错”的样本（Informative Instances）。这些高分负样本通常与正确答案仅有细微视觉差别，是模型认知模糊的“盲区”。

3. 生成校正 (Generate)

针对筛选出的错题，设计严密的链式思考（CoT）诱导机制进行修正：

意图分解与验证：将原始指令拆解为原子意图，对照参考图与错图，精准定位被违背的细粒度意图。
最小编辑合成：保留成立意图，仅重写被违背部分，合成新的修改指令。
数据一致性保障：生成的文本编辑在视觉上镜像真实目标与干扰图的差异，提供高密度的细粒度图文对齐监督信号，并通过 VQA 级别的语义过滤剔除幻觉噪音。

4. 针对性打磨 (Refine)

采用分组对比学习（Grouped Contrastive Refinement），将原查询与纠错查询打包对冲，配合双重优化目标，迫使检索器明确区分细微的视觉 - 语义边界，将细粒度推理能力内化至向量空间。

实测成绩：全场景刷新 SOTA

在主流基准测试中，ReCALL 展现了卓越性能：

CIRR 开放域复杂数据集：R@1 达到 55.52%，相对基线提升 8.38%；在考察细粒度区分能力的子集（R_subset@1）上高达 81.49%。
FashionIQ 细粒度时尚数据集：面对极度相似的服装干扰项，平均 R@10 达到 57.04%，表现最佳。

结论与意义

ReCALL 的成功不仅在于性能突破，更在于修复了多模态大模型向下游任务迁移时的隐形裂痕。它证明了通过“诊断—生成—内化”的逻辑闭环，可以教会模型利用思维链剖析错题、缝合认知盲区，实现了生成与判别两大范式的和解，为大模型在垂直领域的“能力无损适配”奠定了核心基础。

论文链接：https://arxiv.org/abs/2602.01639
项目代码：https://github.com/RemRico/Recall

阅读原文详情