ReCALL框架破解大模型检索范式冲突,多模态检索性能全面刷新SOTA
紫东太初团队与新加坡国立大学联合提出ReCALL框架,通过“诊断-生成-校准”闭环体系解决了多模态大模型(MLLM)在组合图像检索任务中因范式冲突导致的细粒度推理能力退化问题。该框架在CIRR和FashionIQ等主流基准测试中全面超越现有最先进方法(SOTA),R@1指标分别提升8.38%并达到新纪录。研究揭示了从盲目对齐到逻辑内化的适配新路径,为大模型垂直领域落地提供了无损能力迁移的解决方案。
事件概述
针对多模态大模型(MLLM)应用于组合图像检索(CIR)时出现的“能力退化”难题,紫东太初团队联合新加坡国立大学提出了ReCALL框架。该成果已被计算机视觉顶会 CVPR 2026 录用,成功化解了生成式与判别式范式之间的冲突,使大模型在保留原生细粒度推理能力的同时,成为高效的检索器。
核心痛点:范式冲突导致智能倒退
将擅长生成式推理的大模型强行改造为判别式检索器时,存在显著的范式冲突(Paradigm Conflict):
- 机制矛盾:原生大模型依赖链式思考(Step-wise reasoning)理解细粒度视觉关系,而传统检索方法将其高维思考压缩为单一向量计算相似度。
- 后果严重:这种暴力压缩导致模型丧失细粒度定位(grounding)能力。数据显示,在原生模型能100%解决的子集上,微调后的检索器在 CIRR 数据集上的 R@1 暴跌至 62.33%,在 FashionIQ 上跌至 55.80%。
ReCALL框架:四阶段校准闭环
ReCALL框架通过独创的“诊断-生成-校准”流程,利用大模型原生的推理信号纠正检索空间盲区,具体分为四个阶段:
1. 基础检索适配 (Baseline Adaptation)
使用标准 InfoNCE 损失函数将原生大模型微调为基础检索器(Rbase)。此步骤虽赋予基础判别能力,但也诱发了前述的能力退化症状。
2. 自我诊断 (Diagnose)
让基础检索器在训练集上运行,专门筛选出“找错”的样本(Informative Instances)。这些高分负样本通常与正确答案仅有细微视觉差别,是模型认知模糊的“盲区”。
3. 生成校正 (Generate)
针对筛选出的错题,设计严密的链式思考(CoT)诱导机制进行修正:
- 意图分解与验证:将原始指令拆解为原子意图,对照参考图与错图,精准定位被违背的细粒度意图。
- 最小编辑合成:保留成立意图,仅重写被违背部分,合成新的修改指令。
- 数据一致性保障:生成的文本编辑在视觉上镜像真实目标与干扰图的差异,提供高密度的细粒度图文对齐监督信号,并通过 VQA 级别的语义过滤剔除幻觉噪音。
4. 针对性打磨 (Refine)
采用分组对比学习(Grouped Contrastive Refinement),将原查询与纠错查询打包对冲,配合双重优化目标,迫使检索器明确区分细微的视觉 - 语义边界,将细粒度推理能力内化至向量空间。
实测成绩:全场景刷新 SOTA
在主流基准测试中,ReCALL 展现了卓越性能:
- CIRR 开放域复杂数据集:R@1 达到 55.52%,相对基线提升 8.38%;在考察细粒度区分能力的子集(R_subset@1)上高达 81.49%。
- FashionIQ 细粒度时尚数据集:面对极度相似的服装干扰项,平均 R@10 达到 57.04%,表现最佳。
结论与意义
ReCALL 的成功不仅在于性能突破,更在于修复了多模态大模型向下游任务迁移时的隐形裂痕。它证明了通过“诊断—生成—内化”的逻辑闭环,可以教会模型利用思维链剖析错题、缝合认知盲区,实现了生成与判别两大范式的和解,为大模型在垂直领域的“能力无损适配”奠定了核心基础。
