AMES:基于晚期交互检索的近似多模态企业搜索架构
Apple ML Research 提出 AMES,一种后端无关的统一多模态晚期交互检索架构,旨在在不重构现有系统的前提下实现细粒度跨模态检索。该方案通过多向量编码器将文本、图像和视频帧映射至共享表示空间,并采用两阶段流水线(并行 ANN 搜索加精确重排序)提升效率。在 ViDoRe V3 基准测试中,AMES 在基于 Solr 的可扩展生产级系统中展现了具有竞争力的排名性能。
事件概述
Apple Machine Learning Research 发布了名为 AMES (Approximate Multimodal Enterprise Search) 的新研究论文。该系统是一种统一的多模态晚期交互检索架构,其核心优势在于“后端无关”(backend agnostic),证明了细粒度的多模态晚期交互检索可以直接部署于生产级的企业搜索引擎中,而无需对底层架构进行重新设计。
核心机制与技术细节
- 统一表示空间:AMES 利用多向量编码器(multi-vector encoders),将文本 token、图像 patch 以及视频帧嵌入到同一个共享表示空间中,从而实现了跨模态检索,且无需针对特定模态编写专门的检索逻辑。
- 两阶段处理流水线:
- 第一阶段:执行并行 token 级别的近似最近邻(ANN)搜索,并采用每文档 Top-M MaxSim 近似算法进行初步筛选。
- 第二阶段:使用加速器优化的精确 MaxSim 算法进行重排序(re-ranking),以确保最终结果的准确性。
实验验证与结论
- 基准测试:在 ViDoRe V3 基准测试中进行了评估。
- 系统环境:实验基于可扩展、可投入生产的 Solr 系统构建。
- 性能表现:结果显示,AMES 在该环境下实现了具有竞争力的排名性能,验证了其在实际企业搜索场景中的可行性与高效性。
发布信息
- 发布时间:2026 年 3 月
- 作者团队:Tony Joseph, Carlos Pareja, David Lopes Pegna, Abhishek Singh
- 研究领域:计算机视觉、知识库与搜索
