Gemini API File Search 重大升级:多模态检索、元数据过滤与页码级引用全面上线
Google DeepMind 为 Gemini API 的 File Search 工具新增三项核心功能:多模态支持(基于 Gemini Embedding 2,可同时理解图片与文本)、自定义元数据过滤(通过键值对标签限定检索范围)、页码级引用(为 PDF 提取结果标注来源页码)。这些改进旨在帮助开发者高效构建可验证的检索增强生成(RAG)系统,目前已面向 Gemini API 用户开放。
Google DeepMind 宣布对 Gemini API 的 File Search 工具进行重大升级,推出以下三项功能:
1. 多模态支持:基于 Gemini Embedding 2 模型,File Search 现在能同时理解图像与文本内容。开发者无需依赖关键词或文件名,即可通过自然语言描述检索具有特定情感基调或视觉风格的图片。例如,创意 agency 能从海量素材库中直接定位符合情绪氛围的视觉资产。据 Klipy 联合创始人反馈,新模型在处理质量参差的图片内文字时表现出色,有效消除了幻觉问题。
2. 自定义元数据过滤:用户可为文件附加键值对标签(如 department: Legal 或 status: Final),在查询时通过元数据过滤器限定检索范围,从而减少无关文档干扰,提升检索速度和准确性。
3. 页码级引用:当模型从大型 PDF 中提取答案时,系统自动记录每一条索引信息的来源页码,使用户可直接跳转至原文验证,增强了模型的可解释性和可信度,尤其适用于需严格事实核查的场景。
在实现层面,开发者可通过 google-genai 库创建多模态文件存储、上传文档与图片,并使用 Gemini 3 Flash Preview 模型进行跨文件检索。Google 提供了完整的开发指南和 API 文档。目前,这三项新功能已面向 Gemini API 用户开放。
