Gemini API File Search 重大升级：多模态检索、元数据过滤与页码级引用全面上线

2026/05/11 11:52阅读量 2

Google DeepMind 为 Gemini API 的 File Search 工具新增三项核心功能：多模态支持（基于 Gemini Embedding 2，可同时理解图片与文本）、自定义元数据过滤（通过键值对标签限定检索范围）、页码级引用（为 PDF 提取结果标注来源页码）。这些改进旨在帮助开发者高效构建可验证的检索增强生成（RAG）系统，目前已面向 Gemini API 用户开放。

Google DeepMind 宣布对 Gemini API 的 File Search 工具进行重大升级，推出以下三项功能：

1. 多模态支持：基于 Gemini Embedding 2 模型，File Search 现在能同时理解图像与文本内容。开发者无需依赖关键词或文件名，即可通过自然语言描述检索具有特定情感基调或视觉风格的图片。例如，创意 agency 能从海量素材库中直接定位符合情绪氛围的视觉资产。据 Klipy 联合创始人反馈，新模型在处理质量参差的图片内文字时表现出色，有效消除了幻觉问题。

2. 自定义元数据过滤：用户可为文件附加键值对标签（如 department: Legal 或 status: Final），在查询时通过元数据过滤器限定检索范围，从而减少无关文档干扰，提升检索速度和准确性。

3. 页码级引用：当模型从大型 PDF 中提取答案时，系统自动记录每一条索引信息的来源页码，使用户可直接跳转至原文验证，增强了模型的可解释性和可信度，尤其适用于需严格事实核查的场景。

在实现层面，开发者可通过 google-genai 库创建多模态文件存储、上传文档与图片，并使用 Gemini 3 Flash Preview 模型进行跨文件检索。Google 提供了完整的开发指南和 API 文档。目前，这三项新功能已面向 Gemini API 用户开放。

阅读原文详情

准备好启动您的定制项目了吗？