谷歌发布Gemini Embedding 2:首推原生多模态嵌入模型,文本音视频同空间
谷歌正式发布首个原生多模态嵌入模型Gemini Embedding 2,首次将文本、图像、视频、音频及文档统一映射至同一语义向量空间。该模型支持最高8192 token的文本输入及6张图像、120秒视频等多模态混合处理,在多项评测中超越现有领先模型。这一突破为AI Agent(如OpenClaw)理解屏幕视觉元素及跨模态检索提供了关键基础设施。
事件概述
谷歌正式推出首个原生多模态(Multimodal)嵌入模型——Gemini Embedding 2。该模型的核心突破在于打破了传统仅针对文本的局限,将文本、图像、视频、音频和文档全部压缩并映射到同一个统一的嵌入空间中,实现了真正的“跨模态语义对齐”。
核心能力与参数
- 多模态统一输入:支持单一模态及多模态混合输入(如“图像+文本”),使不同媒介的数据在语义坐标系中距离极度接近。
- 详细规格支持:
- 文本:支持最多 8192 个 token。
- 图像:单次请求处理最多 6 张图像(支持 PNG、JPEG)。
- 视频:支持最长 120 秒的视频输入(MP4、MOV 格式)。
- 音频:原生嵌入音频数据,无需经过中间文本转录。
- 文档:可直接嵌入最多 6 页的 PDF 文件。
- 性能表现:在语音处理能力上显著增强,同时在文本、图像和视频任务中均超越现有领先模型,达到 SOTA(State of the Art)水平。
技术架构与优化
- Matryoshka Representation Learning (MRL):模型继续采用 MRL 技术,允许嵌入向量在保持语义信息的同时进行动态维度缩减。默认输出维度为 3072 维,开发者可根据算力预算灵活调整为 1536 维或 768 维,以平衡性能与存储成本。
- 生态兼容:除通过 Gemini API 和 Vertex AI 调用外,还支持集成至 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 等主流工具链。
应用场景与意义
- AI Agent 感知升级:为 OpenClaw(龙虾)等需要操作电脑的 AI Agent 提供“感官总线”。Agent 不再局限于识别文字标签,而是能直接理解屏幕截图中的图标布局、颜色控件位置及视觉结构与文本指令的关系,从而真正“看懂”屏幕。
- 简化复杂流程:在 RAG(检索增强生成)、语义搜索、情感分析及数据聚类等场景中,系统可直接基于统一向量空间进行跨模态检索(例如搜索“猫”即可同时返回相关文字、图片、视频和声音),大幅简化了原本复杂的多模态处理流程。
目前,Gemini Embedding 2 已通过 Gemini API 和 Vertex AI 开启公测。
