谷歌发布Gemini Embedding 2：首推原生多模态嵌入模型，文本音视频同空间

2026/03/11 17:30阅读量 8

谷歌正式发布首个原生多模态嵌入模型Gemini Embedding 2，首次将文本、图像、视频、音频及文档统一映射至同一语义向量空间。该模型支持最高8192 token的文本输入及6张图像、120秒视频等多模态混合处理，在多项评测中超越现有领先模型。这一突破为AI Agent（如OpenClaw）理解屏幕视觉元素及跨模态检索提供了关键基础设施。

事件概述

谷歌正式推出首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。该模型的核心突破在于打破了传统仅针对文本的局限，将文本、图像、视频、音频和文档全部压缩并映射到同一个统一的嵌入空间中，实现了真正的“跨模态语义对齐”。

核心能力与参数

多模态统一输入：支持单一模态及多模态混合输入（如“图像+文本”），使不同媒介的数据在语义坐标系中距离极度接近。
详细规格支持：
- 文本：支持最多 8192 个 token。
- 图像：单次请求处理最多 6 张图像（支持 PNG、JPEG）。
- 视频：支持最长 120 秒的视频输入（MP4、MOV 格式）。
- 音频：原生嵌入音频数据，无需经过中间文本转录。
- 文档：可直接嵌入最多 6 页的 PDF 文件。
性能表现：在语音处理能力上显著增强，同时在文本、图像和视频任务中均超越现有领先模型，达到 SOTA（State of the Art）水平。

技术架构与优化

Matryoshka Representation Learning (MRL)：模型继续采用 MRL 技术，允许嵌入向量在保持语义信息的同时进行动态维度缩减。默认输出维度为 3072 维，开发者可根据算力预算灵活调整为 1536 维或 768 维，以平衡性能与存储成本。
生态兼容：除通过 Gemini API 和 Vertex AI 调用外，还支持集成至 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 等主流工具链。

应用场景与意义

AI Agent 感知升级：为 OpenClaw（龙虾）等需要操作电脑的 AI Agent 提供“感官总线”。Agent 不再局限于识别文字标签，而是能直接理解屏幕截图中的图标布局、颜色控件位置及视觉结构与文本指令的关系，从而真正“看懂”屏幕。
简化复杂流程：在 RAG（检索增强生成）、语义搜索、情感分析及数据聚类等场景中，系统可直接基于统一向量空间进行跨模态检索（例如搜索“猫”即可同时返回相关文字、图片、视频和声音），大幅简化了原本复杂的多模态处理流程。

目前，Gemini Embedding 2 已通过 Gemini API 和 Vertex AI 开启公测。

阅读原文详情

事件概述

核心能力与参数

技术架构与优化

应用场景与意义

准备好启动您的定制项目了吗？