Gemini Embedding 2：统一的多模态 RAG

Q: Gemini Embedding 2 中的 Matryoshka Representation Learning (MRL) 是什么？

它是一种将嵌套的语义信息分层嵌入到向量中的技术。您可以通过 `output_dimensionality` 参数在推理时选择维度。

Gemini Embedding 2 是将文本、图像、视频、音频和PDF映射到统一3072维向量空间的原生多模态模型。它让企业无需维护多个独立模型，即可实现高效的统一多模态RAG检索。

摘要 gemini-embedding-2-preview 把文本、图像、视频、音频和 PDF 映射到统一的 3072 维向量空间。支持 Matryoshka（768/1536/3072）、8,192 token 上下文窗口、刷新 MTEB 纪录（代码 84.0 / 多语 69.9），并原生集成 LangChain、LlamaIndex、Vertex AI Vector Search 与主流向量数据库。

多年以来，搭建多模态语义检索流水线意味着维护多个按数据类型分开的模型——文本一个、图像一个、音频一个——再用脆弱的融合层去对齐这些向量空间。2026 年 3 月 10 日，Google 发布 Gemini Embedding 2，结束了这一时代：Gemini 家族首个原生多模态 embedding 模型，目前在 Gemini API 与 Vertex AI 上以 Public Preview 形式提供。

推动迁移的关键数字

84.0

MTEB Code
绝对新纪录

69.9

MTEB Multilingual
100+ 原生语言

8,192

上下文 token
是大多数竞品的 2 倍

它要解决的问题

企业数据天然就是多模态的。客户支持涉及文本工单、通话录音、错误截图与 PDF 手册；产品分析系统要处理演示视频、技术规格与目录图片。把这些资产语义化索引，过去需要多条独立流水线——而模态衔接处的检索质量会下滑。

Gemini Embedding 2 在底层解决了这件事：用一个模型同时学会所有模态后，“客户抱怨延迟的录音” 与 “性能优化知识库文章” 之间的向量距离在语义上就是连贯的——无需任何中间翻译层。

"The bridge between different media types has finally been built. Use this with complex document similarity tasks, and the results in semantic proximity should be a massive leap forward for RAG pipelines."

— Eric Dong，Google Cloud AI 工程师

规格速览

gemini-embedding-2-preview 基于 Gemini 架构，继承了多模态理解能力。各模态的限制：

模态	单次请求上限	支持格式
文本	8,192 token	任意 UTF-8 文本
图像	最多 6 张	PNG、JPEG
音频	最长 80 秒	MP3、WAV
视频	最长 128 秒	MP4、MOV（H264、H265、AV1、VP9）
文档（PDF）	最多 6 页	PDF（视觉 + 文本）

一个关键的架构细节：模型支持交错输入 —— 你可以在一次请求中把多种模态（文本 + 图像 + 音频）混在一起，得到一个能体现彼此关系的聚合 embedding。这与”分别 embed 再做平均”完全不同。

Matryoshka：灵活而无损

Gemini Embedding 2 内置了 Matryoshka Representation Learning（MRL）——把语义信息按层级嵌套在向量内。前 768 维就已经是有用的紧凑表示；接下来的 1536 维补充细节；完整的 3072 维提供最高保真度。

通过 output_dimensionality 参数在推理时选择维度：

Python

from google import genai
from google.genai import types
client = genai.Client()
降维 embedding（节省 75% 存储）
result = client.models.embed_content(
model=“gemini-embedding-2-preview”,
contents=“2026 年第一季度业绩报告”,
config=types.EmbedContentConfig(output_dimensionality=768)
)
print(f”维度: {len(result.embeddings[0].values)}”)  # 768

1000 万文档语料的存储影响：

维度	存储（1000 万文档）	推荐场景
3072（默认）	~117 GB	高精度 RAG、法律/医疗检索、去重
1536	~58 GB	通用语义检索、内容分类
768	~29 GB	实时推荐、低延迟过滤

必须重新索引 Gemini Embedding 2 与 gemini-embedding-001 的向量不向后兼容。不同模型的向量空间不能直接比较——迁移前请评估对全量语料重新索引的成本与时间。

多模态 RAG 在实战中的样子

最直接的影响是流水线变简洁。旧模式需要多个 embedding 模型、自定义融合逻辑和按模态切分的向量库。新模式干净许多：

Python — 用 Gemini Embedding 2 做多模态 RAG

from google import genai
from google.genai import types
client = genai.Client()
直接索引 PDF（无需手动 OCR）
with open(‘financial_report.pdf’, ‘rb’) as f:
pdf_bytes = f.read()
pdf_embedding = client.models.embed_content(
model=‘gemini-embedding-2-preview’,
contents=[types.Part.from_bytes(data=pdf_bytes, mime_type=‘application/pdf’)]
)
索引会议录音（无需转写）
with open(‘board_meeting.mp3’, ‘rb’) as f:
audio_bytes = f.read()
audio_embedding = client.models.embed_content(
model=‘gemini-embedding-2-preview’,
contents=[types.Part.from_bytes(data=audio_bytes, mime_type=‘audio/mpeg’)]
)
用文本查询 —— 直接与 PDF、音频在同一空间比对
query_embedding = client.models.embed_content(
model=‘gemini-embedding-2-preview’,
contents=“第四季度讨论了哪些营收目标？”
)
所有向量都在同一空间 —— 统一检索

关键点：文本查询直接与 PDF、音频 embedding 比较——全程没有任何中间翻译层。

高价值业务场景

原生多模态 + 8,192 token 上下文 + 100+ 语言（含中文）的组合，让此前不可行或成本太高的场景变得现实：

行业	用例	新变化
法律	合同 + 庭审录音	PDF 与音频同库；按条款检索同时召回两者
医疗	多模态电子病历	PDF 报告、影像与语音笔记一同索引
零售	视觉 + 文本商品检索	客户上传一张图，按视觉与描述召回结果
教育	课程仓库	视频、幻灯片、转写在同一空间；按概念检索
金融	财报电话会 + 报告	无需转写流水线即可关联会议与 PDF 报告

在哪里可以现在就用

通过 Gemini API（开发）和 Vertex AI（生产，含 SLA、VPC Service Controls 与 Vector Search）即可使用。主流库均已支持：

LangChain 与 LlamaIndex —— 通过 Google 的 embedding 类原生接入
Haystack —— hub 中提供组件
Weaviate、Qdrant、ChromaDB —— Google 向量化模块
Vertex AI Vector Search —— 自动扩缩的托管集成

对已经在 Google Cloud 上的团队，Gemini Embedding 2 + Vertex AI Vector Search + Gemini 2.5 Pro 即一套全托管 RAG 栈，零外部依赖。

落地准备清单

模态盘点

梳理语料中包含哪些数据类型（文本、图像、音频、视频、PDF），以及各类型的体量。

重索引评估

如果要从 gemini-embedding-001 迁移，估算重索引现有语料的成本与时间。

维度选择

在质量/成本权衡下，决定使用 768、1536 还是 3072。

部署环境

开发/预览走 Gemini API；生产走 Vertex AI 以获得 SLA。

检索评估

先构建评估集（query + 相关文档），衡量在你领域里的真实增益再全量迁移。

常见问题 sobre Gemini Embedding 2：统一的多模态 RAG

什么是 Gemini Embedding 2？ 它是 Gemini 系列中首个原生多模态 embedding 模型，通过 Gemini API 和 Vertex AI 以公开预览版提供。它将文本、图像、视频、音频和 PDF 映射到单个向量空间。

Gemini Embedding 2 的主要优势是什么？ 它支持 Matryoshka，拥有 8,192 个 token 的上下文窗口，并在 MTEB 上取得了新的记录（代码为 84.0，多语言为 69.9）。它还与 LangChain、LlamaIndex、Vertex AI Vector Search 和主要的向量数据库进行了原生集成。

Gemini Embedding 2 中每种模态的输入限制是什么？ 对于文本，限制为 8,192 个 token；对于图像，最多 6 张图像；对于音频，最多 80 秒；对于视频，最多 128 秒；对于 PDF 文档，最多 6 页。

Gemini Embedding 2 中的 Matryoshka Representation Learning (MRL) 是什么？ 它是一种将嵌套的语义信息分层嵌入到向量中的技术。您可以通过 output_dimensionality 参数在推理时选择维度。

迁移与 RAG 架构

在评估 Gemini Embedding 2 是否适合你的架构？

我们服务于医疗、法律、教育与金融客户——这些行业本就以多模态数据为常态。我们可以做可行性分析、重索引成本估算与最终架构落地。

联系 Autenticare → 计算 ROI

Gemini Embedding 2：统一的多模态 RAG

推动迁移的关键数字

它要解决的问题

规格速览

Matryoshka：灵活而无损

降维 embedding（节省 75% 存储）

多模态 RAG 在实战中的样子

直接索引 PDF（无需手动 OCR）

索引会议录音（无需转写）

用文本查询 —— 直接与 PDF、音频在同一空间比对

`所有向量都在同一空间 —— 统一检索`

高价值业务场景

在哪里可以现在就用

落地准备清单

常见问题 sobre Gemini Embedding 2：统一的多模态 RAG

在评估 Gemini Embedding 2 是否适合你的架构？

延伸阅读