Autenticare
智能体工程 · · 10 分钟

Gemini Embedding 2:统一的多模态 RAG

Gemini 家族首个多模态 embedding:文本、图像、视频、音频共享 3072 维向量空间。看它带来的影响。

Fabiano Brito

Fabiano Brito

CEO & 创始人

Gemini Embedding 2:统一的多模态 RAG
摘要 gemini-embedding-2-preview 把文本、图像、视频、音频和 PDF 映射到统一的 3072 维向量空间。支持 Matryoshka(768/1536/3072)8,192 token 上下文窗口、刷新 MTEB 纪录(代码 84.0 / 多语 69.9),并原生集成 LangChain、LlamaIndex、Vertex AI Vector Search 与主流向量数据库。

多年以来,搭建多模态语义检索流水线意味着维护多个按数据类型分开的模型——文本一个、图像一个、音频一个——再用脆弱的融合层去对齐这些向量空间。2026 年 3 月 10 日,Google 发布 Gemini Embedding 2,结束了这一时代:Gemini 家族首个原生多模态 embedding 模型,目前在 Gemini API 与 Vertex AI 上以 Public Preview 形式提供。

推动迁移的关键数字

84.0
MTEB Code
绝对新纪录
69.9
MTEB Multilingual
100+ 原生语言
8,192
上下文 token
是大多数竞品的 2 倍

它要解决的问题

企业数据天然就是多模态的。客户支持涉及文本工单、通话录音、错误截图与 PDF 手册;产品分析系统要处理演示视频、技术规格与目录图片。把这些资产语义化索引,过去需要多条独立流水线——而模态衔接处的检索质量会下滑。

Gemini Embedding 2 在底层解决了这件事:用一个模型同时学会所有模态后,“客户抱怨延迟的录音”“性能优化知识库文章” 之间的向量距离在语义上就是连贯的——无需任何中间翻译层。

"The bridge between different media types has finally been built. Use this with complex document similarity tasks, and the results in semantic proximity should be a massive leap forward for RAG pipelines."

— Eric Dong,Google Cloud AI 工程师

规格速览

gemini-embedding-2-preview 基于 Gemini 架构,继承了多模态理解能力。各模态的限制:

模态单次请求上限支持格式
文本8,192 token任意 UTF-8 文本
图像最多 6 张PNG、JPEG
音频最长 80 秒MP3、WAV
视频最长 128 秒MP4、MOV(H264、H265、AV1、VP9)
文档(PDF)最多 6 页PDF(视觉 + 文本)

一个关键的架构细节:模型支持交错输入 —— 你可以在一次请求中把多种模态(文本 + 图像 + 音频)混在一起,得到一个能体现彼此关系的聚合 embedding。这与”分别 embed 再做平均”完全不同。

Matryoshka:灵活而无损

Gemini Embedding 2 内置了 Matryoshka Representation Learning(MRL)——把语义信息按层级嵌套在向量内。前 768 维就已经是有用的紧凑表示;接下来的 1536 维补充细节;完整的 3072 维提供最高保真度。

通过 output_dimensionality 参数在推理时选择维度:

Python
from google import genai
from google.genai import types

client = genai.Client()

降维 embedding(节省 75% 存储)

result = client.models.embed_content( model=“gemini-embedding-2-preview”, contents=“2026 年第一季度业绩报告”, config=types.EmbedContentConfig(output_dimensionality=768) ) print(f”维度: {len(result.embeddings[0].values)}”) # 768

1000 万文档语料的存储影响:

维度存储(1000 万文档)推荐场景
3072(默认)~117 GB高精度 RAG、法律/医疗检索、去重
1536~58 GB通用语义检索、内容分类
768~29 GB实时推荐、低延迟过滤
必须重新索引 Gemini Embedding 2 gemini-embedding-001 的向量不向后兼容。不同模型的向量空间不能直接比较——迁移前请评估对全量语料重新索引的成本与时间。

多模态 RAG 在实战中的样子

最直接的影响是流水线变简洁。旧模式需要多个 embedding 模型、自定义融合逻辑和按模态切分的向量库。新模式干净许多:

Python — 用 Gemini Embedding 2 做多模态 RAG
from google import genai
from google.genai import types

client = genai.Client()

直接索引 PDF(无需手动 OCR)

with open(‘financial_report.pdf’, ‘rb’) as f: pdf_bytes = f.read() pdf_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=[types.Part.from_bytes(data=pdf_bytes, mime_type=‘application/pdf’)] )

索引会议录音(无需转写)

with open(‘board_meeting.mp3’, ‘rb’) as f: audio_bytes = f.read() audio_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=[types.Part.from_bytes(data=audio_bytes, mime_type=‘audio/mpeg’)] )

用文本查询 —— 直接与 PDF、音频在同一空间比对

query_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=“第四季度讨论了哪些营收目标?” )

所有向量都在同一空间 —— 统一检索

关键点:文本查询直接与 PDF、音频 embedding 比较——全程没有任何中间翻译层

高价值业务场景

原生多模态 + 8,192 token 上下文 + 100+ 语言(含中文)的组合,让此前不可行或成本太高的场景变得现实:

行业用例新变化
法律合同 + 庭审录音PDF 与音频同库;按条款检索同时召回两者
医疗多模态电子病历PDF 报告、影像与语音笔记一同索引
零售视觉 + 文本商品检索客户上传一张图,按视觉与描述召回结果
教育课程仓库视频、幻灯片、转写在同一空间;按概念检索
金融财报电话会 + 报告无需转写流水线即可关联会议与 PDF 报告

在哪里可以现在就用

通过 Gemini API(开发)和 Vertex AI(生产,含 SLA、VPC Service Controls 与 Vector Search)即可使用。主流库均已支持:

  • LangChainLlamaIndex —— 通过 Google 的 embedding 类原生接入
  • Haystack —— hub 中提供组件
  • Weaviate、Qdrant、ChromaDB —— Google 向量化模块
  • Vertex AI Vector Search —— 自动扩缩的托管集成

对已经在 Google Cloud 上的团队,Gemini Embedding 2 + Vertex AI Vector Search + Gemini 2.5 Pro 即一套全托管 RAG 栈,零外部依赖。

落地准备清单

1
模态盘点

梳理语料中包含哪些数据类型(文本、图像、音频、视频、PDF),以及各类型的体量。

2
重索引评估

如果要从 gemini-embedding-001 迁移,估算重索引现有语料的成本与时间。

3
维度选择

在质量/成本权衡下,决定使用 768、1536 还是 3072。

4
部署环境

开发/预览走 Gemini API;生产走 Vertex AI 以获得 SLA。

5
检索评估

先构建评估集(query + 相关文档),衡量在你领域里的真实增益再全量迁移。

迁移与 RAG 架构

在评估 Gemini Embedding 2 是否适合你的架构?

我们服务于医疗、法律、教育与金融客户——这些行业本就以多模态数据为常态。我们可以做可行性分析、重索引成本估算与最终架构落地。


延伸阅读