Gemini Embedding 2:统一的多模态 RAG
Gemini 家族首个多模态 embedding:文本、图像、视频、音频共享 3072 维向量空间。看它带来的影响。
Fabiano Brito
CEO & 创始人
多年以来,搭建多模态语义检索流水线意味着维护多个按数据类型分开的模型——文本一个、图像一个、音频一个——再用脆弱的融合层去对齐这些向量空间。2026 年 3 月 10 日,Google 发布 Gemini Embedding 2,结束了这一时代:Gemini 家族首个原生多模态 embedding 模型,目前在 Gemini API 与 Vertex AI 上以 Public Preview 形式提供。
推动迁移的关键数字
绝对新纪录
100+ 原生语言
是大多数竞品的 2 倍
它要解决的问题
企业数据天然就是多模态的。客户支持涉及文本工单、通话录音、错误截图与 PDF 手册;产品分析系统要处理演示视频、技术规格与目录图片。把这些资产语义化索引,过去需要多条独立流水线——而模态衔接处的检索质量会下滑。
Gemini Embedding 2 在底层解决了这件事:用一个模型同时学会所有模态后,“客户抱怨延迟的录音” 与 “性能优化知识库文章” 之间的向量距离在语义上就是连贯的——无需任何中间翻译层。
"The bridge between different media types has finally been built. Use this with complex document similarity tasks, and the results in semantic proximity should be a massive leap forward for RAG pipelines."
规格速览
gemini-embedding-2-preview 基于 Gemini 架构,继承了多模态理解能力。各模态的限制:
| 模态 | 单次请求上限 | 支持格式 |
|---|---|---|
| 文本 | 8,192 token | 任意 UTF-8 文本 |
| 图像 | 最多 6 张 | PNG、JPEG |
| 音频 | 最长 80 秒 | MP3、WAV |
| 视频 | 最长 128 秒 | MP4、MOV(H264、H265、AV1、VP9) |
| 文档(PDF) | 最多 6 页 | PDF(视觉 + 文本) |
一个关键的架构细节:模型支持交错输入 —— 你可以在一次请求中把多种模态(文本 + 图像 + 音频)混在一起,得到一个能体现彼此关系的聚合 embedding。这与”分别 embed 再做平均”完全不同。
Matryoshka:灵活而无损
Gemini Embedding 2 内置了 Matryoshka Representation Learning(MRL)——把语义信息按层级嵌套在向量内。前 768 维就已经是有用的紧凑表示;接下来的 1536 维补充细节;完整的 3072 维提供最高保真度。
通过 output_dimensionality 参数在推理时选择维度:
from google import genai from google.genai import typesclient = genai.Client()
降维 embedding(节省 75% 存储)
result = client.models.embed_content( model=“gemini-embedding-2-preview”, contents=“2026 年第一季度业绩报告”, config=types.EmbedContentConfig(output_dimensionality=768) ) print(f”维度: {len(result.embeddings[0].values)}”) # 768
1000 万文档语料的存储影响:
| 维度 | 存储(1000 万文档) | 推荐场景 |
|---|---|---|
| 3072(默认) | ~117 GB | 高精度 RAG、法律/医疗检索、去重 |
| 1536 | ~58 GB | 通用语义检索、内容分类 |
| 768 | ~29 GB | 实时推荐、低延迟过滤 |
gemini-embedding-001 的向量不向后兼容。不同模型的向量空间不能直接比较——迁移前请评估对全量语料重新索引的成本与时间。
多模态 RAG 在实战中的样子
最直接的影响是流水线变简洁。旧模式需要多个 embedding 模型、自定义融合逻辑和按模态切分的向量库。新模式干净许多:
from google import genai from google.genai import typesclient = genai.Client()
直接索引 PDF(无需手动 OCR)
with open(‘financial_report.pdf’, ‘rb’) as f: pdf_bytes = f.read() pdf_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=[types.Part.from_bytes(data=pdf_bytes, mime_type=‘application/pdf’)] )
索引会议录音(无需转写)
with open(‘board_meeting.mp3’, ‘rb’) as f: audio_bytes = f.read() audio_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=[types.Part.from_bytes(data=audio_bytes, mime_type=‘audio/mpeg’)] )
用文本查询 —— 直接与 PDF、音频在同一空间比对
query_embedding = client.models.embed_content( model=‘gemini-embedding-2-preview’, contents=“第四季度讨论了哪些营收目标?” )
所有向量都在同一空间 —— 统一检索
关键点:文本查询直接与 PDF、音频 embedding 比较——全程没有任何中间翻译层。
高价值业务场景
原生多模态 + 8,192 token 上下文 + 100+ 语言(含中文)的组合,让此前不可行或成本太高的场景变得现实:
| 行业 | 用例 | 新变化 |
|---|---|---|
| 法律 | 合同 + 庭审录音 | PDF 与音频同库;按条款检索同时召回两者 |
| 医疗 | 多模态电子病历 | PDF 报告、影像与语音笔记一同索引 |
| 零售 | 视觉 + 文本商品检索 | 客户上传一张图,按视觉与描述召回结果 |
| 教育 | 课程仓库 | 视频、幻灯片、转写在同一空间;按概念检索 |
| 金融 | 财报电话会 + 报告 | 无需转写流水线即可关联会议与 PDF 报告 |
在哪里可以现在就用
通过 Gemini API(开发)和 Vertex AI(生产,含 SLA、VPC Service Controls 与 Vector Search)即可使用。主流库均已支持:
- LangChain 与 LlamaIndex —— 通过 Google 的 embedding 类原生接入
- Haystack —— hub 中提供组件
- Weaviate、Qdrant、ChromaDB —— Google 向量化模块
- Vertex AI Vector Search —— 自动扩缩的托管集成
对已经在 Google Cloud 上的团队,Gemini Embedding 2 + Vertex AI Vector Search + Gemini 2.5 Pro 即一套全托管 RAG 栈,零外部依赖。
落地准备清单
梳理语料中包含哪些数据类型(文本、图像、音频、视频、PDF),以及各类型的体量。
如果要从 gemini-embedding-001 迁移,估算重索引现有语料的成本与时间。
在质量/成本权衡下,决定使用 768、1536 还是 3072。
开发/预览走 Gemini API;生产走 Vertex AI 以获得 SLA。
先构建评估集(query + 相关文档),衡量在你领域里的真实增益再全量迁移。
在评估 Gemini Embedding 2 是否适合你的架构?
我们服务于医疗、法律、教育与金融客户——这些行业本就以多模态数据为常态。我们可以做可行性分析、重索引成本估算与最终架构落地。
