嵌入向量与企业语义搜索：RAG背后的隐形引擎

TL;DR 嵌入向量是让语义搜索运作的数字表示。在Gemini Enterprise中，默认值（通过Vertex AI的text-embedding-005）覆盖90%的场景。其余10%（重度多语种、代码、法律）值得有意识地选择。比模型更重要的是：分块策略、元数据、重排序器和混合搜索。

嵌入向量是RAG中最被低估的组件。团队为提示词争论数周，却不加比较地使用默认嵌入。结果：语义搜索引擎平庸，智能体看似在"幻觉"，实际上是收到了糟糕的上下文。

本文是我们在批准架构之前会提供给CTO的指南。

什么是嵌入向量（两段话）

嵌入模型接收文本（"服务合同"）并返回N个数字的向量（如：768个）。含义相似的文本在空间中变成相近的向量；不同的文本则相距甚远。

语义搜索的工作方式：将所有文档索引为向量。接收问题，向量化，找到K个最近的向量 = top-K相关文档。这就是任何现代RAG中"搜索"背后的原理。

模型	维度	成本（美元/百万tokens）	推荐用途
`text-embedding-005`	768	0.025	通用默认，轻量多语种
`text-embedding-large-005`	3072	0.10	高精度，更高延迟
`text-multilingual-embedding-002`	768	0.025	专用多语种（20+语言）
OSS (E5, BGE)	可变	自有基础设施	超敏感数据的本地部署场景

在Gemini Enterprise + Vertex AI Search中，选择已预先配置好。若要自定义，需创建专用的Data Store。

涉及的语言

仅PT-BR + 偶尔英语 → text-embedding-005。有显著的ES/ZH/AR/JA → text-multilingual-embedding-002。

领域

一般业务 → 默认。密集法律/医疗 → 测试大型版本。源代码 → 专用代码嵌入（绝非文本嵌入）。

可接受的延迟

向量越大 = 搜索越慢 + 存储越多。对话式聊天 → 768，除非召回率至关重要。

量与成本

在10万+文档的规模下，768与3072的差异会转化为真实的存储和定期重新索引成本。

好分块的差嵌入 >> 差分块的好嵌入。绝对优先级是语义分块，而非模型。

构建100–300对（问题，预期文档）的黄金集。使用Vertex AI Evaluation在每次变更时运行。更多内容参见生产环境AI智能体评估。

⚠️ 5个常见陷阱每周重新索引整个数据库（使用upsert）、在单语嵌入中混合语言、2000个token的分块会"模糊"语义、忽略结构化元数据，以及从未在样本上测试更换模型。

非常罕见。仅在以下情况下考虑：

在95%的企业项目中，Vertex AI默认模型+精心分块胜过业余微调。

嵌入向量审计

2周内：黄金集 + 3个模型的基准测试 + 开启重排序器 + 附行动计划的报告。基于数据的决策，而非炒作。