Vertex AI Search 企业 RAG：能规模化运行的架构

TL;DR 80% 的 RAG 项目在生产中因三个原因之一失败：简单粗暴的 chunking、缺失 reranking 或没有强制引用。Vertex AI Search（Gemini Enterprise 的一部分）默认解决这三个问题——前提是您正确设计索引。

RAG（检索增强生成）在演示中已成商品。但当项目离开 notebook 进入运营时，10 个文档不会暴露的问题就会浮现：搜索响应时间不一致、对自有知识库产生幻觉、增量更新困难、无法审计。

本文是 Autenticare 在 Vertex AI Search 项目（Gemini Enterprise 的 RAG 引擎）中应用的操作手册。

1. Chunking：最昂贵的错误

默认方法——切成 512 token 的块——对维基百科有效。但对带有表格的企业 PDF、带有引用条款的合同、带有图注的技术库则会失败。

有效策略：

语义 chunking：尊重标题（H1-H4）、完整段落、整张表格。大小可变，200 至 1500 tokens。
15% 重叠以保留边界上下文。
丰富的元数据：文档、章节、日期、作者、司法管辖区、敏感度分类。Vertex AI Search 原生索引所有内容。
对每个 chunk 进行预摘要以提升召回率（摘要作为单独的可检索字段）。

2. Reranking：没人谈及的第二次检索

嵌入搜索返回 top-50 相关候选——但排序很重要。没有 reranker，LLM 接收受污染的上下文，回答质量下降。

+25–40%

relevance@1
开启 reranker 后

<1%

测量到的幻觉
RAG + 强制引用

−90%

重索引成本
增量 upsert vs 全量

Vertex AI Search 有原生 reranker（cross-encoder），从 top-50 中返回按上下文相关性排序的 top-5。默认应开启——但很多人忘记了。

3. 强制引用

没有引用的 RAG 是伪装的幻觉。每个答案都必须包含来源：文档、页码、段落。在合规和法律领域，没有这些，输出就没有证据价值。

在 Vertex AI Search 中，这是配置参数——include_citations: true。在提示词中，只需说明："如果答案不在检索的文档中，说'我在知识库中找不到'——不要编造"。这将配置良好的 RAG 中的幻觉降低到 1% 以下。

4. 增量更新

每周重新索引整个知识库既昂贵又缓慢。Vertex AI Search 通过 API 接受按文档 upsert——只更新发生变化的内容。在 500k+ 文档的项目中，这将运营成本降低 90%。

Autenticare 推荐：监听 Drive/SharePoint/Confluence 变更并触发索引 upsert 的 Cloud Run 流水线。典型延迟：从编辑到 Agent 可用 2–5 分钟。

5. LGPD 治理

RAG 是个人数据出现最多的地方。三条不可谈判的规则：

⚠️ RAG 中的 LGPD 陷阱在没有 DLP 或 ACL 的情况下索引知识库会危及整个层次。检索超出用户权限范围的 CPF 或文档的 Agent 就是一个随时可能发生的数据泄露。

摄取时 DLP：在索引前掩码 CPF、邮箱、电话、敏感数据。
检索时 ACL：Agent 只检索真实用户有权限查看的文档。Vertex AI Search 支持通过 Workspace 组或原生 IAM 进行过滤。
完整审计日志：谁问了什么、检索了哪些文档、生成了什么答案。ANPD 检查必需。

我们在Gemini Enterprise 训练 opt-out 中详细说明 opt-out 和 LGPD 合规配置。

参考架构——90 天

第 1–2 周——清单与分类

梳理来源（Drive、SharePoint、Confluence、数据库），对敏感度分类，决定按组的 ACL 模型。

第 3–4 周——摄取流水线

语义 chunking + DLP（Cloud DLP API）+ 带丰富元数据的 Vertex AI Search 索引。

第 5–6 周——Gemini Enterprise 中的 Agent

Agent 消费索引，配置 reranker 和强制引用。

第 7–8 周——对照 gold set 评估

50–100 个带验证答案的问题，调优提示词，设置置信度阈值。

第 9–12 周——监控下的推广

逐步向真实用户开放，质量和成本监控仪表板，每周人工审查。

真实成本——100k 文档 / 500 用户

组件	月度成本
Vertex AI Search（存储 + 查询）	~US$ 1,500
Gemini Enterprise Standard（500 × US$ 30）	US$ 15,000
Cloud Run + DLP + 日志	~US$ 200
总计	~US$ 16,700

用计算器计算 ROI。

Premier RAG 架构

您的知识库准备好成为 Agent 了吗？

90 天内我们完成设计、索引并交付一个带 LGPD 治理、强制引用和活跃 gold set 的企业 RAG Agent。Google Cloud Premier Partner。

联系 Autenticare → 如何在生产中评估