Autenticare
Google 工具 · · 8 min

Vertex AI Search 企业 RAG:能规模化运行的架构

RAG 不再只是演示代码。在真实项目中,概念验证与生产的差距在于 chunking、reranking、引用和治理。Vertex AI Search 技术指南。

Fabiano Brito

Fabiano Brito

CEO & Founder

Vertex AI Search 企业 RAG:能规模化运行的架构
TL;DR 80% 的 RAG 项目在生产中因三个原因之一失败:简单粗暴的 chunking、缺失 reranking 或没有强制引用Vertex AI Search(Gemini Enterprise 的一部分)默认解决这三个问题——前提是您正确设计索引。

RAG(检索增强生成)在演示中已成商品。但当项目离开 notebook 进入运营时,10 个文档不会暴露的问题就会浮现:搜索响应时间不一致、对自有知识库产生幻觉、增量更新困难、无法审计。

本文是 Autenticare 在 Vertex AI Search 项目(Gemini Enterprise 的 RAG 引擎)中应用的操作手册。


1. Chunking:最昂贵的错误

默认方法——切成 512 token 的块——对维基百科有效。但对带有表格的企业 PDF、带有引用条款的合同、带有图注的技术库则会失败。

有效策略:

  • 语义 chunking:尊重标题(H1-H4)、完整段落、整张表格。大小可变,200 至 1500 tokens。
  • 15% 重叠以保留边界上下文。
  • 丰富的元数据:文档、章节、日期、作者、司法管辖区、敏感度分类。Vertex AI Search 原生索引所有内容。
  • 对每个 chunk 进行预摘要以提升召回率(摘要作为单独的可检索字段)。

2. Reranking:没人谈及的第二次检索

嵌入搜索返回 top-50 相关候选——但排序很重要。没有 reranker,LLM 接收受污染的上下文,回答质量下降。

+25–40%
relevance@1
开启 reranker 后
<1%
测量到的幻觉
RAG + 强制引用
−90%
重索引成本
增量 upsert vs 全量

Vertex AI Search 有原生 reranker(cross-encoder),从 top-50 中返回按上下文相关性排序的 top-5。默认应开启——但很多人忘记了。


3. 强制引用

没有引用的 RAG 是伪装的幻觉。每个答案都必须包含来源:文档、页码、段落。在合规和法律领域,没有这些,输出就没有证据价值。

在 Vertex AI Search 中,这是配置参数——include_citations: true。在提示词中,只需说明:"如果答案不在检索的文档中,说'我在知识库中找不到'——不要编造"。这将配置良好的 RAG 中的幻觉降低到 1% 以下。


4. 增量更新

每周重新索引整个知识库既昂贵又缓慢。Vertex AI Search 通过 API 接受按文档 upsert——只更新发生变化的内容。在 500k+ 文档的项目中,这将运营成本降低 90%。

Autenticare 推荐:监听 Drive/SharePoint/Confluence 变更并触发索引 upsert 的 Cloud Run 流水线。典型延迟:从编辑到 Agent 可用 2–5 分钟。


5. LGPD 治理

RAG 是个人数据出现最多的地方。三条不可谈判的规则:

⚠️ RAG 中的 LGPD 陷阱 在没有 DLP 或 ACL 的情况下索引知识库会危及整个层次。检索超出用户权限范围的 CPF 或文档的 Agent 就是一个随时可能发生的数据泄露。
  1. 摄取时 DLP:在索引前掩码 CPF、邮箱、电话、敏感数据。
  2. 检索时 ACL:Agent 只检索真实用户有权限查看的文档。Vertex AI Search 支持通过 Workspace 组或原生 IAM 进行过滤。
  3. 完整审计日志:谁问了什么、检索了哪些文档、生成了什么答案。ANPD 检查必需。

我们在Gemini Enterprise 训练 opt-out 中详细说明 opt-out 和 LGPD 合规配置。


参考架构——90 天

1
第 1–2 周——清单与分类

梳理来源(Drive、SharePoint、Confluence、数据库),对敏感度分类,决定按组的 ACL 模型。

2
第 3–4 周——摄取流水线

语义 chunking + DLP(Cloud DLP API)+ 带丰富元数据的 Vertex AI Search 索引。

3
第 5–6 周——Gemini Enterprise 中的 Agent

Agent 消费索引,配置 reranker 和强制引用。

4
第 7–8 周——对照 gold set 评估

50–100 个带验证答案的问题,调优提示词,设置置信度阈值。

5
第 9–12 周——监控下的推广

逐步向真实用户开放,质量和成本监控仪表板,每周人工审查。


真实成本——100k 文档 / 500 用户

组件月度成本
Vertex AI Search(存储 + 查询)~US$ 1,500
Gemini Enterprise Standard(500 × US$ 30)US$ 15,000
Cloud Run + DLP + 日志~US$ 200
总计~US$ 16,700

计算器计算 ROI。

Premier RAG 架构

您的知识库准备好成为 Agent 了吗?

90 天内我们完成设计、索引并交付一个带 LGPD 治理、强制引用和活跃 gold set 的企业 RAG Agent。Google Cloud Premier Partner。


延伸阅读