Vertex AI Search 企业 RAG:能规模化运行的架构
RAG 不再只是演示代码。在真实项目中,概念验证与生产的差距在于 chunking、reranking、引用和治理。Vertex AI Search 技术指南。
Fabiano Brito
CEO & Founder
RAG(检索增强生成)在演示中已成商品。但当项目离开 notebook 进入运营时,10 个文档不会暴露的问题就会浮现:搜索响应时间不一致、对自有知识库产生幻觉、增量更新困难、无法审计。
本文是 Autenticare 在 Vertex AI Search 项目(Gemini Enterprise 的 RAG 引擎)中应用的操作手册。
1. Chunking:最昂贵的错误
默认方法——切成 512 token 的块——对维基百科有效。但对带有表格的企业 PDF、带有引用条款的合同、带有图注的技术库则会失败。
有效策略:
- 语义 chunking:尊重标题(H1-H4)、完整段落、整张表格。大小可变,200 至 1500 tokens。
- 15% 重叠以保留边界上下文。
- 丰富的元数据:文档、章节、日期、作者、司法管辖区、敏感度分类。Vertex AI Search 原生索引所有内容。
- 对每个 chunk 进行预摘要以提升召回率(摘要作为单独的可检索字段)。
2. Reranking:没人谈及的第二次检索
嵌入搜索返回 top-50 相关候选——但排序很重要。没有 reranker,LLM 接收受污染的上下文,回答质量下降。
开启 reranker 后
RAG + 强制引用
增量 upsert vs 全量
Vertex AI Search 有原生 reranker(cross-encoder),从 top-50 中返回按上下文相关性排序的 top-5。默认应开启——但很多人忘记了。
3. 强制引用
没有引用的 RAG 是伪装的幻觉。每个答案都必须包含来源:文档、页码、段落。在合规和法律领域,没有这些,输出就没有证据价值。
在 Vertex AI Search 中,这是配置参数——include_citations: true。在提示词中,只需说明:"如果答案不在检索的文档中,说'我在知识库中找不到'——不要编造"。这将配置良好的 RAG 中的幻觉降低到 1% 以下。
4. 增量更新
每周重新索引整个知识库既昂贵又缓慢。Vertex AI Search 通过 API 接受按文档 upsert——只更新发生变化的内容。在 500k+ 文档的项目中,这将运营成本降低 90%。
Autenticare 推荐:监听 Drive/SharePoint/Confluence 变更并触发索引 upsert 的 Cloud Run 流水线。典型延迟:从编辑到 Agent 可用 2–5 分钟。
5. LGPD 治理
RAG 是个人数据出现最多的地方。三条不可谈判的规则:
- 摄取时 DLP:在索引前掩码 CPF、邮箱、电话、敏感数据。
- 检索时 ACL:Agent 只检索真实用户有权限查看的文档。Vertex AI Search 支持通过 Workspace 组或原生 IAM 进行过滤。
- 完整审计日志:谁问了什么、检索了哪些文档、生成了什么答案。ANPD 检查必需。
我们在Gemini Enterprise 训练 opt-out 中详细说明 opt-out 和 LGPD 合规配置。
参考架构——90 天
梳理来源(Drive、SharePoint、Confluence、数据库),对敏感度分类,决定按组的 ACL 模型。
语义 chunking + DLP(Cloud DLP API)+ 带丰富元数据的 Vertex AI Search 索引。
Agent 消费索引,配置 reranker 和强制引用。
50–100 个带验证答案的问题,调优提示词,设置置信度阈值。
逐步向真实用户开放,质量和成本监控仪表板,每周人工审查。
真实成本——100k 文档 / 500 用户
| 组件 | 月度成本 |
|---|---|
| Vertex AI Search(存储 + 查询) | ~US$ 1,500 |
| Gemini Enterprise Standard(500 × US$ 30) | US$ 15,000 |
| Cloud Run + DLP + 日志 | ~US$ 200 |
| 总计 | ~US$ 16,700 |
用计算器计算 ROI。
您的知识库准备好成为 Agent 了吗?
90 天内我们完成设计、索引并交付一个带 LGPD 治理、强制引用和活跃 gold set 的企业 RAG Agent。Google Cloud Premier Partner。
