RAG Corporativo com Vertex AI Search: arquitetura que funciona em escala

TL;DR 80% dos projetos RAG falham em produção por uma de três razões: chunking ingênuo, ausência de reranking, ou falta de citação obrigatória. Vertex AI Search (parte do Gemini Enterprise) resolve as três por padrão — desde que você desenhe a indexação corretamente.

RAG (Retrieval-Augmented Generation) virou commodity em demos. Mas quando o projeto sai do notebook e entra na operação, surgem problemas que não aparecem com 10 documentos: tempos de busca inconsistentes, respostas alucinadas em base própria, dificuldade de atualização incremental, e auditoria impossível.

Este post é o playbook que usamos em projetos Autenticare com Vertex AI Search — a engine RAG do Gemini Enterprise.

1. Chunking: o erro mais caro

O default — quebrar em blocos de 512 tokens — funciona para Wikipedia. Falha em PDFs corporativos com tabelas, contratos com cláusulas referenciadas, e bases técnicas com diagramas legendados.

Estratégia que funciona:

Chunking semântico: respeitar headings (H1-H4), parágrafos completos, tabelas inteiras. Tamanho variável de 200 a 1500 tokens.
Overlap de 15% para preservar contexto de borda.
Metadados ricos: documento, seção, data, autor, jurisdição, classificação de sensibilidade. Vertex AI Search indexa tudo nativamente.
Pre-summarização de cada chunk para boost no recall (o resumo entra como campo separado, recuperável).

2. Reranking: o segundo retrieval que ninguém comenta

Embedding-search devolve top-50 candidatos relevantes — mas a ordem importa. Sem reranker, o LLM recebe contexto contaminado e responde mal.

+25–40%

relevance@1
com reranker ligado

<1%

Alucinação medida
RAG + citação obrigatória

−90%

Custo de reindex
upsert incremental vs full

Vertex AI Search tem reranker nativo (cross-encoder) que pega o top-50 e devolve top-5 ordenados por relevância contextual. Default deveria estar ligado — mas muita gente esquece.

3. Citações obrigatórias

RAG sem citação é alucinação maquiada. Toda resposta deve incluir de onde veio: documento, página, parágrafo. Em compliance e jurídico, sem isso o output não tem valor probatório.

Em Vertex AI Search, isso é parâmetro de configuração — include_citations: true. No prompt, basta instruir: "se a resposta não estiver nos documentos recuperados, diga 'não encontrei na base' — não invente". Isso reduz alucinação em RAG bem-configurado para menos de 1%.

4. Atualização incremental

Reindexar a base inteira semanalmente é caro e lento. Vertex AI Search aceita upsert por documento via API — você atualiza só o que mudou. Em projetos com 500k+ documentos, isso reduz o custo de operação em 90%.

Recomendação Autenticare: pipeline em Cloud Run que escuta mudanças no Drive/SharePoint/Confluence e dispara upsert no índice. Latência típica: 2–5 minutos entre edição e disponibilidade no agente.

5. Governança LGPD

RAG é o ponto onde dados pessoais aparecem mais. Três regras inegociáveis:

⚠️ Armadilha de LGPD em RAG Indexar a base sem DLP ou ACL compromete toda a camada. Um agente que recupera CPFs ou documentos fora do escopo do usuário é um vazamento pronto para acontecer.

DLP no ingest: mascarar CPF, e-mail, telefone, dados sensíveis antes de indexar.
ACL no retrieval: o agente só recupera documentos que o usuário real tem permissão de ver. Vertex AI Search suporta filtro por grupo Workspace ou IAM nativo.
Audit log completo: quem perguntou o quê, quais documentos foram recuperados, qual resposta foi gerada. Mandatório para inspeção da ANPD.

Detalhamos o opt-out e o setup LGPD-compatível em opt-out de treinamento Gemini Enterprise.

Arquitetura de referência — 90 dias

Semanas 1–2 — Inventário e classificação

Mapear fontes (Drive, SharePoint, Confluence, banco), classificar sensibilidade, decidir modelo de ACL por grupo.

Semanas 3–4 — Pipeline de ingest

Chunking semântico + DLP (Cloud DLP API) + indexação Vertex AI Search com metadados ricos.

Semanas 5–6 — Agente em Gemini Enterprise

Agente consumindo o índice, com reranker e citação obrigatória configurada.

Semanas 7–8 — Avaliação contra gold set

50–100 perguntas com respostas validadas, tuning de prompts, threshold de confiança.

Semanas 9–12 — Rollout monitorado

Liberação gradual para usuários reais, dashboards de qualidade e custo, revisão humana semanal.

Custo real — base 100k docs / 500 usuários

Componente	Custo mensal
Vertex AI Search (storage + queries)	~US$ 1.500
Gemini Enterprise Standard (500 × US$ 30)	US$ 15.000
Cloud Run + DLP + logs	~US$ 200
Total	~US$ 16.700

Calcule o ROI com a calculadora.

Arquitetura RAG Premier

Sua base de conhecimento está pronta para virar agente?

Em 90 dias desenhamos, indexamos e entregamos um agente RAG corporativo com governança LGPD, citação obrigatória e gold set ativo. Premier Partner Google Cloud.

Falar com a Autenticare → Como avaliar em produção