RAG Corporativo com Vertex AI Search: arquitetura que funciona em escala
RAG não é mais código de demo. Em projetos reais, a diferença entre prova-de-conceito e produção está em chunking, reranking, citações e governança. Guia técnico com Vertex AI Search.
Fabiano Brito
CEO & Founder
RAG (Retrieval-Augmented Generation) virou commodity em demos. Mas quando o projeto sai do notebook e entra na operação, surgem problemas que não aparecem com 10 documentos: tempos de busca inconsistentes, respostas alucinadas em base própria, dificuldade de atualização incremental, e auditoria impossível.
Este post é o playbook que usamos em projetos Autenticare com Vertex AI Search — a engine RAG do Gemini Enterprise.
1. Chunking: o erro mais caro
O default — quebrar em blocos de 512 tokens — funciona para Wikipedia. Falha em PDFs corporativos com tabelas, contratos com cláusulas referenciadas, e bases técnicas com diagramas legendados.
Estratégia que funciona:
- Chunking semântico: respeitar headings (H1-H4), parágrafos completos, tabelas inteiras. Tamanho variável de 200 a 1500 tokens.
- Overlap de 15% para preservar contexto de borda.
- Metadados ricos: documento, seção, data, autor, jurisdição, classificação de sensibilidade. Vertex AI Search indexa tudo nativamente.
- Pre-summarização de cada chunk para boost no recall (o resumo entra como campo separado, recuperável).
2. Reranking: o segundo retrieval que ninguém comenta
Embedding-search devolve top-50 candidatos relevantes — mas a ordem importa. Sem reranker, o LLM recebe contexto contaminado e responde mal.
com reranker ligado
RAG + citação obrigatória
upsert incremental vs full
Vertex AI Search tem reranker nativo (cross-encoder) que pega o top-50 e devolve top-5 ordenados por relevância contextual. Default deveria estar ligado — mas muita gente esquece.
3. Citações obrigatórias
RAG sem citação é alucinação maquiada. Toda resposta deve incluir de onde veio: documento, página, parágrafo. Em compliance e jurídico, sem isso o output não tem valor probatório.
Em Vertex AI Search, isso é parâmetro de configuração — include_citations: true. No prompt, basta instruir: "se a resposta não estiver nos documentos recuperados, diga 'não encontrei na base' — não invente". Isso reduz alucinação em RAG bem-configurado para menos de 1%.
4. Atualização incremental
Reindexar a base inteira semanalmente é caro e lento. Vertex AI Search aceita upsert por documento via API — você atualiza só o que mudou. Em projetos com 500k+ documentos, isso reduz o custo de operação em 90%.
Recomendação Autenticare: pipeline em Cloud Run que escuta mudanças no Drive/SharePoint/Confluence e dispara upsert no índice. Latência típica: 2–5 minutos entre edição e disponibilidade no agente.
5. Governança LGPD
RAG é o ponto onde dados pessoais aparecem mais. Três regras inegociáveis:
- DLP no ingest: mascarar CPF, e-mail, telefone, dados sensíveis antes de indexar.
- ACL no retrieval: o agente só recupera documentos que o usuário real tem permissão de ver. Vertex AI Search suporta filtro por grupo Workspace ou IAM nativo.
- Audit log completo: quem perguntou o quê, quais documentos foram recuperados, qual resposta foi gerada. Mandatório para inspeção da ANPD.
Detalhamos o opt-out e o setup LGPD-compatível em opt-out de treinamento Gemini Enterprise.
Arquitetura de referência — 90 dias
Mapear fontes (Drive, SharePoint, Confluence, banco), classificar sensibilidade, decidir modelo de ACL por grupo.
Chunking semântico + DLP (Cloud DLP API) + indexação Vertex AI Search com metadados ricos.
Agente consumindo o índice, com reranker e citação obrigatória configurada.
50–100 perguntas com respostas validadas, tuning de prompts, threshold de confiança.
Liberação gradual para usuários reais, dashboards de qualidade e custo, revisão humana semanal.
Custo real — base 100k docs / 500 usuários
| Componente | Custo mensal |
|---|---|
| Vertex AI Search (storage + queries) | ~US$ 1.500 |
| Gemini Enterprise Standard (500 × US$ 30) | US$ 15.000 |
| Cloud Run + DLP + logs | ~US$ 200 |
| Total | ~US$ 16.700 |
Calcule o ROI com a calculadora.
Sua base de conhecimento está pronta para virar agente?
Em 90 dias desenhamos, indexamos e entregamos um agente RAG corporativo com governança LGPD, citação obrigatória e gold set ativo. Premier Partner Google Cloud.
