RAG Corporativo con Vertex AI Search: arquitectura que funciona a escala
RAG ya no es código de demo. En proyectos reales, la diferencia entre prueba de concepto y producción está en chunking, reranking, citaciones y gobernanza. Guía técnica con Vertex AI Search.
Fabiano Brito
CEO & Founder
RAG (Retrieval-Augmented Generation) se volvió commodity en demos. Pero cuando el proyecto sale del notebook y entra en operación, surgen problemas que no aparecen con 10 documentos: tiempos de búsqueda inconsistentes, respuestas alucinadas en base propia, dificultad de actualización incremental y auditoría imposible.
Este post es el playbook que usamos en proyectos Autenticare con Vertex AI Search — el motor RAG de Gemini Enterprise.
1. Chunking: el error más caro
El default — partir en bloques de 512 tokens — funciona para Wikipedia. Falla en PDFs corporativos con tablas, contratos con cláusulas referenciadas y bases técnicas con diagramas con leyendas.
Estrategia que funciona:
- Chunking semántico: respetar encabezados (H1-H4), párrafos completos, tablas enteras. Tamaño variable de 200 a 1500 tokens.
- Overlap del 15% para preservar contexto de borde.
- Metadata rica: documento, sección, fecha, autor, jurisdicción, clasificación de sensibilidad. Vertex AI Search lo indexa todo nativamente.
- Pre-resumen de cada chunk para impulsar el recall (el resumen entra como campo separado, recuperable).
2. Reranking: la segunda recuperación de la que nadie habla
La búsqueda por embedding devuelve top-50 candidatos relevantes — pero el orden importa. Sin reranker, el LLM recibe contexto contaminado y responde mal.
con reranker activado
RAG + cita obligatoria
upsert incremental vs full
Vertex AI Search tiene reranker nativo (cross-encoder) que toma el top-50 y devuelve el top-5 ordenado por relevancia contextual. El default debería estar activado — pero mucha gente lo olvida.
3. Citas obligatorias
RAG sin cita es alucinación disfrazada. Cada respuesta debe incluir de dónde vino: documento, página, párrafo. En compliance y jurídico, sin esto el output no tiene valor probatorio.
En Vertex AI Search, esto es parámetro de configuración — include_citations: true. En el prompt, basta instruir: "si la respuesta no está en los documentos recuperados, diga 'no encontré en la base' — no invente". Eso reduce la alucinación en RAG bien configurado a menos del 1%.
4. Actualización incremental
Reindexar la base entera semanalmente es caro y lento. Vertex AI Search acepta upsert por documento vía API — usted actualiza solo lo que cambió. En proyectos con 500k+ documentos, eso reduce el costo operativo en un 90%.
Recomendación Autenticare: pipeline en Cloud Run que escucha cambios en Drive/SharePoint/Confluence y dispara upsert en el índice. Latencia típica: 2–5 minutos entre edición y disponibilidad en el agente.
5. Gobernanza LGPD
RAG es el punto donde más aparecen datos personales. Tres reglas innegociables:
- DLP en ingest: enmascarar CPF, email, teléfono, datos sensibles antes de indexar.
- ACL en retrieval: el agente solo recupera documentos que el usuario real tiene permiso de ver. Vertex AI Search soporta filtro por grupo Workspace o IAM nativo.
- Log de auditoría completo: quién preguntó qué, cuáles documentos fueron recuperados, qué respuesta se generó. Obligatorio para inspección de la ANPD.
Detallamos el opt-out y el setup compatible con LGPD en opt-out de entrenamiento de Gemini Enterprise.
Arquitectura de referencia — 90 días
Mapear fuentes (Drive, SharePoint, Confluence, base de datos), clasificar sensibilidad, decidir modelo de ACL por grupo.
Chunking semántico + DLP (Cloud DLP API) + indexación en Vertex AI Search con metadata rica.
Agente consumiendo el índice, con reranker y cita obligatoria configurada.
50–100 preguntas con respuestas validadas, tuning de prompts, umbral de confianza.
Liberación gradual a usuarios reales, dashboards de calidad y costo, revisión humana semanal.
Costo real — base 100k docs / 500 usuarios
| Componente | Costo mensual |
|---|---|
| Vertex AI Search (almacenamiento + consultas) | ~US$ 1.500 |
| Gemini Enterprise Standard (500 × US$ 30) | US$ 15.000 |
| Cloud Run + DLP + logs | ~US$ 200 |
| Total | ~US$ 16.700 |
Calcule el ROI con la calculadora.
¿Su base de conocimiento está lista para convertirse en agente?
En 90 días diseñamos, indexamos y entregamos un agente RAG corporativo con gobernanza LGPD, cita obligatoria y gold set activo. Premier Partner Google Cloud.
