Autenticare
Herramientas Google · · 8 min

RAG Corporativo con Vertex AI Search: arquitectura que funciona a escala

RAG ya no es código de demo. En proyectos reales, la diferencia entre prueba de concepto y producción está en chunking, reranking, citaciones y gobernanza. Guía técnica con Vertex AI Search.

Fabiano Brito

Fabiano Brito

CEO & Founder

RAG Corporativo con Vertex AI Search: arquitectura que funciona a escala
TL;DR El 80% de los proyectos RAG fracasan en producción por una de tres razones: chunking ingenuo, ausencia de reranking o falta de cita obligatoria. Vertex AI Search (parte de Gemini Enterprise) resuelve las tres por defecto — siempre que diseñe la indexación correctamente.

RAG (Retrieval-Augmented Generation) se volvió commodity en demos. Pero cuando el proyecto sale del notebook y entra en operación, surgen problemas que no aparecen con 10 documentos: tiempos de búsqueda inconsistentes, respuestas alucinadas en base propia, dificultad de actualización incremental y auditoría imposible.

Este post es el playbook que usamos en proyectos Autenticare con Vertex AI Search — el motor RAG de Gemini Enterprise.


1. Chunking: el error más caro

El default — partir en bloques de 512 tokens — funciona para Wikipedia. Falla en PDFs corporativos con tablas, contratos con cláusulas referenciadas y bases técnicas con diagramas con leyendas.

Estrategia que funciona:

  • Chunking semántico: respetar encabezados (H1-H4), párrafos completos, tablas enteras. Tamaño variable de 200 a 1500 tokens.
  • Overlap del 15% para preservar contexto de borde.
  • Metadata rica: documento, sección, fecha, autor, jurisdicción, clasificación de sensibilidad. Vertex AI Search lo indexa todo nativamente.
  • Pre-resumen de cada chunk para impulsar el recall (el resumen entra como campo separado, recuperable).

2. Reranking: la segunda recuperación de la que nadie habla

La búsqueda por embedding devuelve top-50 candidatos relevantes — pero el orden importa. Sin reranker, el LLM recibe contexto contaminado y responde mal.

+25–40%
relevance@1
con reranker activado
<1%
Alucinación medida
RAG + cita obligatoria
−90%
Costo de reindexado
upsert incremental vs full

Vertex AI Search tiene reranker nativo (cross-encoder) que toma el top-50 y devuelve el top-5 ordenado por relevancia contextual. El default debería estar activado — pero mucha gente lo olvida.


3. Citas obligatorias

RAG sin cita es alucinación disfrazada. Cada respuesta debe incluir de dónde vino: documento, página, párrafo. En compliance y jurídico, sin esto el output no tiene valor probatorio.

En Vertex AI Search, esto es parámetro de configuración — include_citations: true. En el prompt, basta instruir: "si la respuesta no está en los documentos recuperados, diga 'no encontré en la base' — no invente". Eso reduce la alucinación en RAG bien configurado a menos del 1%.


4. Actualización incremental

Reindexar la base entera semanalmente es caro y lento. Vertex AI Search acepta upsert por documento vía API — usted actualiza solo lo que cambió. En proyectos con 500k+ documentos, eso reduce el costo operativo en un 90%.

Recomendación Autenticare: pipeline en Cloud Run que escucha cambios en Drive/SharePoint/Confluence y dispara upsert en el índice. Latencia típica: 2–5 minutos entre edición y disponibilidad en el agente.


5. Gobernanza LGPD

RAG es el punto donde más aparecen datos personales. Tres reglas innegociables:

⚠️ Trampa de LGPD en RAG Indexar la base sin DLP o ACL compromete toda la capa. Un agente que recupera CPFs o documentos fuera del alcance del usuario es una filtración lista para ocurrir.
  1. DLP en ingest: enmascarar CPF, email, teléfono, datos sensibles antes de indexar.
  2. ACL en retrieval: el agente solo recupera documentos que el usuario real tiene permiso de ver. Vertex AI Search soporta filtro por grupo Workspace o IAM nativo.
  3. Log de auditoría completo: quién preguntó qué, cuáles documentos fueron recuperados, qué respuesta se generó. Obligatorio para inspección de la ANPD.

Detallamos el opt-out y el setup compatible con LGPD en opt-out de entrenamiento de Gemini Enterprise.


Arquitectura de referencia — 90 días

1
Semanas 1–2 — Inventario y clasificación

Mapear fuentes (Drive, SharePoint, Confluence, base de datos), clasificar sensibilidad, decidir modelo de ACL por grupo.

2
Semanas 3–4 — Pipeline de ingest

Chunking semántico + DLP (Cloud DLP API) + indexación en Vertex AI Search con metadata rica.

3
Semanas 5–6 — Agente en Gemini Enterprise

Agente consumiendo el índice, con reranker y cita obligatoria configurada.

4
Semanas 7–8 — Evaluación contra gold set

50–100 preguntas con respuestas validadas, tuning de prompts, umbral de confianza.

5
Semanas 9–12 — Rollout monitoreado

Liberación gradual a usuarios reales, dashboards de calidad y costo, revisión humana semanal.


Costo real — base 100k docs / 500 usuarios

ComponenteCosto mensual
Vertex AI Search (almacenamiento + consultas)~US$ 1.500
Gemini Enterprise Standard (500 × US$ 30)US$ 15.000
Cloud Run + DLP + logs~US$ 200
Total~US$ 16.700

Calcule el ROI con la calculadora.

Arquitectura RAG Premier

¿Su base de conocimiento está lista para convertirse en agente?

En 90 días diseñamos, indexamos y entregamos un agente RAG corporativo con gobernanza LGPD, cita obligatoria y gold set activo. Premier Partner Google Cloud.


Lea también