Autenticare
Herramientas Google · · 8 min

Embeddings y búsqueda semántica corporativa: el motor invisible detrás del RAG

Los embeddings parecen un detalle técnico — pero la elección equivocada degrada cualquier agente IA corporativo. Guía objetiva para CTOs sobre modelos, dimensiones, costo y lo que realmente importa en producción.

Fabiano Brito

Fabiano Brito

CEO & Founder

Embeddings y búsqueda semántica corporativa: el motor invisible detrás del RAG

Embedding es la representación numérica que convierte el texto en vectores para hacer funcionar la búsqueda semántica. Para las empresas, este componente es fundamental para evitar motores de búsqueda mediocres y agentes RAG que alucinan al recibir un contexto deficiente.

TL;DR Embedding es la representación numérica que hace funcionar la búsqueda semántica. En Gemini Enterprise, el default (text-embedding-005 vía Vertex AI) cubre el 90% de los casos. El otro 10% (multilingüe pesado, código, jurídico) merece una elección consciente. Más importante que el modelo: chunking, metadatos, reranker y hybrid search.

Embedding es el componente RAG más subestimado. Los equipos debaten prompts durante semanas pero usan el embedding default sin comparar. Resultado: motor de búsqueda semántica mediocre, agente que parece "alucinando" cuando en realidad recibe contexto malo.

Este post es la guía que daríamos a un CTO antes de aprobar la arquitectura.


Qué es embedding (en 2 párrafos)

El modelo de embedding toma texto ("contrato de prestación de servicios") y devuelve vector de N números (ej.: 768). Textos con significado parecido se convierten en vectores cercanos en el espacio; textos diferentes quedan lejos.

Búsqueda semántica funciona así: indexa todos los documentos como vectores. Recibe pregunta, la vectoriza, encuentra los K vectores más cercanos = top-K documentos relevantes. Eso está detrás de "búsqueda" en cualquier RAG moderno.


Modelos disponibles en Vertex AI

ModeloDimCosto (US$/1M tokens)Uso recomendado
text-embedding-005 768 0.025 Default general, multilingüe ligero
text-embedding-large-005 3072 0.10 Alta precisión, mayor latencia
text-multilingual-embedding-002 768 0.025 Multilingüe específico (20+ idiomas)
OSS (E5, BGE) variable infra propia Casos con dato ultra-sensible on-prem

En Gemini Enterprise + Vertex AI Search, la elección viene configurada. Para customizar, se crea un Data Store dedicado.


Criterios prácticos de decisión

1
Idiomas involucrados

Solo PT-BR + inglés ocasional → text-embedding-005. ES/ZH/AR/JA significativos → text-multilingual-embedding-002.

2
Dominio

Negocio general → default. Jurídico/médico denso → probar versión large. Código fuente → embedding de código dedicado (nunca el de texto).

3
Latencia aceptable

Vector mayor = búsqueda más lenta + más almacenamiento. Chat conversacional → 768 a menos que recall sea crítico.

4
Volumen y costo

En base 100k+ docs, la diferencia 768 vs 3072 se vuelve costo real de almacenamiento y reindexación periódica.


Lo que importa MÁS que la elección del modelo

Mal embedding de buen chunk >> buen embedding de mal chunk. La prioridad absoluta es el chunking semántico, no el modelo.
  • Chunking semántico: respetar la estructura del documento. Ver RAG corporativo.
  • Pre-resumen: indexar (chunk + resumen) duplica recall en corpus técnico.
  • Metadatos como filtro: categoría/fecha/autor reducen el universo antes de la búsqueda semántica.
  • Reranking: top-50 del embedding → top-5 del cross-encoder. Vertex AI Search lo tiene nativo.
  • Hybrid search: combinación semántica + léxica. Captura sinónimos Y términos exactos (número de contrato, nombre propio).

Cómo evaluar la calidad de tu búsqueda

MétricaQué mideObjetivo
Recall@10¿Documento correcto en top 10?> 90%
MRRPosición media del mejor resultado> 0.6
nDCG@10Calidad del orden de resultados> 0.7

Construye gold set de 100–300 pares (pregunta, documento esperado). Usa Vertex AI Evaluation para ejecutar en cada cambio. Más en evaluación de agentes en producción.


Errores comunes

⚠️ 5 trampas frecuentes Reindexar la base entera cada semana (usa upsert), mezclar idiomas en embedding monolingüe, chunks de 2.000 tokens que "difuminan" la semántica, ignorar metadatos estructurados, y nunca probar cambio de modelo en muestra.

Cuándo construir embedding propio

Muy raro. Considera solo si:

  • Dominio extremadamente específico (química industrial, patentes farmacéuticas).
  • El volumen justifica el costo de fine-tuning + serving (millones de queries/mes).
  • El equipo tiene ML engineer dedicado.

En el 95% de los proyectos corporativos, el modelo default de Vertex AI + chunking cuidadoso supera el fine-tuning amateur.

Preguntas Frecuentes sobre Embeddings y búsqueda semántica corporativa: el motor invisible detrás del RAG

¿Qué es un embedding? Un modelo de embedding toma un texto y devuelve un vector de N números. Textos con significado parecido se convierten en vectores cercanos en el espacio; textos diferentes quedan distantes.

¿Cómo funciona la búsqueda semántica? La búsqueda semántica indexa todos los documentos como vectores, recibe una pregunta, la transforma en vector y encuentra los K vectores más cercanos, que representan los documentos más relevantes.

¿Qué modelos de embedding están disponibles en Vertex AI? Los modelos disponibles en Vertex AI incluyen text-embedding-005, text-embedding-large-005, text-multilingual-embedding-002 y modelos OSS (E5, BGE).

¿Qué modelo de embedding debo usar para portugués e inglés? Para portugués de Brasil e inglés ocasional, el modelo text-embedding-005 es suficiente.

Auditoría de embeddings

¿Tu RAG rinde mediocre y no sabes si el cuello de botella es el embedding?

En 2 semanas: gold set + benchmark de 3 modelos + reranker activado + informe con plan de acción. Decisión basada en datos, no en hype.


Lee también