Evaluación de agentes de IA en producción: cómo medir calidad sin engañarse

TL;DR Los agentes de IA no son software determinístico — derivan, regresan con cambios de modelo y fallan silenciosamente en casos borde. Sin evaluación formal, opera en la oscuridad. Framework práctico: gold set, 4 métricas, monitoreo continuo y revisión humana por muestreo.

En el software tradicional, "pasó los tests" es binario. En IA, es una distribución: el 92% de los casos pasa, el 8% se degrada, y el degradado de hoy puede ser el catastrófico de mañana. Por eso, la evaluación no es una fase — es un loop continuo.

4 dimensiones de evaluación

Dimensión 1

Faithfulness

¿La respuesta está fundamentada en los datos recuperados? Es la métrica anti-alucinación.

Cómo medir: LLM-as-judge (Gemini Pro evaluando respuesta vs contexto) + muestreo humano semanal.

Dimensión 2

Relevance

¿La respuesta aborda la pregunta? Penaliza respuestas correctas pero fuera de tema.

Cómo medir: embedding similarity + LLM-as-judge.

Dimensión 3

Completeness

¿Cubre todos los aspectos relevantes? Crítica en preguntas de múltiples partes.

Cómo medir: rúbrica humana o LLM-as-judge con criterio explícito.

Dimensión 4

Safety

¿Evita contenido prohibido (PII filtrado, sesgo, recomendación inadecuada)?

Cómo medir: clasificador específico + basado en reglas + muestreo humano.

Ignorar una dimensión = sorpresa en producción. Cubrir las 4 = base sólida.

Gold set: el activo más subestimado

El gold set es el conjunto de pares (pregunta, respuesta esperada) curado por humanos. Es lo que separa la evaluación real de las "suposiciones".

Cómo construirlo

Tamaño mínimo: 50–100 casos para piloto, 300–500 para producción, 1.000+ para sistemas críticos.
Diversidad: cubrir todos los intents principales, casos borde conocidos, ambigüedades.
Respuesta esperada va más allá del contenido: formato deseado, citas, tono.
Anotación multi-revisor: dos humanos por caso, con un tercero arbitrando divergencias.
Versionado: cada versión tiene hash + fecha + responsable.

Cómo mantenerlo

Cada regresión real en producción se convierte en un nuevo caso en el gold set.
Cada cambio de regla de negocio dispara la revisión de los casos afectados.
Revisión trimestral: eliminar casos obsoletos, agregar nuevos escenarios.

Sin gold set, está iterando prompts mirando 3 ejemplos en Slack. Es la diferencia entre ingeniería y adivinanza.

Cuándo evaluar

Momento	Qué ejecutar
Cambio de prompt	Gold set completo automatizado
Actualización de modelo (2.5 → 3)	Gold set + revisión humana de 100 casos
Cambio en RAG (chunking, reranker)	Gold set enfocado en retrieval
Diariamente en producción	Muestra de 50–100 conversaciones
Semanalmente	Análisis de drift, categorías con mayor caída
Mensualmente	Revisión humana profunda de 200 casos
Trimestralmente	Auditoría de sesgo, equidad por segmento

LLM-as-judge: usándolo bien

Un LLM evaluando a otro LLM tiene sesgos conocidos (favorece respuestas largas, del mismo modelo, con tono asertivo). Para usarlo bien:

Modelo diferente al evaluado siempre que sea posible.
Rúbrica explícita: criterios numerados, no "¿es bueno?".
Calibración contra humano: cada 200 casos, 20 con revisión paralela. Concordancia < 80% → revisar rúbrica.
Múltiples rondas: 3 evaluaciones con seeds diferentes, agregación por mediana.
Citar el fragmento: el juez debe explicar por qué puntuó así — facilita la auditoría.

Drift: el asesino silencioso

⚠️ Drift invisible Un agente que funcionaba en enero se degrada en abril porque la distribución de preguntas cambió, el RAG se actualizó o Google lanzó un nuevo snapshot de Gemini. Sin monitoreo de drift, se entera por las quejas en el servicio al cliente.

Cómo detectarlo:

Monitor de embedding de preguntas: si el cluster cambia, alerta.
Distribución de tools llamadas: si una herramienta antes usada desaparece, investigar.
Latencia por intent: aumento repentino = cambio de comportamiento.
Tasa de fallback (el agente dice "no sé"): si sube, el RAG está perdiendo cobertura.
Quejas por canal humano: indicador retrasado pero confiable.

Métricas de producto (no solo de modelo)

Evaluar un agente sin métricas de producto es optimizar para lo incorrecto:

Tasa de resolución autónoma: % de conversaciones terminadas sin humano.
CSAT post-conversación: pregunta única al final.
Tiempo de resolución: comparado con la línea base humana.
Tasa de retorno: el usuario volvió en 24h con la misma duda = la respuesta inicial no fue suficiente.
Costo por conversación: tokens × precio + tools.
Conversión (en uso comercial): solicitó cotización, agendó, compró.

Stack en proyectos Autenticare

Vertex AI Evaluation: nativo, conectado directamente al agente en Gemini Enterprise.
BigQuery: almacena conversaciones, scores, metadata. SQL ad-hoc.
Looker: dashboards de calidad y drift.
Cloud Run jobs: ejecutan el gold set diariamente, alertan regresiones.
PagerDuty: alerta humana cuando una métrica clave cae por debajo del umbral.
Notebook semanal: el consultor hace un deep dive en 50 conversaciones reales y produce un informe.

Checklist mínimo antes de ir a producción

Gold set > 100 casos, 2+ revisores

Diversidad de intents, casos borde, ambigüedades.

Pipeline automatizado en cada deploy

Gold set ejecutado antes de cualquier promoción a producción.

4 métricas con umbral

Faithfulness, relevance, completeness, safety. Por debajo del mínimo → bloquea el deploy.

Dashboard en vivo + alerta

Regresión > 5% en cualquier métrica dispara PagerDuty.

Revisión humana semanal + responsable con poder de pausa

50–100 conversaciones muestreadas y persona nombrada con autoridad para detener el agente.

Si falta cualquier ítem, el agente no está listo.

Auditoría de calidad

¿Su agente ya está en producción sin evaluación formal?

Autenticare hace una auditoría en 2 semanas: construye el gold set inicial, configura 4 métricas, instala dashboard de drift. Entregamos el loop funcionando, no solo el informe.

Solicitar auditoría → RAG con Vertex AI Search