Evaluación de agentes de IA en producción: cómo medir calidad sin engañarse
Sin evaluación continua, los agentes de IA se degradan y nadie se da cuenta — hasta que el cliente se queja. El framework de evaluación que usamos en todos los proyectos Gemini Enterprise: gold set, métricas, monitoreo y drift.
Fabiano Brito
CEO & Founder
En el software tradicional, "pasó los tests" es binario. En IA, es una distribución: el 92% de los casos pasa, el 8% se degrada, y el degradado de hoy puede ser el catastrófico de mañana. Por eso, la evaluación no es una fase — es un loop continuo.
4 dimensiones de evaluación
Faithfulness
¿La respuesta está fundamentada en los datos recuperados? Es la métrica anti-alucinación.
Cómo medir: LLM-as-judge (Gemini Pro evaluando respuesta vs contexto) + muestreo humano semanal.
Relevance
¿La respuesta aborda la pregunta? Penaliza respuestas correctas pero fuera de tema.
Cómo medir: embedding similarity + LLM-as-judge.
Completeness
¿Cubre todos los aspectos relevantes? Crítica en preguntas de múltiples partes.
Cómo medir: rúbrica humana o LLM-as-judge con criterio explícito.
Safety
¿Evita contenido prohibido (PII filtrado, sesgo, recomendación inadecuada)?
Cómo medir: clasificador específico + basado en reglas + muestreo humano.
Ignorar una dimensión = sorpresa en producción. Cubrir las 4 = base sólida.
Gold set: el activo más subestimado
El gold set es el conjunto de pares (pregunta, respuesta esperada) curado por humanos. Es lo que separa la evaluación real de las "suposiciones".
Cómo construirlo
- Tamaño mínimo: 50–100 casos para piloto, 300–500 para producción, 1.000+ para sistemas críticos.
- Diversidad: cubrir todos los intents principales, casos borde conocidos, ambigüedades.
- Respuesta esperada va más allá del contenido: formato deseado, citas, tono.
- Anotación multi-revisor: dos humanos por caso, con un tercero arbitrando divergencias.
- Versionado: cada versión tiene hash + fecha + responsable.
Cómo mantenerlo
- Cada regresión real en producción se convierte en un nuevo caso en el gold set.
- Cada cambio de regla de negocio dispara la revisión de los casos afectados.
- Revisión trimestral: eliminar casos obsoletos, agregar nuevos escenarios.
Sin gold set, está iterando prompts mirando 3 ejemplos en Slack. Es la diferencia entre ingeniería y adivinanza.
Cuándo evaluar
| Momento | Qué ejecutar |
|---|---|
| Cambio de prompt | Gold set completo automatizado |
| Actualización de modelo (2.5 → 3) | Gold set + revisión humana de 100 casos |
| Cambio en RAG (chunking, reranker) | Gold set enfocado en retrieval |
| Diariamente en producción | Muestra de 50–100 conversaciones |
| Semanalmente | Análisis de drift, categorías con mayor caída |
| Mensualmente | Revisión humana profunda de 200 casos |
| Trimestralmente | Auditoría de sesgo, equidad por segmento |
LLM-as-judge: usándolo bien
Un LLM evaluando a otro LLM tiene sesgos conocidos (favorece respuestas largas, del mismo modelo, con tono asertivo). Para usarlo bien:
- Modelo diferente al evaluado siempre que sea posible.
- Rúbrica explícita: criterios numerados, no "¿es bueno?".
- Calibración contra humano: cada 200 casos, 20 con revisión paralela. Concordancia < 80% → revisar rúbrica.
- Múltiples rondas: 3 evaluaciones con seeds diferentes, agregación por mediana.
- Citar el fragmento: el juez debe explicar por qué puntuó así — facilita la auditoría.
Drift: el asesino silencioso
Cómo detectarlo:
- Monitor de embedding de preguntas: si el cluster cambia, alerta.
- Distribución de tools llamadas: si una herramienta antes usada desaparece, investigar.
- Latencia por intent: aumento repentino = cambio de comportamiento.
- Tasa de fallback (el agente dice "no sé"): si sube, el RAG está perdiendo cobertura.
- Quejas por canal humano: indicador retrasado pero confiable.
Métricas de producto (no solo de modelo)
Evaluar un agente sin métricas de producto es optimizar para lo incorrecto:
- Tasa de resolución autónoma: % de conversaciones terminadas sin humano.
- CSAT post-conversación: pregunta única al final.
- Tiempo de resolución: comparado con la línea base humana.
- Tasa de retorno: el usuario volvió en 24h con la misma duda = la respuesta inicial no fue suficiente.
- Costo por conversación: tokens × precio + tools.
- Conversión (en uso comercial): solicitó cotización, agendó, compró.
Stack en proyectos Autenticare
- Vertex AI Evaluation: nativo, conectado directamente al agente en Gemini Enterprise.
- BigQuery: almacena conversaciones, scores, metadata. SQL ad-hoc.
- Looker: dashboards de calidad y drift.
- Cloud Run jobs: ejecutan el gold set diariamente, alertan regresiones.
- PagerDuty: alerta humana cuando una métrica clave cae por debajo del umbral.
- Notebook semanal: el consultor hace un deep dive en 50 conversaciones reales y produce un informe.
Checklist mínimo antes de ir a producción
Diversidad de intents, casos borde, ambigüedades.
Gold set ejecutado antes de cualquier promoción a producción.
Faithfulness, relevance, completeness, safety. Por debajo del mínimo → bloquea el deploy.
Regresión > 5% en cualquier métrica dispara PagerDuty.
50–100 conversaciones muestreadas y persona nombrada con autoridad para detener el agente.
Si falta cualquier ítem, el agente no está listo.
¿Su agente ya está en producción sin evaluación formal?
Autenticare hace una auditoría en 2 semanas: construye el gold set inicial, configura 4 métricas, instala dashboard de drift. Entregamos el loop funcionando, no solo el informe.
