Avaliação de agentes IA em produção: como medir qualidade sem se enganar

TL;DR Agentes IA não são software determinístico — eles driftam, regridem em mudança de modelo e quebram silenciosamente em edge cases. Sem evaluation formal, você opera no escuro. Framework prático: gold set, 4 métricas, monitoramento contínuo e revisão humana amostral.

Em software tradicional, "passou nos testes" é binário. Em IA, é distribuição: 92% dos casos passam, 8% degradam, e o degradado de hoje pode ser o catastrófico de amanhã. Por isso, avaliação não é fase — é loop contínuo.

4 dimensões de avaliação

Dimensão 1

Faithfulness

A resposta é fundamentada nos dados recuperados? É a métrica anti-alucinação.

Como medir: LLM-as-judge (Gemini Pro avaliando resposta vs contexto) + amostragem humana semanal.

Dimensão 2

Relevance

A resposta endereça a pergunta? Penaliza resposta correta mas off-topic.

Como medir: embedding similarity + LLM-as-judge.

Dimensão 3

Completeness

Cobre todos os aspectos relevantes? Crítica em perguntas multi-parte.

Como medir: rubrica humana ou LLM-as-judge com critério explícito.

Dimensão 4

Safety

Evita conteúdo proibido (PII vazado, viés, recomendação inadequada)?

Como medir: classificador específico + rule-based + amostragem humana.

Ignorar uma dimensão = surpresa em produção. Cobrir as 4 = base sólida.

Gold set: o ativo mais subestimado

Gold set é o conjunto de pares (pergunta, resposta esperada) curado por humano. É o que separa avaliação real de "achismo".

Como construir

Tamanho mínimo: 50–100 casos para piloto, 300–500 para produção, 1.000+ para sistemas críticos.
Diversidade: cobrir todos os intents principais, edge cases conhecidos, ambiguidades.
Resposta esperada vai além do conteúdo: forma desejada, citações, tom.
Anotação multi-revisor: dois humanos por caso, com terceiro arbitrando divergência.
Versionamento: cada versão tem hash + data + responsável.

Como manter

Toda regressão real em produção vira caso novo no gold set.
Toda mudança de regra de negócio dispara revisão dos casos afetados.
Revisão trimestral: remover casos obsoletos, adicionar novos cenários.

Sem gold set, você está iterando prompts olhando para 3 exemplos no Slack. É a diferença entre engenharia e adivinhação.

Quando avaliar

Momento	O que rodar
Mudança de prompt	Gold set completo automatizado
Upgrade de modelo (2.5 → 3)	Gold set + revisão humana de 100 casos
Mudança em RAG (chunking, reranker)	Gold set focado em retrieval
Diariamente em produção	Amostra de 50–100 conversas
Semanalmente	Análise de drift, top categorias com queda
Mensalmente	Revisão humana profunda de 200 casos
Trimestralmente	Auditoria de viés, fairness por segmento

LLM-as-judge: usando bem

LLM avaliando LLM tem viés conhecido (favorece respostas longas, do mesmo modelo, com tom assertivo). Para usar bem:

Modelo diferente do testado sempre que possível.
Rubrica explícita: critérios numerados, não "é boa?".
Calibração contra humano: a cada 200 casos, 20 com revisão paralela. Concordância < 80% → revisar rubrica.
Múltiplas rodadas: 3 avaliações com seeds diferentes, agregação por mediana.
Cite o trecho: judge precisa explicar por que pontuou assim — facilita auditoria.

Drift: o assassino silencioso

⚠️ Drift invisível Agente que funcionava em janeiro degrada em abril porque a distribuição de perguntas mudou, o RAG foi atualizado ou o Google fez snapshot novo do Gemini. Sem monitoramento de drift, você descobre pelo reclame no SAC.

Como detectar:

Monitor de embedding das perguntas: se o cluster muda, alerta.
Distribuição de tools chamadas: se uma tool antes usada some, investigar.
Latência por intent: aumento súbito = mudança de comportamento.
Taxa de fallback (agente diz "não sei"): se sobe, RAG está perdendo cobertura.
Reclamação por canal humano: indicador atrasado mas confiável.

Métricas de produto (não só de modelo)

Avaliar agente sem métrica de produto é otimizar para o errado:

Taxa de resolução autônoma: % de conversas terminadas sem humano.
CSAT pós-conversa: pergunta única ao final.
Tempo de resolução: comparado ao baseline humano.
Taxa de retorno: usuário voltou em 24h com a mesma dúvida = resposta inicial não bastou.
Custo por conversa: tokens × preço + tools.
Conversão (em uso comercial): pediu cotação, agendou, comprou.

Stack em projetos Autenticare

Vertex AI Evaluation: nativo, plugado direto no agente em Gemini Enterprise.
BigQuery: armazena conversas, scores, metadata. SQL ad-hoc.
Looker: dashboards de qualidade e drift.
Cloud Run jobs: rodam gold set diariamente, alertam regressão.
PagerDuty: alerta humano quando métrica chave cai abaixo do threshold.
Notebook semanal: consultor faz deep dive em 50 conversas reais e produz relatório.

Checklist mínimo antes de ir a produção

Gold set > 100 casos, 2+ revisores

Diversidade de intents, edge cases, ambiguidades.

Pipeline automatizado a cada deploy

Gold set rodado antes de qualquer promoção para produção.

4 métricas com threshold

Faithfulness, relevance, completeness, safety. Abaixo do mínimo → bloqueia deploy.

Dashboard vivo + alerta

Regressão > 5% em qualquer métrica dispara PagerDuty.

Revisão humana semanal + owner com poder de pausa

50–100 conversas amostradas e pessoa nomeada com autoridade para parar o agente.

Se faltar qualquer item, o agente não está pronto.

Auditoria de qualidade

Seu agente já está em produção sem avaliação formal?

A Autenticare faz auditoria em 2 semanas: constrói gold set inicial, configura 4 métricas, instala dashboard de drift. Entregamos o loop rodando, não só o relatório.

Solicitar auditoria → RAG com Vertex AI Search