Avaliação de agentes IA em produção: como medir qualidade sem se enganar
Sem avaliação contínua, agente IA degrada e ninguém percebe — até o cliente reclamar. Framework de avaliação que usamos em todos os projetos Gemini Enterprise: gold set, métricas, monitoramento e drift.
Fabiano Brito
CEO & Founder
Em software tradicional, "passou nos testes" é binário. Em IA, é distribuição: 92% dos casos passam, 8% degradam, e o degradado de hoje pode ser o catastrófico de amanhã. Por isso, avaliação não é fase — é loop contínuo.
4 dimensões de avaliação
Faithfulness
A resposta é fundamentada nos dados recuperados? É a métrica anti-alucinação.
Como medir: LLM-as-judge (Gemini Pro avaliando resposta vs contexto) + amostragem humana semanal.
Relevance
A resposta endereça a pergunta? Penaliza resposta correta mas off-topic.
Como medir: embedding similarity + LLM-as-judge.
Completeness
Cobre todos os aspectos relevantes? Crítica em perguntas multi-parte.
Como medir: rubrica humana ou LLM-as-judge com critério explícito.
Safety
Evita conteúdo proibido (PII vazado, viés, recomendação inadequada)?
Como medir: classificador específico + rule-based + amostragem humana.
Ignorar uma dimensão = surpresa em produção. Cobrir as 4 = base sólida.
Gold set: o ativo mais subestimado
Gold set é o conjunto de pares (pergunta, resposta esperada) curado por humano. É o que separa avaliação real de "achismo".
Como construir
- Tamanho mínimo: 50–100 casos para piloto, 300–500 para produção, 1.000+ para sistemas críticos.
- Diversidade: cobrir todos os intents principais, edge cases conhecidos, ambiguidades.
- Resposta esperada vai além do conteúdo: forma desejada, citações, tom.
- Anotação multi-revisor: dois humanos por caso, com terceiro arbitrando divergência.
- Versionamento: cada versão tem hash + data + responsável.
Como manter
- Toda regressão real em produção vira caso novo no gold set.
- Toda mudança de regra de negócio dispara revisão dos casos afetados.
- Revisão trimestral: remover casos obsoletos, adicionar novos cenários.
Sem gold set, você está iterando prompts olhando para 3 exemplos no Slack. É a diferença entre engenharia e adivinhação.
Quando avaliar
| Momento | O que rodar |
|---|---|
| Mudança de prompt | Gold set completo automatizado |
| Upgrade de modelo (2.5 → 3) | Gold set + revisão humana de 100 casos |
| Mudança em RAG (chunking, reranker) | Gold set focado em retrieval |
| Diariamente em produção | Amostra de 50–100 conversas |
| Semanalmente | Análise de drift, top categorias com queda |
| Mensalmente | Revisão humana profunda de 200 casos |
| Trimestralmente | Auditoria de viés, fairness por segmento |
LLM-as-judge: usando bem
LLM avaliando LLM tem viés conhecido (favorece respostas longas, do mesmo modelo, com tom assertivo). Para usar bem:
- Modelo diferente do testado sempre que possível.
- Rubrica explícita: critérios numerados, não "é boa?".
- Calibração contra humano: a cada 200 casos, 20 com revisão paralela. Concordância < 80% → revisar rubrica.
- Múltiplas rodadas: 3 avaliações com seeds diferentes, agregação por mediana.
- Cite o trecho: judge precisa explicar por que pontuou assim — facilita auditoria.
Drift: o assassino silencioso
Como detectar:
- Monitor de embedding das perguntas: se o cluster muda, alerta.
- Distribuição de tools chamadas: se uma tool antes usada some, investigar.
- Latência por intent: aumento súbito = mudança de comportamento.
- Taxa de fallback (agente diz "não sei"): se sobe, RAG está perdendo cobertura.
- Reclamação por canal humano: indicador atrasado mas confiável.
Métricas de produto (não só de modelo)
Avaliar agente sem métrica de produto é otimizar para o errado:
- Taxa de resolução autônoma: % de conversas terminadas sem humano.
- CSAT pós-conversa: pergunta única ao final.
- Tempo de resolução: comparado ao baseline humano.
- Taxa de retorno: usuário voltou em 24h com a mesma dúvida = resposta inicial não bastou.
- Custo por conversa: tokens × preço + tools.
- Conversão (em uso comercial): pediu cotação, agendou, comprou.
Stack em projetos Autenticare
- Vertex AI Evaluation: nativo, plugado direto no agente em Gemini Enterprise.
- BigQuery: armazena conversas, scores, metadata. SQL ad-hoc.
- Looker: dashboards de qualidade e drift.
- Cloud Run jobs: rodam gold set diariamente, alertam regressão.
- PagerDuty: alerta humano quando métrica chave cai abaixo do threshold.
- Notebook semanal: consultor faz deep dive em 50 conversas reais e produz relatório.
Checklist mínimo antes de ir a produção
Diversidade de intents, edge cases, ambiguidades.
Gold set rodado antes de qualquer promoção para produção.
Faithfulness, relevance, completeness, safety. Abaixo do mínimo → bloqueia deploy.
Regressão > 5% em qualquer métrica dispara PagerDuty.
50–100 conversas amostradas e pessoa nomeada com autoridade para parar o agente.
Se faltar qualquer item, o agente não está pronto.
Seu agente já está em produção sem avaliação formal?
A Autenticare faz auditoria em 2 semanas: constrói gold set inicial, configura 4 métricas, instala dashboard de drift. Entregamos o loop rodando, não só o relatório.
