Avaliação de agentes IA em produção: como medir qualidade sem se enganar
Sem avaliação contínua, agente IA degrada e ninguém percebe — até o cliente reclamar. Framework de avaliação que usamos em todos os projetos Gemini Enterprise: gold set, métricas, monitoramento e drift.
Fabiano Brito
CEO & Founder
Avaliação de agentes de IA em produção é um loop contínuo de medição de qualidade estruturado em métricas formais e monitoramento constante. Sem essa validação, as empresas operam no escuro com sistemas não determinísticos que driftam, regridem e quebram silenciosamente em edge cases.
Em software tradicional, "passou nos testes" é binário. Em IA, é distribuição: 92% dos casos passam, 8% degradam, e o degradado de hoje pode ser o catastrófico de amanhã. Por isso, avaliação não é fase — é loop contínuo, exigindo avaliação em todas as etapas.
4 dimensões de avaliação
Faithfulness
A resposta é fundamentada nos dados recuperados? É a métrica anti-alucinação.
Como medir: LLM-as-judge (Gemini Pro avaliando resposta vs contexto com o serviço de avaliação do Vertex AI) + amostragem humana semanal.
Relevance
A resposta endereça a pergunta? Penaliza resposta correta mas off-topic.
Como medir: embedding similarity + LLM-as-judge.
Completeness
Cobre todos os aspectos relevantes? Crítica em perguntas multi-parte.
Como medir: rubrica humana ou LLM-as-judge com critério explícito.
Safety
Evita conteúdo proibido (PII vazado, viés, recomendação inadequada)?
Como medir: classificador específico + rule-based + amostragem humana.
Ignorar uma dimensão = surpresa em produção. Cobrir as 4 = base sólida.
Gold set: o ativo mais subestimado
Gold set é o conjunto de pares (pergunta, resposta esperada) curado por humano. É o que separa avaliação real de "achismo".
Como construir
- Tamanho mínimo: 50–100 casos para piloto, 300–500 para produção, 1.000+ para sistemas críticos.
- Diversidade: cobrir todos os intents principais, edge cases conhecidos, ambiguidades.
- Resposta esperada vai além do conteúdo: forma desejada, citações, tom.
- Anotação multi-revisor: dois humanos por caso, com terceiro arbitrando divergência.
- Versionamento: cada versão tem hash + data + responsável.
Como manter
- Toda regressão real em produção vira caso novo no gold set.
- Toda mudança de regra de negócio dispara revisão dos casos afetados.
- Revisão trimestral: remover casos obsoletos, adicionar novos cenários.
Sem gold set, você está iterando prompts olhando para 3 exemplos no Slack. É a diferença entre engenharia e adivinhação.
Quando avaliar
| Momento | O que rodar |
|---|---|
| Mudança de prompt | Gold set completo automatizado |
| Upgrade de modelo (2.5 → 3) | Gold set + revisão humana de 100 casos |
| Mudança em RAG (chunking, reranker) | Gold set focado em retrieval |
| Diariamente em produção | Amostra de 50–100 conversas |
| Semanalmente | Análise de drift, top categorias com queda |
| Mensalmente | Revisão humana profunda de 200 casos |
| Trimestralmente | Auditoria de viés, fairness por segmento |
LLM-as-judge: usando bem
LLM avaliando LLM tem viés conhecido (favorece respostas longas, do mesmo modelo, com tom assertivo). Para usar bem:
- Modelo diferente do testado sempre que possível.
- Rubrica explícita: critérios numerados, não "é boa?".
- Calibração contra humano: a cada 200 casos, 20 com revisão paralela. Concordância < 80% → revisar rubrica.
- Múltiplas rodadas: 3 avaliações com seeds diferentes, agregação por mediana.
- Cite o trecho: judge precisa explicar por que pontuou assim — facilita auditoria.
Drift: o assassino silencioso
Como detectar:
- Monitor de embedding das perguntas: se o cluster muda, alerta.
- Distribuição de tools chamadas: se uma tool antes usada some, investigar.
- Latência por intent: aumento súbito = mudança de comportamento.
- Taxa de fallback (agente diz "não sei"): se sobe, RAG está perdendo cobertura.
- Reclamação por canal humano: indicador atrasado mas confiável.
Métricas de produto (não só de modelo)
Avaliar agente sem métrica de produto é otimizar para o errado:
- Taxa de resolução autônoma: % de conversas terminadas sem humano.
- CSAT pós-conversa: pergunta única ao final.
- Tempo de resolução: comparado ao baseline humano.
- Taxa de retorno: usuário voltou em 24h com a mesma dúvida = resposta inicial não bastou.
- Custo por conversa: tokens × preço + tools.
- Conversão (em uso comercial): pediu cotação, agendou, comprou.
Stack em projetos Autenticare
- Vertex AI Evaluation: nativo, plugado direto no agente em Gemini Enterprise.
- BigQuery: armazena conversas, scores, metadata. SQL ad-hoc.
- Looker: dashboards de qualidade e drift.
- Cloud Run jobs: rodam gold set diariamente, alertam regressão.
- PagerDuty: alerta humano quando métrica chave cai abaixo do threshold.
- Notebook semanal: consultor faz deep dive em 50 conversas reais e produz relatório.
Checklist mínimo antes de ir a produção
Diversidade de intents, edge cases, ambiguidades.
Gold set rodado antes de qualquer promoção para produção.
Faithfulness, relevance, completeness, safety. Abaixo do mínimo → bloqueia deploy.
Regressão > 5% em qualquer métrica dispara PagerDuty.
50–100 conversas amostradas e pessoa nomeada com autoridade para parar o agente.
Se faltar qualquer item, o agente não está pronto.
Perguntas Frequentes sobre Avaliação de agentes IA em produção: como medir qualidade sem se enganar
Por que a avaliação contínua é importante para agentes de IA em produção? Agentes de IA não são determinísticos e podem apresentar drift, regressão e falhas silenciosas. A avaliação contínua garante que a qualidade seja monitorada e mantida ao longo do tempo.
Quais são as quatro dimensões principais para avaliar agentes de IA? As quatro dimensões são: Faithfulness (se a resposta é fundamentada nos dados), Relevance (se a resposta endereça a pergunta), Completeness (se cobre todos os aspects relevantes) e Safety (se evita conteúdo proibido).
O que é um ‘gold set’ e por que ele é importante? Um ‘gold set’ é um conjunto de pares (pergunta, resposta esperada) curado por humanos. Ele é essencial para uma avaliação precisa e objetiva dos agentes de IA.
Com que frequência devo executar avaliações em produção? Recomenda-se executar avaliações diariamente com amostras de conversas, semanalmente para análise de drift, mensalmente com revisão humana e trimestralmente para auditoria de viés.
Seu agente já está em produção sem avaliação formal?
A Autenticare faz auditoria em 2 semanas: constrói gold set inicial, configura 4 métricas, instala dashboard de drift. Entregamos o loop rodando, não só o relatório. Podemos auxiliar na implementação através da nossa Fábrica de Agentes.
