🧪 Evals, traces e depuracao
Este modulo troca opiniao por evidencia: definir casos de teste, medir qualidade, ler traces e proteger regressao entre versoes.
🧾 Casos de teste
Avaliar agente exige exemplos concretos de sucesso, falha esperada e situacoes de borda.
Conceito principal
Bom eval set representa comportamento real do sistema, nao apenas demos bonitas.
Dica pratica
Comece com 10 a 20 casos pequenos e criterios objetivos antes de escalar.
🧮 Graders e criterios
Nem tudo precisa de grader complexo, mas tudo precisa de criterio verificavel.
Bom criterio
Checar formato, campos obrigatorios, cobertura minima e aderencia ao objetivo.
Evitar
Usar avaliacao vaga como “parece bom” ou “soou inteligente”.
🕵️ Trace analysis
Trace mostra o caminho da execucao: contexto, chamadas de tools, falhas e decisoes intermediarias.
Criterio tecnico
Leia traces para localizar onde a qualidade caiu, nao apenas para confirmar sucesso.
Erro comum
Corrigir prompt final quando o problema real esta na entrada, tool ou schema.
🔁 Regressao entre versoes
Toda melhoria local pode quebrar um comportamento antigo. Regressao evita trocar um bug por outro.
Conceito principal
Comparar versoes por eval e trace da mais seguranca do que confiar em uma demo manual.
Alerta
Sem baseline, qualquer mudanca vira opiniao e memoria de curto prazo da equipe.
🎯 Tuning sem quebrar o que funciona
Ajustar sistema agentic e um trabalho incremental: uma mudanca por vez, medicao clara e rollback facil.
Boa pratica
Isolar alteracao em prompt, tool, contexto ou orchestration e medir impacto separadamente.
Mau habito
Mudar tudo ao mesmo tempo e depois nao saber o que realmente melhorou.
🧪 Laboratorio de eval
Fechamento do modulo com uma suite minima de testes, um grader simples e leitura de traces para justificar correcao.
Exercicio
Montar um conjunto de casos, executar duas versoes do fluxo e comparar os resultados.
Entregavel
Suite minima de eval com criterios e uma analise de trace que explique as diferencas.
✅ Resumo final
✓ Aprendeu a montar casos de teste representativos.
✓ Definiu criterios e graders simples.
✓ Leu traces para depurar causa raiz.
✓ Entendeu regressao entre versoes.
✓ Saiu com uma base concreta de qualidade para sistemas agentic.