Inicio/Trilha 2/Modulo 2.5
MODULO 2.5

🧪 Evals, traces e depuracao

Este modulo troca opiniao por evidencia: definir casos de teste, medir qualidade, ler traces e proteger regressao entre versoes.

6
Topicos
45
Minutos
Core
Nivel
QA
Tipo
1

🧾 Casos de teste

Avaliar agente exige exemplos concretos de sucesso, falha esperada e situacoes de borda.

Conceito principal

Bom eval set representa comportamento real do sistema, nao apenas demos bonitas.

Dica pratica

Comece com 10 a 20 casos pequenos e criterios objetivos antes de escalar.

2

🧮 Graders e criterios

Nem tudo precisa de grader complexo, mas tudo precisa de criterio verificavel.

Bom criterio

Checar formato, campos obrigatorios, cobertura minima e aderencia ao objetivo.

Evitar

Usar avaliacao vaga como “parece bom” ou “soou inteligente”.

3

🕵️ Trace analysis

Trace mostra o caminho da execucao: contexto, chamadas de tools, falhas e decisoes intermediarias.

Criterio tecnico

Leia traces para localizar onde a qualidade caiu, nao apenas para confirmar sucesso.

Erro comum

Corrigir prompt final quando o problema real esta na entrada, tool ou schema.

4

🔁 Regressao entre versoes

Toda melhoria local pode quebrar um comportamento antigo. Regressao evita trocar um bug por outro.

Conceito principal

Comparar versoes por eval e trace da mais seguranca do que confiar em uma demo manual.

Alerta

Sem baseline, qualquer mudanca vira opiniao e memoria de curto prazo da equipe.

5

🎯 Tuning sem quebrar o que funciona

Ajustar sistema agentic e um trabalho incremental: uma mudanca por vez, medicao clara e rollback facil.

Boa pratica

Isolar alteracao em prompt, tool, contexto ou orchestration e medir impacto separadamente.

Mau habito

Mudar tudo ao mesmo tempo e depois nao saber o que realmente melhorou.

6

🧪 Laboratorio de eval

Fechamento do modulo com uma suite minima de testes, um grader simples e leitura de traces para justificar correcao.

Exercicio

Montar um conjunto de casos, executar duas versoes do fluxo e comparar os resultados.

Entregavel

Suite minima de eval com criterios e uma analise de trace que explique as diferencas.

✅ Resumo final

✓ Aprendeu a montar casos de teste representativos.

✓ Definiu criterios e graders simples.

✓ Leu traces para depurar causa raiz.

✓ Entendeu regressao entre versoes.

✓ Saiu com uma base concreta de qualidade para sistemas agentic.