6.1
GA
~70 min · Avançado · Hands-on
📊 Evals: golden sets, LLM-as-judge e tracing
A disciplina que costura T1-T5: golden sets, métricas, LLM-as-judge (e seus vieses), tracing estruturado, prompt injection sandboxed.
1 🎯 Golden set: o que entra, o que não ▾
O que é: Conjunto fixo de exemplos com gabarito. Cobertura: casos típicos + edge cases + adversariais. Tamanho: 30-200.
Por que aprender: Sem golden set, você não tem como medir se o sistema melhorou ou regrediu. Curadoria é trabalho real.
Conceitos-chave: Golden set, edge cases, adversarial examples, distribution coverage, frozen set.
2 📐 Métricas por tipo de tarefa ▾
O que é: Classificação: accuracy, F1. Geração: BLEU, ROUGE. RAG: groundedness, citation accuracy. Agente: task completion.
Por que aprender: Métrica errada esconde regressão. Para cada tarefa, escolher 1 primária + 1-2 secundárias.
Conceitos-chave: Primary metric, secondary metrics, distribution-level vs example-level.
3 ⚖️ LLM-as-judge: poderoso e enviesado ▾
O que é: Usar um modelo para julgar saída de outro. Útil para qualidade subjetiva (groundedness, helpfulness).
Por que aprender: Permite eval em escala. Mas tem vieses (favorece outputs longos, bias de posição em comparação) — calibrar com humanos.
Conceitos-chave: LLM judge, calibration, Cohen's kappa, position bias, length bias.
4 🔍 Tracing estruturado: cada step visível ▾
O que é: Cada chamada vira span: timestamp, modelo, prompt, resposta, custo, latência. Hierarquia preserva sub-chamadas (RAG, agente).
Por que aprender: Sem tracing, debug em produção é impossível. Padrão da indústria amadurece (OTel para LLMs).
Conceitos-chave: Trace, span, OpenTelemetry, semconv, Phoenix (Arize).
5 🛡️ Prompt injection sandboxed ▾
O que é: Padrões para detectar e neutralizar: spotlight (Anthropic), input/output guard, allow-list de tools, separação de escopo.
Por que aprender: Em produção, payloads vão tentar exfiltrar dados ou abusar tools. Defesa em camadas é única abordagem séria.
Conceitos-chave: Spotlight, input guard, output guard, tool allow-list, escape boundaries.
6 💸 Custo é uma métrica de produto ▾
O que é: Tracking de tokens in/out, modelo, hit de cache por request. Dashboard com custo por feature/usuário.
Por que aprender: Sem tracking, custo escala silenciosamente. Surpresa de fatura mensal é falha de instrumentação.
Conceitos-chave: Cost per request, cost per user, cache hit dashboard, budget alerts.