T6 — Avaliação e Produção

🎯 Objetivo desta trilha

Levar o sistema LLM para produção com gates objetivos e rollback rápido.

🔍 O que você vai explorar

▸Golden sets, métricas por tarefa, LLM-as-judge calibrado (κ ≥0.6).
▸Tracing estruturado em OTel + custo como métrica de produto.
▸Prompt injection sandboxed (defesa em camadas).
▸A/B com significância estatística; canário 5%→25%→100%.
▸Kill switch e rollback hot <1 min.
▸Eval contínuo em produção (sampling 1-5%).

👤 Para quem

Pré-requisito para o projeto final P5. Disciplina que costura T1-T5.

📚 Módulos da trilha

6.1 GA

~70 min · Avançado · Hands-on

📊 Evals: golden sets, LLM-as-judge e tracing

A disciplina que costura T1-T5: golden sets, métricas, LLM-as-judge (e seus vieses), tracing estruturado, prompt injection sandboxed.

1 🎯 Golden set: o que entra, o que não— Curadoria deliberada ▾

O que é: Conjunto fixo de exemplos com gabarito. Cobertura: casos típicos + edge cases + adversariais. Tamanho: 30-200.

Por que aprender: Sem golden set, você não tem como medir se o sistema melhorou ou regrediu. Curadoria é trabalho real.

Conceitos-chave: Golden set, edge cases, adversarial examples, distribution coverage, frozen set.

2 📐 Métricas por tipo de tarefa— Não existe métrica universal ▾

O que é: Classificação: accuracy, F1. Geração: BLEU, ROUGE. RAG: groundedness, citation accuracy. Agente: task completion.

Por que aprender: Métrica errada esconde regressão. Para cada tarefa, escolher 1 primária + 1-2 secundárias.

Conceitos-chave: Primary metric, secondary metrics, distribution-level vs example-level.

3 ⚖️ LLM-as-judge: poderoso e enviesado— Calibração obrigatória ▾

O que é: Usar um modelo para julgar saída de outro. Útil para qualidade subjetiva (groundedness, helpfulness).

Por que aprender: Permite eval em escala. Mas tem vieses (favorece outputs longos, bias de posição em comparação) — calibrar com humanos.

Conceitos-chave: LLM judge, calibration, Cohen's kappa, position bias, length bias.

4 🔍 Tracing estruturado: cada step visível— OpenTelemetry, Honeycomb, Phoenix ▾

O que é: Cada chamada vira span: timestamp, modelo, prompt, resposta, custo, latência. Hierarquia preserva sub-chamadas (RAG, agente).

Por que aprender: Sem tracing, debug em produção é impossível. Padrão da indústria amadurece (OTel para LLMs).

Conceitos-chave: Trace, span, OpenTelemetry, semconv, Phoenix (Arize).

5 🛡️ Prompt injection sandboxed— Defesa em camadas ▾

O que é: Padrões para detectar e neutralizar: spotlight (Anthropic), input/output guard, allow-list de tools, separação de escopo.

Por que aprender: Em produção, payloads vão tentar exfiltrar dados ou abusar tools. Defesa em camadas é única abordagem séria.

Conceitos-chave: Spotlight, input guard, output guard, tool allow-list, escape boundaries.

6 💸 Custo é uma métrica de produto— Tracker em produção ▾

O que é: Tracking de tokens in/out, modelo, hit de cache por request. Dashboard com custo por feature/usuário.

Por que aprender: Sem tracking, custo escala silenciosamente. Surpresa de fatura mensal é falha de instrumentação.

Conceitos-chave: Cost per request, cost per user, cache hit dashboard, budget alerts.

Ver Completo →

6.2 beta

~65 min · Avançado · Avançado

🚀 Operacionalização avançada: A/B, canários, rollback (beta)

Levar para produção: A/B em prompt, canários por modelo, rollback, observabilidade contínua. O que se aprende rodando, não no laboratório.

1 🆎 A/B em prompt: variant + métrica primária— Decisão por dado, não opinião ▾

O que é: Roteia % do tráfego para variant. Mede métrica primária (groundedness, satisfação) com significância estatística.

Por que aprender: Mudanças em prompt são frequentes; A/B distingue 'achei que melhorou' de 'melhorou medido'.

Conceitos-chave: A/B test, variant routing, statistical significance, sample size.

2 🐤 Canário: rollout incremental— 5% → 25% → 100% ▾

O que é: Liberar mudança para 5% do tráfego, observar métricas + custo + erro. Subir gradualmente se OK.

Por que aprender: Mudança de modelo (de Claude 4.5 para 4.6) pode quebrar 5% dos casos. Canário pega antes do fan-out.

Conceitos-chave: Canary release, progressive rollout, blast radius, kill switch.

3 ↩️ Rollback rápido: pré-requisito de canário— 1 click ▾

O que é: Botão 'voltar' que reverte para versão anterior em segundos. Versão anterior precisa estar 'quente' (warm cache).

Por que aprender: Sem rollback, canário é teatro. Quando dá problema, você precisa MUITO de voltar rápido.

Conceitos-chave: Hot rollback, warm standby, version pinning, traffic shift.

4 📈 Observabilidade contínua: o que monitorar— Métricas + alertas ▾

O que é: Dashboards: latência p50/p95, erro rate, custo, hit de cache, qualidade (LLM-judge contínuo). Alertas em desvios.

Por que aprender: Em produção, problemas se manifestam por números antes de virarem reclamação. Instrumentação detecta cedo.

Conceitos-chave: SLO, SLI, alerting, dashboard, distribution shift detection.

5 🛑 Kill switch: parar feature instantaneamente— Botão de emergência ▾

O que é: Flag de configuração que desabilita a feature LLM. Tráfego volta para fallback estático ou erro educativo.

Por que aprender: Modelo do provedor pode degradar do nada. Kill switch dá tempo de investigar sem disaster.

Conceitos-chave: Feature flag, kill switch, fallback, graceful degradation.

6 🔁 Eval contínuo em produção— Não só pré-deploy ▾

O que é: % pequena do tráfego é avaliada em tempo real (LLM-judge automático). Detecta drift sem esperar reclamação.

Por que aprender: Modelos provider mudam; corpus muda; usuários mudam. Eval só pré-deploy envelhece.

Conceitos-chave: Production eval, live judge, drift detection, sampling rate.

Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T6.md.

Bibliografia T6 →

🗺️ Outras trilhas

🧠 Fundamentos de Contexto

✉️ Engenharia da Mensagem

📚 RAG e Recuperação

🛠️ Tools, Agentes e Multi-Agente

💾 Memória e Compressão