Modulo 2.6 - Metricas e otimizacao

📈 Dashboards e monitoramento

Cada provider tem painel proprio. OpenRouter unifica os 3. Sem visibilidade, voce so descobre problema na fatura.

OpenRouter

Painel unificado. Custo por modelo, por chave. Limite de gasto diario.

Anthropic Console

Detalhado para Opus. Cache hit rate, breakdown por workspace.

OpenAI Usage

Detalhado para GPT-5.5. Alertas de gasto, quotas por chave.

📊 KPIs do setup multi-modelo

3 metricas principais te dizem se a estrategia esta funcionando.

1. Custo medio por feature — total / numero de features. Tendencia de queda = setup amadurecendo.
2. % PRs aprovados na primeira revisao — meta: 70%+. Abaixo: ajustar plano ou prompts.
3. Distribuicao real de tokens — comparar com 70/20/10 alvo. Desvio > 15% = recalibrar.

🚨 Quando o custo esta fora do esperado

4 causas comuns. Diagnostico rapido: olhe a metrica → identifique a causa → ajuste em 5 min.

1. Modelo padrao errado (ficou Opus por engano) → trocar default no Cursor
2. Prompts longos sem cache → estruturar prefixo estavel
3. Muito retrabalho (loops em DeepSeek) → revisar gatilhos para escalar
4. Opus virou padrao por engano em algum projeto → audit settings.json

🔬 A/B testing entre modelos

A cada 1-2 semanas, pegue uma tarefa de cada categoria e rode em 2 modelos diferentes. Modelos evoluem mensalmente — A/B test descobre quando o roteamento atual ficou desatualizado.

⚖️ Procedimento

Pegue 3 tarefas reais que fez nessa semana
Refaca em 2 modelos diferentes (mesmo prompt)
Compare: tempo, custo, qualidade subjetiva (1-10)
Se outro modelo venceu em qualidade x custo: ajustar roteamento
Documentar no DECISIONS.md para virar regra

📉 Reduzindo tokens sem perder qualidade

5 tecnicas comprovadas. Cada uma corta 20-50%. Combinadas, divisao por 4-5 da fatura.

Prompt cache — prefixo estavel cacheado, 90% off em input repetido
Context seletivo — so arquivos relevantes, nao o repo inteiro
Output curto — peca "max 500 tokens" quando aplicavel
Reuso de plano — referenciar PLAN.md em vez de redescrever em cada turn
Batch API — em jobs nao-realtime (geracao de docs em escala) — 50% off

📅 Revisao mensal: ajustar a estrategia

Toda primeira sexta do mes, 15 min: olhe metricas, compare com mes anterior, ajuste 1 prompt ou 1 regra. Setups apodrecem sem manutencao.

📋 Pauta de 15 minutos

• Custo total vs mes anterior (alerta se >20% maior)
• Distribuicao real vs 70/20/10 alvo
• % PRs aprovados na primeira revisao
• Top 3 tarefas mais caras (oportunidade de otimizacao)
• 1 ajuste para implementar nesse mes (prompt, regra ou cheat sheet)

📌 Resumo do Modulo

✓

Dashboards: OpenRouter unificado + nativos para detalhe

✓

3 KPIs: custo/feature, % aprovado, distribuicao real

✓

4 causas de custo alto: default errado, sem cache, retrabalho, Opus por engano

✓

A/B test mensal: modelos evoluem, recalibre roteamento

✓

5 tecnicas de economia: cache, contexto seletivo, output curto, reuso, batch

✓

Ritual mensal de 15 min: previne degradacao silenciosa

Proxima Trilha:

Trilha 3 — 🚀 Projetos na pratica

← Modulo 2.5 Trilha 3: Projetos →