๐ Dashboards e monitoramento
Cada provider tem painel proprio. OpenRouter unifica os 3. Sem visibilidade, voce so descobre problema na fatura.
OpenRouter
Painel unificado. Custo por modelo, por chave. Limite de gasto diario.
Anthropic Console
Detalhado para Opus. Cache hit rate, breakdown por workspace.
OpenAI Usage
Detalhado para GPT-5.5. Alertas de gasto, quotas por chave.
๐ KPIs do setup multi-modelo
3 metricas principais te dizem se a estrategia esta funcionando.
- 1. Custo medio por feature โ total / numero de features. Tendencia de queda = setup amadurecendo.
- 2. % PRs aprovados na primeira revisao โ meta: 70%+. Abaixo: ajustar plano ou prompts.
- 3. Distribuicao real de tokens โ comparar com 70/20/10 alvo. Desvio > 15% = recalibrar.
๐จ Quando o custo esta fora do esperado
4 causas comuns. Diagnostico rapido: olhe a metrica โ identifique a causa โ ajuste em 5 min.
- 1. Modelo padrao errado (ficou Opus por engano) โ trocar default no Cursor
- 2. Prompts longos sem cache โ estruturar prefixo estavel
- 3. Muito retrabalho (loops em DeepSeek) โ revisar gatilhos para escalar
- 4. Opus virou padrao por engano em algum projeto โ audit settings.json
๐ฌ A/B testing entre modelos
A cada 1-2 semanas, pegue uma tarefa de cada categoria e rode em 2 modelos diferentes. Modelos evoluem mensalmente โ A/B test descobre quando o roteamento atual ficou desatualizado.
โ๏ธ Procedimento
- Pegue 3 tarefas reais que fez nessa semana
- Refaca em 2 modelos diferentes (mesmo prompt)
- Compare: tempo, custo, qualidade subjetiva (1-10)
- Se outro modelo venceu em qualidade x custo: ajustar roteamento
- Documentar no DECISIONS.md para virar regra
๐ Reduzindo tokens sem perder qualidade
5 tecnicas comprovadas. Cada uma corta 20-50%. Combinadas, divisao por 4-5 da fatura.
- Prompt cache โ prefixo estavel cacheado, 90% off em input repetido
- Context seletivo โ so arquivos relevantes, nao o repo inteiro
- Output curto โ peca "max 500 tokens" quando aplicavel
- Reuso de plano โ referenciar PLAN.md em vez de redescrever em cada turn
- Batch API โ em jobs nao-realtime (geracao de docs em escala) โ 50% off
๐ Revisao mensal: ajustar a estrategia
Toda primeira sexta do mes, 15 min: olhe metricas, compare com mes anterior, ajuste 1 prompt ou 1 regra. Setups apodrecem sem manutencao.
๐ Pauta de 15 minutos
- โข Custo total vs mes anterior (alerta se >20% maior)
- โข Distribuicao real vs 70/20/10 alvo
- โข % PRs aprovados na primeira revisao
- โข Top 3 tarefas mais caras (oportunidade de otimizacao)
- โข 1 ajuste para implementar nesse mes (prompt, regra ou cheat sheet)
๐ Resumo do Modulo
Proxima Trilha:
Trilha 3 โ ๐ Projetos na pratica