π οΈ Setup do ambiente
Instalacao, autenticacao e configuracao base. Em 30 min voce esta operando os 3 modelos.
CLI oficial que roda Opus 4.7 no terminal, com acesso direto a arquivos do projeto e historico persistente.
E a melhor experiencia para tarefas longas que envolvem ler/editar muitos arquivos no projeto.
npm install, autenticacao via OAuth, comandos basicos (claude, /help, /clear).
Cursor tem dropdown nativo com modelos. Em VS Code, use Continue.dev ou Cline. Em ambos, configure os 3 modelos como atalhos.
Trocar de modelo precisa ser de 1 clique β atrito de configuracao mata adocao do setup.
Settings.json, model picker, atalho de teclado para trocar modelo.
OpenRouter agrega modelos de varios providers em uma so chave. Util para DeepSeek (que nao tem CLI nativo no terminal).
Sem ele, voce precisa de 3 contas e 3 chaves separadas. Centralizar simplifica e da metricas unificadas.
Proxy de modelos, billing unificado, fallback automatico.
Padrao: ANTHROPIC_API_KEY, OPENAI_API_KEY, OPENROUTER_API_KEY em ~/.zshrc ou .env por projeto.
Vazar chave por descuido (no git ou em log) custa dinheiro real. Setup correto desde o dia 1.
Env vars, gitignore, rotacao de chave, escopo por projeto.
No Cursor: defina DeepSeek como padrao, GPT-5.5 como "Plan", Opus como "Polish". Atalhos por papel.
Quando o modelo padrao e o barato, voce escolhe os caros conscientemente β economia automatica.
Default-cheap, atalho por papel, configuracao por workspace.
Mande "fatorial em python" para os 3 modelos. Compare resposta, tempo e custo. Confirma que tudo conecta.
Validar antes de tentar fluxo complexo evita 1h de debug por chave errada.
Smoke test, baseline de qualidade, validacao em paralelo.
π¦ Roteamento de tarefas
O fluxo plan β exec β review aplicado na pratica. Quando trocar de modelo e como reconhecer o gatilho.
1) GPT-5.5 produz plano em markdown. 2) Opus revisa UX/produto. 3) DeepSeek implementa. 4) GPT-5.5 ou Opus revisa o diff.
Memorize esse ciclo β e o "padrao de fabrica" que cobre 80% das features.
Pipeline de 4 etapas, papel por etapa, handoff explicito.
DeepSeek travou em loop, fez 3 tentativas erradas, ou esta inventando API que nao existe β pare. Suba para GPT-5.5 com o contexto.
Insistir com modelo errado queima tokens em ciclos vazios. Reconhecer sinal cedo economiza horas.
Loop de retentativa, alucinacao, escalada de modelo.
Tabela: "endpoint REST simples"βDeepSeek. "Migracao de schema"βGPT-5.5. "Microcopy de erro"βOpus. E assim por diante.
Imprime e cola na parede. Em 1 semana voce internaliza e nao precisa mais consultar.
Tabela de roteamento, internalizacao por repeticao, mapa mental.
Bug de implementacao = volta para etapa 3. Bug de plano = volta para etapa 1. Saber diagnosticar evita reescrita inteira.
Maioria dos devs reescreve tudo. Voltar para a etapa certa economiza 80% do retrabalho.
Diagnose por etapa, retorno minimo necessario, principio da raiz.
Para tarefas obvias (renomear, ajuste de string, fix tipo), pule plan e revisao. So execute. Cuidado: defina criterio claro.
Aplicar pipeline completo em microtarefas vira burocracia. Saber quando pular acelera o dia-a-dia.
Fast path, criterio de simplicidade, override do pipeline.
Algumas tools (Aider, Continue) tem "auto-routing": detectam tipo de pergunta e escolhem modelo. Util quando setup amadurece.
Roteamento manual e bom no inicio (voce aprende). Depois, automacao reduz fadiga de decisao.
Auto-routing, regras condicionais, automacao gradual.
π Templates de prompt por papel
Prompts copiaveis para cada modelo. O "system prompt" certo faz cada modelo brilhar no papel dele.
Prompt que pede output estruturado: lista de arquivos a tocar, ordem de implementacao, criterios de aceitacao, riscos.
Plano em formato fixo permite passar como input limpo para o executor.
Output estruturado, criterios de aceitacao, lista de arquivos.
Prompt focado em sensibilidade: "veja se o copy esta acolhedor, se a hierarquia visual esta clara, se ha friccao desnecessaria".
Opus precisa de prompts que estimulem julgamento, nao instrucoes mecanicas.
Prompts abertos, foco em julgamento, espaco para sugerir.
Prompt minimalista que passa o plano + restricoes. "Nao questione, nao melhore, implemente. Se duvida, pare e pergunte."
DeepSeek com prompt aberto inventa demais. Com prompt fechado, e maquina de produtividade.
Prompt fechado, anti-criatividade, fail-fast em duvida.
Passa: plano original + diff implementado. Pede: bugs, riscos de seguranca, aderencia ao plano, sugestoes minimas.
Revisao sem o plano e cega β o revisor nao sabe o que era esperado. Sempre passe os 2.
Contexto duplo (plano+diff), revisao informada, output em checklist.
Pasta /prompts/ com arquivos: plan.md, exec.md, review.md, refactor.md. Versiona junto com o codigo.
Time inteiro usa os mesmos prompts. Onboarding fica trivial, qualidade fica consistente.
Prompts como codigo, versao em git, reuso em equipe.
Saida confusa = peca formato. Falta precisao = de exemplo. Inventa demais = adicione "se nao souber, fale".
Maioria dos prompts melhora com 3 ajustes simples. Saber quais aplicar acelera o ciclo.
Iteracao de prompt, anti-alucinacao, exemplo few-shot.
π Passando contexto entre modelos
Como manter coerencia quando voce troca de modelo no meio de uma tarefa.
Em vez de "lembrar" no chat, salve plano em PLAN.md, decisoes em DECISIONS.md. Cada modelo le do mesmo lugar.
Trocar de modelo nao perde contexto se ele esta em arquivo. Janela de chat e volatil; arquivo e durable.
Memoria externa, artefato durable, single source of truth.
Arquivos que cada tool le automaticamente: stack, padroes, comandos uteis. Garante que qualquer modelo segue as mesmas regras.
Sem isso, voce repete as mesmas instrucoes em todo prompt. Com isso, todos os modelos comecam alinhados.
Arquivo de convencoes, leitura automatica, contexto compartilhado.
Antes de passar para o proximo modelo, peca ao atual: "resuma em 200 palavras o que decidimos e por que". Esse resumo vira o input do proximo.
Comprime contexto sem perder o essencial. Reduz custo de input no proximo modelo.
Compactacao de contexto, handoff resumido, lossy mas eficiente.
DeepSeek: 128k. GPT-5.5: 256k. Opus 4.7: 1M. Para projetos grandes, Opus le tudo de uma vez; outros precisam de filtragem.
Saber o limite evita "input too long" no meio do fluxo β voce planeja a divisao antes.
Context window, chunking, escolha por capacidade.
Conversa longa acumula erros e "achismos". A cada nova feature, /clear e comece com contexto limpo + arquivos relevantes.
Modelos confusos por contexto sujo geram codigo confuso. Reset frequente mantem qualidade.
Higiene de contexto, reset preventivo, escopo por tarefa.
Anthropic e OpenRouter cacheiam prefixo do prompt. Mande primeiro o contexto grande, depois pergunte. Ate 90% off em input repetido.
Em conversas iterativas (10+ turnos), cache transforma fatura. E "free money".
Prompt caching, prefix sharing, otimizacao por estrutura.
β Workflow de revisao cruzada
O segredo da qualidade no setup multi-modelo: quem escreveu nao revisa.
Mesmo modelo que escreveu o codigo nao percebe seus proprios bugs (vies de confirmacao). Revisor diferente pega 60% mais issues.
E a regra mais simples e maior aliada na qualidade. Vale o custo extra.
Vies de confirmacao, segundo par de olhos, revisao cruzada.
Bugs, seguranca, performance, aderencia ao plano, edge cases, naming, tests, documentacao. 8 itens fixos para todo review.
Checklist evita revisao subjetiva e garante consistencia entre tasks.
Checklist fechado, 8-point review, output padronizado.
Revisor da nota: β aprovado, β οΈ ajustes simples (volta para etapa 3 com correcoes), β replanejar (volta para etapa 1).
Decisao binaria perde nuance. Trinario e mais fiel a realidade.
3 estados de revisao, gradacao de problema, decisao informada.
Em codigo que toca auth/payment/data, faz um segundo pass de revisao com prompt especifico de seguranca (SQL injection, XSS, IDOR).
Revisor generalista perde vulnerabilidades sutis. Pass especializado pega 90% delas.
Multi-pass review, OWASP top 10, prompts especializados.
Action que roda em todo PR: pega o diff, manda para GPT-5.5/Opus revisar, comenta no PR. Funciona como tech lead robotico.
Tira a revisao do fluxo manual β passa a acontecer "de graca" em todo commit.
CI/CD com IA, PR comments, automacao de qualidade.
Quando a revisao muda algo importante, registre o porque. ADRs (Architectural Decision Records) servem aos modelos futuros.
Sem registro, decisoes se perdem. Modelos futuros tomam decisoes contraditorias.
ADR, memoria do projeto, contexto historico.
π Metricas, custo e otimizacao
Como medir se o setup esta funcionando e onde aplicar a proxima rodada de otimizacao.
Cada provider tem seu painel de uso. OpenRouter unifica os 3. Configure alerta de gasto diario.
Sem visibilidade, voce so descobre o problema na fatura. Dashboards previnem surpresa.
Observabilidade, alerta de gasto, dashboard unificado.
3 metricas principais: custo medio por feature, % de PRs aprovados na primeira revisao, distribuicao real de tokens (vs 70/20/10).
"O que voce nao mede, nao melhora". KPIs te dizem se a estrategia esta funcionando.
KPI definitivo, distribuicao real, baseline de comparacao.
Causas: (1) modelo padrao errado, (2) prompts longos sem cache, (3) muito retrabalho, (4) Opus virou padrao por engano.
Diagnostico rapido. Olhe a metrica β identifique a causa β ajuste em 5 min.
Diagnostico de custo, root cause, ajuste preciso.
A cada 1-2 semanas, pegue uma tarefa de cada categoria e rode em 2 modelos diferentes. Compare resultado e ajuste roteamento.
Modelos evoluem mensalmente. A/B test descobre quando o roteamento atual ficou desatualizado.
A/B testing, evolucao de modelo, recalibracao.
(1) prompt cache, (2) context selectivo, (3) saidas estruturadas curtas, (4) reuso de plano, (5) batch quando nao precisa de realtime.
Cada tecnica corta 20-50% dos tokens. Combinadas, divisao por 4-5 da fatura.
Token efficiency, output curto, batch API.
Toda primeira sexta do mes, 15 min: olhe metricas, compare com mes anterior, ajuste 1 prompt ou 1 regra.
Setups apodrecem sem manutencao. Ritual mensal evita degradacao silenciosa.
Manutencao do sistema, melhoria continua, kaizen aplicado.