๐ค Por que combinar modelos
A intuicao de que "um modelo so resolve" custa caro e entrega menos. Veja por que.
Usar Opus ou GPT-5.5 para gerar tambem boilerplate, testes simples e refatoracoes obvias โ tarefas que um modelo barato faz igual.
Em projetos com 50k+ linhas, a fatura mensal pode ser 4-6x maior que o necessario. Isso sai do bolso ou da margem do cliente.
Custo marginal de execucao, tarefa de baixa complexidade, principio de Pareto aplicado a modelos.
Toda decisao de modelo escolhe 2 dos 3 vertices: ou e bom e barato (mas lento), ou rapido e bom (mas caro), ou rapido e barato (mas medio).
Combinar modelos e a unica forma de aproximar dos 3 vertices ao mesmo tempo โ cada papel pega o vertice certo.
Tradeoff fundamental, "fast/cheap/good โ pick two", combinacao como contorno do tradeoff.
GPT-5.5 brilha em raciocinio multi-step. Opus 4.7 brilha em criatividade e UX. DeepSeek V4 brilha em produzir muito codigo correto a baixo custo.
Decisoes de roteamento ficam obvias quando voce conhece o perfil. Voce para de perguntar "qual e o melhor?" e passa a perguntar "melhor para o que?".
Perfil de capacidades, especializacao implicita, decision tree por tarefa.
Dividir uma tarefa grande em planejar + executar + revisar reduz a chance de bug, porque cada etapa tem checkpoint.
Pedir ao mesmo modelo "pensa, codifica, revisa" em um prompt so leva a pulos de etapa e codigo apressado.
Separation of concerns, checkpoints intermediarios, validacao em camadas.
Empresas ja dividem trabalho por nivel de senioridade. O setup multi-modelo e a versao IA dessa estrutura.
Voce ja tem intuicao sobre quando passar trabalho para junior vs tech lead โ e a mesma intuicao funciona aqui.
Analogia humana, escala de senioridade, code review como gate de qualidade.
Estudos de caso: SaaS pequeno, refatoracao de legado e geracao de testes. Em todos, 70/20/10 derrotou single-model em custo (e empatou em qualidade).
Ver os numeros tira a duvida sobre se "vale a pena". Spoiler: vale.
Custo total de projeto, qualidade medida em bugs, tempo ate primeira versao funcional.
๐ญ Os 3 perfis: arquiteto, designer, executor
Cada modelo encarna um papel. Aprenda a reconhecer qual papel cada tarefa pede.
GPT-5.5 e excelente em decompor problemas grandes em tarefas concretas, definir contratos de API e identificar riscos antes de codificar.
Pular o arquiteto faz o executor reescrever 3x โ sai mais caro do que ter pago um plano bem feito.
Decomposicao top-down, contratos antes da implementacao, plano como artefato auditavel.
Opus tem nuance โ escolhe palavras melhor, percebe quando uma interface esta confusa, sugere copy que converte.
Em produto, 1% de melhoria de UX vale mais que 50% de melhoria de codigo. Opus paga o premium em decisoes de produto.
Sensibilidade humana, copy que converte, julgamento estetico, polimento final.
Quando tem plano e contrato claro, DeepSeek implementa em segundos, com qualidade equivalente a um dev pleno em 80% das tarefas.
Voce vai gerar 5x mais codigo no mesmo tempo, gastando 1/5. O segredo e ter plano antes (papel do arquiteto).
Throughput, qualidade-suficiente, plano-antes-de-codigo como pre-requisito.
Depois que DeepSeek codifica, um modelo caro le o diff e procura: bugs sutis, problemas de seguranca, divergencia do plano.
Reviso evita 90% dos bugs que escapariam para producao. O custo da revisao e baixo (so le, nao gera muito).
Code review automatico, leitura como tarefa barata, revisor != autor original.
Com 2 papeis voce perde ou planejamento ou polimento. Com 5 papeis a coordenacao consome mais que economiza.
3 e o sweet spot empirico โ cobre a maioria dos casos sem virar burocracia.
Numero magico 3, custo de coordenacao, retorno marginal decrescente.
5 perguntas: tem ambiguidade? envolve UX? e repetitivo? exige criatividade? precisa de auditoria? Cada resposta puxa um papel diferente.
Reduz a fadiga de decisao โ voce nao para mais para pensar "qual modelo uso?", aplica o checklist em 10s.
Heuristica rapida, decision framework, automacao da escolha.
โ๏ธ A regra dos 70/20/10
Por que essa proporcao especifica funciona โ e quando ajustar.
Em projetos reais, ~70% das tarefas sao implementacao mecanica. ~20% precisam de raciocinio. ~10% pedem criatividade.
A proporcao espelha a realidade do trabalho. Forcar 50/30/20 desperdica modelos caros em tarefas que nao pedem.
Distribuicao real de tarefas, alocacao otima, desperdicio invisivel.
A regra se aplica em tokens consumidos (saida), nao em numero de chamadas. DeepSeek consome muito mais token gerando codigo do que GPT consome planejando.
Confundir "70% das chamadas" com "70% dos tokens" leva a setup errado e fatura inflada.
Tokens vs requests, output-heavy vs input-heavy, metrica certa.
Single-model Opus: ~$75. Single-model GPT-5.5: ~$30. Combinacao 70/20/10: ~$10. Mesmo trabalho, custo 3-7x menor.
Numeros concretos vendem a ideia para voce mesmo (e para clientes que questionam o setup).
Pricing por token, ratio entrada/saida, custo total de feature.
Sistema critico (banco, saude): mais GPT-5.5/Opus โ 50/40/10. Conteudo em volume (docs, posts): mais DeepSeek โ 85/10/5. Produto consumer: padrao 70/20/10.
A regra nao e dogma. Calibre para o risco e a natureza do projeto.
Calibracao por contexto, risco x custo, perfil de projeto.
Bugs em codigo gerado = falta de revisao (aumenta os 20%). Plano confuso = pulou o arquiteto. Fatura alta = abusou dos caros.
Diagnosticar pela "dor" te leva ao ajuste certo. Cada sintoma aponta para um vertice.
Sintomas-causa, autocorrecao, feedback loop.
Comece dependendo mais dos modelos caros (mais conforto). Conforme ganha confianca no DeepSeek, migre tarefas para ele.
Pular direto para 70/20/10 sem treino faz voce ter sustos com bugs e voltar para single-model.
Adocao gradual, curva de confianca, migracao em fases.
๐ฏ Quando usar cada modelo
Decision tree pratico para escolher rapido em situacoes do dia-a-dia.
Use GPT-5.5 quando o problema exige conectar 5+ pecas: arquitetura de feature, debug de race condition, escolha entre tecnologias.
DeepSeek perde fio em problemas com muitos passos. Opus pensa bem mas e mais lento e caro.
Raciocinio multi-step, problemas com estado, decisoes irreversiveis.
Opus brilha em copy de landing, microcopy de erro, hierarquia de UI, escolha entre 2 designs e ajuste de tom.
Diferenca de UX entre "ok" e "delicioso" vem de Opus, nao de modelos baratos.
Sensibilidade, julgamento estetico, ultimo 10% que importa.
Use DeepSeek para criar 12 componentes React parecidos, gerar testes a partir de specs, escrever docstrings, traduzir codigo entre frameworks.
Volume e exatamente onde DeepSeek paga: rapido, barato, qualidade boa-o-suficiente para tarefa repetitiva.
Tarefas mecanicas, padroes ja conhecidos, throughput.
Tarefas reais sao hibridas. "Pagamento" = arquitetura (GPT-5.5) + UX do checkout (Opus) + integracao Stripe + testes (DeepSeek) + revisao (GPT-5.5).
Dividir bem e o que separa quem sabe usar setup multi-modelo de quem so trocou de janela 3 vezes.
Decomposicao por papel, handoff entre modelos, contexto compartilhado.
Autenticacao, criptografia, calculo financeiro, migracao de banco โ pague o premium e use GPT-5.5 ou Opus do inicio ao fim.
Um bug em pagamento custa mais que economia em fatura mensal inteira. Saiba onde nao cortar.
Custo de erro vs custo de modelo, areas criticas, override do 70/20/10.
Tabela pronta: "criar landing", "adicionar endpoint REST", "fix de bug", "escrever testes", "renomear variaveis"... cada uma com modelo recomendado.
Acelera adocao โ voce nao precisa pensar do zero, consulta a tabela.
Cheat sheet, mapeamento tarefa-modelo, atalho mental.
๐ฐ Custo, velocidade e qualidade
Os numeros por tras de cada modelo. Tabela de precos, latencia e benchmarks.
Pricing por 1M tokens. Output sempre custa 3-5x mais que input. Cache reduz input em 90% โ vital para conversas longas.
Sem entender a estrutura de preco, voce paga 10x mais sem perceber em prompts longos.
Input/output split, prompt caching, billing per million tokens.
DeepSeek: ~80 tok/s. GPT-5.5: ~50 tok/s. Opus: ~30 tok/s. TTFT (primeiro token) varia mais โ afeta UX em streaming.
Em loops com humano esperando, cada modelo da uma sensacao diferente. UX e tao importante quanto custo.
Tokens por segundo, time to first token, streaming.
Em benchmarks publicos: GPT-5.5 e Opus 4.7 ~85%, DeepSeek V4 ~75%. Mas o gap em tarefas reais e menor que parece.
Benchmarks medem tarefas isoladas. No fluxo planโexecโreview, DeepSeek com revisao se aproxima do single-Opus em qualidade final.
Benchmark vs realidade, qualidade composta, revisao como amplificador.
Diagrama com 3 vertices (qualidade, velocidade, custo). Cada modelo ocupa uma regiao. Combinar te aproxima do centro.
Visualizar ajuda a comunicar a estrategia para times e clientes que nao sao tecnicos.
Diagrama de tradeoff, posicionamento de modelo, otimo composto.
Formula: (linhas de codigo ร 8 tokens) ร ratio de retrabalho ร peso do modelo. Da uma estimativa em 30s para qualquer feature.
Cotar projeto sem estimar custo de modelo e perder margem ou perder cliente.
Estimativa por linhas, fator de retrabalho, peso medio do modelo.
Prompt cache (90% off em input repetido), batch API (50% off em saida nao-realtime), streaming (UX percebida melhor sem custo extra).
Sao "money on the table". Quem nao usa paga 2x. Quem usa entrega em metade do orcamento.
Caching, batching, streaming, otimizacao por feature da API.
โ ๏ธ Mitos e armadilhas
As 6 ideias erradas mais comuns que sabotam o setup multi-modelo. Reconheca e evite.
Modelo caro e "melhor" so onde a tarefa exige seus pontos fortes. Em tarefa repetitiva, e desperdicio puro.
Esse mito e o que faz devs experientes terem fatura 5x maior que o necessario por meses sem perceber.
Falacia do "premium sempre", overengineering de modelo, mente de iniciante.
DeepSeek isolado pode falhar em casos sutis. DeepSeek + revisao por GPT-5.5/Opus produz codigo de producao em 80% dos casos.
Quem rejeita DeepSeek por preconceito perde a maior alavanca de economia disponivel hoje.
Modelo aberto vs fechado, qualidade composta com revisao, preconceito de origem.
Cada modelo le o mesmo prompt do zero. Voce pode pegar o output do GPT-5.5 e mandar para o DeepSeek โ funciona perfeitamente.
Esse medo trava a adocao. Saber que e seguro libera a otimizacao.
Statelessness das APIs, contexto como texto, handoff seguro.
Em codigo puro, GPT-5.5 e Opus estao quase empatados. Opus ganha em UX/sensibilidade. GPT-5.5 ganha em raciocinio rigoroso.
Confundir os dois leva a roteamento errado. Use o GPT-5.5 onde voce queria "pensamento", Opus onde queria "polimento".
Diferenca por dimensao, perfil > nota global, escolha por papel.
Sem plano, DeepSeek toma decisoes erradas que precisam ser desfeitas. Revisar 1000 linhas de codigo errado custa mais que ter pago um plano de 200 linhas.
A ordem importa. Plano antes, codigo no meio, revisao depois โ pular o plano sai mais caro.
Plano como prevencao, custo de retrabalho, ordem do pipeline.
O setup leva 1 hora (na trilha 2). Depois, voce nem percebe โ e parte do fluxo. Vale para projeto pequeno desde o primeiro.
Adiar o setup ate "ter projeto grande" e como adiar git ate "ter codigo importante" โ voce sempre se arrepende.
Custo de adocao, ganho continuo, infraestrutura como atalho.