๐ Landing page + backend simples
SaaS pequeno: 1 landing, 1 form de waitlist, 1 painel admin. Fluxo completo do zero ao deploy.
Landing com hero + cta. Form salva email em DB. Admin lista emails com auth simples. Stack: Next.js + Postgres + Tailwind.
Briefing claro e meio caminho โ o plano fica trivial e os modelos nao inventam scope.
Escopo minimo, stack pre-definido, criterios de pronto.
Output esperado: arvore de arquivos, migrations SQL, rotas de API, lista de paginas. Tudo em markdown salvo em PLAN.md.
Plano bom = execucao rapida. Veja exatamente o que pedir e como formatar a resposta.
Plano detalhado, schema-first, contratos de API.
Opus le o briefing, sugere headline, subheadline, CTA, microcopy de validacao do form, paleta de cor coerente.
Landing sem copy bom converte 3x menos. Opus aqui faz a diferenca entre "ok" e "uau".
Conversion copy, hierarquia visual, microcopy de form.
Passa PLAN.md + COPY.md como contexto. DeepSeek gera Next.js pages, API routes, migration, componentes Tailwind.
Aqui e onde os 70% se materializam. Codigo correto, rapido, barato.
Context-driven generation, throughput, qualidade boa-o-suficiente.
Passa PLAN.md + git diff. GPT-5.5 retorna checklist: 2 bugs encontrados (validacao de email frouxa, falta rate limit no form).
Esses bugs nao sao bobos โ sao exatamente o que escapa em revisao manual.
Code review automatico, bugs comuns em forms, anti-spam.
Tempo total: 1h30. Custo: $0.10 GPT-5.5 plano + $0.08 Opus copy + $0.18 DeepSeek code + $0.04 GPT-5.5 review = $0.40.
Comparativo: single-Opus seria ~$3. Single-DeepSeek seria $0.30 mas com bugs em producao.
Custo total mensuravel, ROI da revisao, baseline para novos projetos.
๐งน Refatoracao de codigo legado
Codigo antigo, sem testes, com regras de negocio entrelacadas. Estrategia de modernizacao incremental.
Manda 5 arquivos centrais para Opus (1M de contexto ajuda). Pede: lista de problemas em ordem de impacto.
Refatorar sem priorizar e jogar fora esforco. O diagnostico organiza onde mexer primeiro.
Code smells, priorizacao por impacto, refactoring map.
Com diagnostico em maos, GPT-5.5 propoe arquitetura-alvo: novos modulos, interfaces, ordem das migracoes.
Sem destino claro, refatoracao vira "limpeza eterna" sem chegar a lugar nenhum.
Target architecture, strangler pattern, plano em fases.
Antes de refatorar, DeepSeek le o codigo atual e gera testes que capturam o comportamento existente. Garante que refatoracao nao quebra nada.
Refatorar sem testes e cega. Testes-de-caracterizacao sao o cinto de seguranca.
Characterization tests, golden master, safety net.
DeepSeek refatora um modulo por commit, sempre rodando os testes. Se quebra: rollback e ajuste.
Refatoracao em batch e desastre. Incremental + testes e o unico caminho seguro.
Refactoring incremental, rollback rapido, fail fast.
Pega diff antes/depois, plano original, e GPT-5.5 confirma: "manteve a regra X?", "ainda trata edge case Y?".
Tests passam mas semantica pode mudar sutilmente. Revisao por modelo forte pega isso.
Auditoria semantica, regra de negocio preservada, edge cases.
Refatoracao: 5 modulos, 12 commits, 200 testes gerados. Custo: $1.20 total. Tempo humano: 3h (estimativa era 8h).
Geracao automatica de testes e o que mais corta tempo. DeepSeek brilha em volume.
Aceleracao por automacao, ROI de testes, custo vs tempo humano.
๐ฑ App full-stack do zero (Next.js + Supabase)
Aplicacao completa com auth, DB, RLS, dashboards. O caso mais completo da trilha.
App: signup, dashboard, criar projeto, lista de tasks por projeto, convidar membros. RLS por team_id.
Caso "produto de SaaS classico". Dominado isso, voce constroi qualquer SaaS pequeno.
Multi-tenancy, RLS, auth com email magico.
SCHEMA.sql, POLICIES.sql, PAGES.md, COMPONENTS.md. Cada arquivo vira input para etapas seguintes.
Em projeto medio, 1 doc nao basta. 4 docs separados mantem cada area com escopo claro.
Documentos por dominio, separation of concerns no plano.
Opus le PAGES.md e descreve estados de UI: vazio, com 1 task, com 100 tasks, em loading, em erro. + microcopy.
Estados de UI sao o que separa MVP de produto polido. Opus pensa neles automaticamente.
Empty states, loading states, error states, microcopy.
Batch 1: migrations + RLS. Batch 2: API routes. Batch 3: componentes + paginas. Cada batch valida antes do proximo.
Em projeto grande, mandar tudo de uma vez explode contexto. Batch funciona melhor.
Batching de tarefas, validacao entre batchs, contexto controlado.
Multi-tenant tem armadilha: query "esquece" o team_id. GPT-5.5 le todas as queries e confirma isolamento.
Vazamento entre tenants destroi confianca. Vale o pass extra.
Tenant isolation, RLS audit, IDOR prevention.
8h de trabalho humano + $4 de IA. Mesmo MVP cotado em freelancer: $1500 e 2 semanas.
Diferenca de magnitude. Setup multi-modelo nao e 20% melhor โ e estruturalmente diferente.
Custo total comparado, tempo ate MVP, mudanca de patamar.
โ๏ธ Scripts e automacoes de rotina
CLI utilitario, integracao entre 2 sistemas, cron job. O caso onde DeepSeek puro brilha mais.
Tally manda webhook para servico Node. Servico transforma payload e cria pagina no Notion. Logging em Supabase.
Tipo "automacao plumbing" โ nao tem UX, e codigo glue. DeepSeek sozinho cobre 90%.
Webhook handler, transformacao de payload, integracao API.
Para script pequeno, plano e 1 paragrafo: "endpoint POST recebe X, transforma Y, posta em Z, registra W". GPT-5.5 nem precisa.
Plano demais em tarefa pequena vira fricao. Saber quando pular e parte do dominio.
Plano proporcional, anti-burocracia, fast path.
DeepSeek le o paragrafo + docs do Notion API + schema do Supabase. Gera index.ts pronto para deploy em Vercel.
Para tarefas tipo "plumbing", DeepSeek e mais rapido que voce. Saber delegar e a habilidade.
API integration, deploy serverless, single-shot generation.
Cenarios: payload valido, payload faltando campo, payload com tipo errado, Notion offline, duplicado.
Edge cases em integracao quebram em producao. Lista pronta de cenarios cobre 95%.
Integration tests, fixtures, edge cases comuns.
Em script de integracao, 2 itens basta: e idempotente? trata erro de provider externo? Confirmou: ship.
Revisao proporcional ao risco. Script de plumbing tem 2 riscos principais โ foque neles.
Idempotencia, retry, revisao focada.
$0.04 DeepSeek + $0.01 GPT-5.5 review = $0.05. Tempo: 20 min do briefing ao deploy.
Em automacao, distribuicao real e mais 90/10/0 (sem Opus). Saber adaptar.
Distribuicao adaptada, override por tipo de tarefa, eficiencia maxima.
๐ API + microservico com testes
REST API com auth, cobertura >80%, OpenAPI doc. Caso "engenharia seria".
GPT-5.5 produz openapi.yaml com 8 endpoints, schemas, exemplos de erro. Vira input para todo o resto.
Contrato antes do codigo elimina ambiguidade. Quem usa a API tem doc; quem implementa tem spec.
Contract-first, OpenAPI/Swagger, schemas reutilizaveis.
Para cada endpoint da spec, DeepSeek cria handler com validacao de input, chamada de service, mapeamento de erro.
Handlers sao formula. DeepSeek com spec clara nao erra โ e o caso de uso ideal.
Spec-driven generation, handler pattern, error mapping.
Examples de OpenAPI viram fixtures de teste automaticamente. Cobertura de feliz e infelizes do contrato.
Reuso entre spec e teste elimina duplicacao. E o sweet spot da abordagem contract-first.
Examples como fixtures, contract testing, cobertura por design.
GPT-5.5 le todos os handlers checando: auth aplicado, rate limit configurado, input sanitization, sem leak de erro interno.
API exposta na internet tem superficie de ataque grande. Audit dedicado paga sozinho.
OWASP API top 10, rate limit, error masking.
Combine openapi-generator (cli) + DeepSeek refinando. Saida: SDK TS tipado para a API, com docstrings.
SDK gerado e bonus que faz quem consome a API ter experiencia de primeira.
SDK generation, type safety end-to-end, DX.
8 endpoints, 23 testes, OpenAPI doc, SDK TS, 0 issues no audit. Custo total: $2.10. Tempo: 2h.
"Engenharia seria" virou trivial com setup. Esse e o caso que vende a estrategia para CTOs.
Cobertura medida, qualidade auditada, entrega completa.
๐ Estudo comparativo: 3 abordagens, mesma feature
A mesma feature de carrinho de e-commerce construida em 3 setups: single-Opus, single-DeepSeek, e 70/20/10. Numeros lado a lado.
PDP (produto), carrinho, checkout, confirmacao. Cupons percentual e valor fixo. Frete por CEP. Persistencia entre sessoes.
Feature media-complexa, com regras de negocio. Bom benchmark.
Feature com regra, persistencia de estado, multi-tela.
Resultado: codigo polido, copy excelente, $9.40, 3h tempo total (Opus e mais lento), 0 bugs no review.
Baseline "tudo de melhor". Util para entender ate onde vale o premium.
Single-model premium, qualidade maxima isolada.
Resultado: $0.85, 1h, mas 4 bugs encontrados em QA manual (cupom acumulando, frete negativo, race em estoque).
DeepSeek sozinho sem revisao deixa bugs sutis em logica de negocio.
Falsa economia, bugs em logica de regra, custo de QA manual.
Resultado: $1.80, 1h30, 1 bug residual (e um "warning" no review). Qualidade ~90% do Opus puro.
Sweet spot. Custo proximo ao DeepSeek, qualidade proxima ao Opus.
Otimo composto, dominancia de Pareto, escolha racional.
A: $9.40 / 3h / 0 bugs / 10/10 polimento. B: $0.85 / 1h / 4 bugs / 6/10. C: $1.80 / 1h30 / 1 bug / 9/10.
Visualizar lado a lado tira a duvida. C domina A em custo e B em qualidade โ e o ponto otimo.
Comparacao multi-criterio, frente de Pareto, decisao informada.
A vence em: lancamento high-stakes, pouca margem para bug. B vence em: prototipo descartavel, automacao interna. C vence: padrao para 80% dos casos.
Saber escolher o setup certo para o contexto e o sinal de maturidade.
Contexto-driven choice, abordagem situacional, anti-dogma.