MODULO 1.5

๐Ÿ’ฐ Custo, velocidade e qualidade

Os numeros por tras de cada modelo. Tabela de precos, latencia, benchmarks e otimizacoes que cortam fatura pela metade.

6
Topicos
30
Minutos
Basico
Nivel
Numeros
Tipo
1

๐Ÿ’ต Tabela de precos atualizada

Pricing por 1M tokens. Output sempre custa 3-5x mais que input. Cache reduz input em 90% โ€” vital para conversas longas.

ModeloInputOutputCache hit
Opus 4.7$15/M$75/M$1.50/M
GPT-5.5$5/M$30/M$0.50/M
DeepSeek V4$0.27/M$1.20/M$0.05/M

๐Ÿ’ก Insight

DeepSeek e ~60x mais barato que Opus em output. Mesmo com 90% cache hit, Opus ainda e mais caro que DeepSeek sem cache.

2

โšก Latencia tipica de cada modelo

Velocidade afeta UX em chat ao vivo e fluxos com humano esperando. Streaming amenizada a sensacao em todos os casos.

DeepSeek V4

~80 tok/s

TTFT: ~0.5s. Respostas grandes em 5-10s.

GPT-5.5

~50 tok/s

TTFT: ~1s. Respostas grandes em 10-15s.

Opus 4.7

~30 tok/s

TTFT: ~1.5s. Respostas grandes em 20-30s.

3

๐ŸŽฏ Qualidade media em benchmarks de codigo

Benchmarks publicos (HumanEval, SWE-bench) mostram gap, mas em fluxo planโ†’execโ†’review, DeepSeek + revisao se aproxima do single-Opus em qualidade final.

๐Ÿ“Š Benchmarks (HumanEval+ pass@1)

Opus 4.788%
GPT-5.586%
DeepSeek V4 (sozinho)76%
DeepSeek V4 + GPT-5.5 review87%
4

๐Ÿ“Š O triangulo de tradeoff

Visualizar ajuda a comunicar a estrategia para times e clientes nao-tecnicos. Cada modelo ocupa uma regiao; combinar te aproxima do centro.

๐ŸŽจ

Opus

Qualidade alta + velocidade media. Sacrifica custo.

๐Ÿ›๏ธ

GPT-5.5

Qualidade alta + custo medio. Sacrifica velocidade max.

โšก

DeepSeek

Custo baixo + velocidade alta. Sacrifica qualidade max.

5

๐Ÿงฎ Calculo: custo por feature em projeto medio

Formula simples para estimar antes de cotar projeto.

Formula

custo = (linhas ร— 8 tokens) ร— ratio_retrabalho ร— peso_modelo

Exemplo: feature de 500 linhas, retrabalho 1.5x, peso medio (70/20/10):

  • โ€ข 500 ร— 8 ร— 1.5 = 6000 tokens estimados
  • โ€ข 70% ร— $1.20 + 20% ร— $30 + 10% ร— $75 = $14.04/M tokens
  • โ€ข 0.006M ร— $14.04 = $0.084 por feature
6

๐Ÿ’ก Otimizacoes ocultas

3 truques que cortam fatura pela metade. Sao "money on the table" โ€” quem nao usa paga 2x.

๐Ÿ“ฆ Prompt cache

90% off em input repetido. Mande primeiro o contexto grande, depois pergunte.

Economia tipica: 60-80% em conversas longas

๐Ÿ“ฅ Batch API

50% off em saida nao-realtime. Util para geracao de docs em escala.

Economia tipica: 50% em jobs em lote

๐ŸŒŠ Streaming

Sem custo extra, melhora UX percebida (usuario ve resposta sendo gerada).

Economia tipica: 0% โ€” mas UX 3x melhor

๐Ÿ“Œ Resumo do Modulo

โœ“
DeepSeek e ~60x mais barato que Opus em output
โœ“
Velocidade: DeepSeek 80 tok/s, GPT-5.5 50, Opus 30
โœ“
DeepSeek + revisao se aproxima do Opus em qualidade final
โœ“
Triangulo de tradeoff: cada modelo ocupa um vertice โ€” combinar aproxima do centro
โœ“
Formula de custo: linhas ร— 8 ร— retrabalho ร— peso medio
โœ“
3 otimizacoes cortam 50%: cache, batch, streaming

Proximo Modulo:

1.6 โ€” โš ๏ธ Mitos e armadilhas