Modulo 1.5 - Custo, velocidade e qualidade

💵 Tabela de precos atualizada

Pricing por 1M tokens. Output sempre custa 3-5x mais que input. Cache reduz input em 90% — vital para conversas longas.

Modelo	Input	Output	Cache hit
Opus 4.7	$15/M	$75/M	$1.50/M
GPT-5.5	$5/M	$30/M	$0.50/M
DeepSeek V4	$0.27/M	$1.20/M	$0.05/M

💡 Insight

DeepSeek e ~60x mais barato que Opus em output. Mesmo com 90% cache hit, Opus ainda e mais caro que DeepSeek sem cache.

⚡ Latencia tipica de cada modelo

Velocidade afeta UX em chat ao vivo e fluxos com humano esperando. Streaming amenizada a sensacao em todos os casos.

DeepSeek V4

~80 tok/s

TTFT: ~0.5s. Respostas grandes em 5-10s.

GPT-5.5

~50 tok/s

TTFT: ~1s. Respostas grandes em 10-15s.

Opus 4.7

~30 tok/s

TTFT: ~1.5s. Respostas grandes em 20-30s.

🎯 Qualidade media em benchmarks de codigo

Benchmarks publicos (HumanEval, SWE-bench) mostram gap, mas em fluxo plan→exec→review, DeepSeek + revisao se aproxima do single-Opus em qualidade final.

📊 Benchmarks (HumanEval+ pass@1)

Opus 4.788%

GPT-5.586%

DeepSeek V4 (sozinho)76%

DeepSeek V4 + GPT-5.5 review87%

📊 O triangulo de tradeoff

Visualizar ajuda a comunicar a estrategia para times e clientes nao-tecnicos. Cada modelo ocupa uma regiao; combinar te aproxima do centro.

🎨

Opus

Qualidade alta + velocidade media. Sacrifica custo.

🏛️

GPT-5.5

Qualidade alta + custo medio. Sacrifica velocidade max.

⚡

DeepSeek

Custo baixo + velocidade alta. Sacrifica qualidade max.

🧮 Calculo: custo por feature em projeto medio

Formula simples para estimar antes de cotar projeto.

Formula

custo = (linhas × 8 tokens) × ratio_retrabalho × peso_modelo

Exemplo: feature de 500 linhas, retrabalho 1.5x, peso medio (70/20/10):

• 500 × 8 × 1.5 = 6000 tokens estimados
• 70% × $1.20 + 20% × $30 + 10% × $75 = $14.04/M tokens
• 0.006M × $14.04 = $0.084 por feature

💡 Otimizacoes ocultas

3 truques que cortam fatura pela metade. Sao "money on the table" — quem nao usa paga 2x.

📦 Prompt cache

90% off em input repetido. Mande primeiro o contexto grande, depois pergunte.

Economia tipica: 60-80% em conversas longas

📥 Batch API

50% off em saida nao-realtime. Util para geracao de docs em escala.

Economia tipica: 50% em jobs em lote

🌊 Streaming

Sem custo extra, melhora UX percebida (usuario ve resposta sendo gerada).

Economia tipica: 0% — mas UX 3x melhor

📌 Resumo do Modulo

✓

DeepSeek e ~60x mais barato que Opus em output

✓

Velocidade: DeepSeek 80 tok/s, GPT-5.5 50, Opus 30

✓

DeepSeek + revisao se aproxima do Opus em qualidade final

✓

Triangulo de tradeoff: cada modelo ocupa um vertice — combinar aproxima do centro

✓

Formula de custo: linhas × 8 × retrabalho × peso medio

✓

3 otimizacoes cortam 50%: cache, batch, streaming

Proximo Modulo:

1.6 — ⚠️ Mitos e armadilhas

← Modulo 1.4 Proximo Modulo →