🏷️ Preço regular — igual ao 4.7 e 4.6
A Anthropic manteve o preço de lista inalterado na transição do 4.7 para o 4.8: US$5/M tokens de entrada e US$25/M tokens de saída. Você recebe mais capacidade pelo mesmo preço.
💵 Tabela de preço regular (por milhão de tokens)
| Modelo | Entrada | Saída | Status |
|---|---|---|---|
| Claude Opus 4.8 | US$5 | US$25 | Atual |
| Claude Opus 4.7 | US$5 | US$25 | 16/04/2026 |
| Claude Opus 4.6 | US$5 | US$25 | Anterior |
💡 O que isso significa
Se você já usa 4.7 ou 4.6, a migração para 4.8 é custo-neutro. Você só precisa atualizar o model_id na sua chamada de API.
⚡ Prompt caching — até 90% de economia
O prompt caching armazena prefixos de contexto no servidor. Nas chamadas subsequentes, você paga apenas o preço de hit de cache, que é 10× menor que a entrada regular.
🗄️ Preços de cache (por milhão de tokens)
| Operação | Preço / M tokens | Detalhe |
|---|---|---|
| Cache write (TTL 5 min) | US$6,25 | Gravação com TTL curto |
| Cache write (TTL 1 hora) | US$10 | Gravação com TTL longo |
| Cache hit (leitura) | US$0,50 | 10× mais barato que entrada |
✓ Quando usar cache
- ✓System prompt longo e repetitivo
- ✓Contexto de repositório que não muda
- ✓>10 chamadas/dia com mesmo prefixo
✗ Não vale o cache quando
- ✗Contexto muda a cada chamada
- ✗Volume baixo (menos de 5 hits por write)
- ✗Prefixo muito curto (<1k tokens)
📦 Batch — 50% de desconto
A API de Batch processa requisições de forma assíncrona com SLA de 24 horas. O desconto é de 50% sobre o preço regular: US$2,50/M entrada e US$12,50/M saída.
Quando usar Batch
Processamentos que não precisam de resposta imediata: geração de relatórios nocturnos, indexação de documentos, análise de logs, treinamento de datasets.
Combinação com cache
Batch + cache simultâneos se acumulam: você pode economizar até ~70% num workload com contexto repetitivo processado em lote.
SLA e garantias
O SLA é de processamento em até 24 horas. Para uso em produção com latência crítica, prefira o modo síncrono regular.
🚀 Fast mode — 2,5× mais rápido, 3× mais barato que o 4.7 fast
O Fast mode do 4.8 custa US$10/M entrada e US$50/M saída, mas entrega aproximadamente 2,5× mais velocidade que o modo regular — e é ~3× mais barato que o fast mode do 4.7 para a mesma qualidade entregue.
⚡ Fast mode — comparativo
| Modelo / Modo | Entrada /M | Saída /M | Velocidade |
|---|---|---|---|
| Opus 4.8 fast | US$10 | US$50 | ~2,5× regular |
| Opus 4.8 regular | US$5 | US$25 | Referência |
| Opus 4.7 fast | ~US$30 | ~US$150 | ~3× mais caro pelo mesmo |
💡 Quando usar fast mode
Interfaces interativas onde latência é perceptível pelo usuário: chat ao vivo, autocompletar, respostas em menos de 2 segundos. O custo 2× maior pode ser justificado pela experiência do produto.
📊 Tabela completa — 4.8 vs 4.7 vs 4.6
Visão unificada de todos os preços para facilitar decisões de migração e comparação cross-geração.
💹 Comparativo completo de preços (US$ / M tokens)
| Modelo | Entrada | Cache write 5m | Cache write 1h | Cache hit | Saída | Batch (-50%) |
|---|---|---|---|---|---|---|
| Opus 4.8 regular | $5 | $6,25 | $10 | $0,50 | $25 | $2,50 / $12,50 |
| Opus 4.8 fast | $10 | — | — | — | $50 | — |
| Opus 4.7 regular | $5 | $6,25 | $10 | $0,50 | $25 | $2,50 / $12,50 |
| Opus 4.6 regular | $5 | $6,25 | $10 | $0,50 | $25 | $2,50 / $12,50 |
Preços em dólares americanos por milhão de tokens. Fonte: Anthropic pricing page, maio 2026.
🧮 Como orçar seu uso
Saber calcular o custo antes de produção evita surpresas. A fórmula é simples: tokens × preço por modo.
🔢 Exemplo de orçamento
Cenário: 1.000 chamadas/dia, 10k tokens entrada + 2k saída cada
- Entrada: 1.000 × 10.000 = 10M tokens → 10M × US$5/M = US$50/dia
- Saída: 1.000 × 2.000 = 2M tokens → 2M × US$25/M = US$50/dia
- Total regular: US$100/dia
Com cache (sistema de 9k fixos + 1k variável)
- Write (1x/dia, TTL 1h): 9k × US$10/M = US$0,09/dia
- Cache hits (999×): 9M × US$0,50/M = US$4,50/dia
- Variável + saída: mesmo que antes = US$55/dia
- Total com cache: ~US$60/dia (40% de economia)
✓ Estratégia de economia
- 1Identifique contexto repetitivo → aplique cache
- 2Workloads assíncronos → use batch (-50%)
- 3Só use fast mode onde latência importa para o usuário
💡 Regra dos três passos
- 1Meça tokens reais num dia de produção
- 2Calcule sem otimização (linha de base)
- 3Aplique cache + batch progressivamente
📌 Resumo do Módulo
Próximo Módulo:
2.6 — Exercícios da Trilha 2