🏗️ Transformers não têm memória
Entre uma chamada e outra, o Claude esquece tudo. Não existe estado persistente interno — cada requisição é autossuficiente. Para "continuar a conversa", a aplicação (Claude Code) envia todo o histórico de volta, toda vez.
Como o Claude recebe 3 turnos consecutivos
Cada turno processa tudo que veio antes mais o novo par user/assistant. Essa é a razão estrutural do crescimento do custo.
🧠Implicação prática
"Lembrar" para o Claude significa anexar de volta no próximo turno. Pedir "lembre-se disso" sem que "isso" esteja visível é pedido vazio.
É por isso que o CLAUDE.md funciona: ele é re-carregado automaticamente. É por isso que um handoff estruturado funciona: ele reanexa o essencial em nova sessão.
📈 A curva de custo
Se cada turno relê tudo que veio antes, o custo de input cresce como uma soma progressiva. Isso produz uma curva que desarma muita gente.
Input acumulado por turno (sessão média, sem cache)
| Turno | Enviado | Acumulado | Custo turno (Sonnet) |
|---|---|---|---|
| 1 | 5k | 5k | US$ 0,015 |
| 5 | 20k | 60k | US$ 0,060 |
| 10 | 40k | 225k | US$ 0,120 |
| 20 | 80k | 850k | US$ 0,240 |
| 30 | 130k | 1,95M | US$ 0,390 |
Os últimos 10 turnos custam mais que os primeiros 20 somados.
📊Regra quadrática
O custo total de uma sessão é ~proporcional ao quadrado do número de turnos, não linear. Dobrar o tamanho da sessão quadruplica o custo.
💡Moral
Duas sessões de 15 turnos custam menos da metade de uma de 30. Esta é a base matemática para a regra de ciclos curtos da Trilha 2.
💾 Prompt caching — o alívio
A Anthropic sabe que a releitura é cara. A resposta oficial é o prompt caching: quando partes do prompt se repetem, o servidor armazena o resultado do processamento e cobra apenas 10% do preço ao reutilizar.
❌ Sem cache (preço cheio)
✅ Com cache bem usado
Preço do cache oficial (Anthropic)
| Operação | TTL 5 min | TTL 1h |
|---|---|---|
| Escrever no cache | 1,25× input | 2,0× input |
| Ler do cache | 0,1× input | 0,1× input |
5 min é o padrão. 1h funciona sem beta header desde 2025.
✅Boa notícia: o Claude Code faz sozinho
Você não precisa configurar nada manualmente. O Claude Code já aplica caching automaticamente no system prompt e histórico. Sua responsabilidade é não quebrar o cache — e é disso que falam os próximos tópicos.
🎯 Como maximizar cache hits
O cache funciona por prefixo exato. Qualquer mudança no meio invalida tudo depois. A estratégia é simples: estático primeiro, dinâmico por último.
Estrutura de prompt que maximiza cache
✓ Hábitos que protegem o cache
- ✓CLAUDE.md curto e estável — edite entre sessões
- ✓Anexar arquivos grandes uma vez, não repetidamente
- ✓Manter MCPs fixos durante a sessão
- ✓Skills fixas — não ativar/desativar no meio
✗ Ações que quebram o cache
- ✗Editar CLAUDE.md no meio da sessão
- ✗Ativar/desativar MCPs em runtime
- ✗Adicionar timestamp dinâmico no system
- ✗Mudar a ordem de arquivos entre turnos
⚠️ O que quebra o cache
Você pode estar pagando preço cheio sem saber. Estas são as armadilhas mais comuns — e o jeito de detectar cada uma.
TTL expirou
Cache de 5min vence se você ficar muito tempo sem mandar mensagem. Próxima chamada re-escreve tudo.
→ Se vai pausar bastante, usar TTL de 1h pode compensar.
Edição no prefixo
Mexeu no CLAUDE.md, trocou MCP ativo, editou um arquivo já lido. Cache a partir daquele ponto é invalidado.
→ Planeje edições de configuração entre sessões, não dentro.
Conteúdo dinâmico no topo
Data/hora atual, IDs gerados, qualquer coisa que muda a cada chamada. Se estiver no prefixo, mata o cache.
→ Conteúdo dinâmico sempre no final do prompt.
Mudança de modelo
Cache é por modelo. Trocar de Sonnet para Opus re-escreve tudo.
→ Escolha o modelo antes de abrir a sessão e mantenha.
🧮 Exemplo de cálculo real
Um projeto real: refatoração de um módulo de 1500 linhas. 25 turnos de conversa. Contexto médio de 60k tokens (CLAUDE.md + arquivos + histórico). Vamos ver a conta de 3 formas.
Mesmo trabalho. Mesma qualidade. 1/6 do custo.
🎯O que fez a diferença
- →Cache automático do Claude Code (A → B): 3×
- →Dividir em 2 sessões curtas reduz input médio (B → C): 2×
- →Combinação: 6× — e é o mesmo trabalho
📋Resumo do Módulo
Próximo módulo:
1.3 — 🍂 Context Rot: O Apodrecimento
Por que a qualidade cai antes mesmo do limite de tokens.