🎒 O que está no contexto
Quando você digita uma mensagem no Claude Code, o modelo não recebe apenas essa mensagem. Ele recebe um pacote completo com 6 categorias de informação que precisam ser reprocessadas do zero a cada turno. Entender cada camada é o primeiro passo para controlar o custo.
As 6 camadas do contexto (do fixo ao volátil)
✓ Mentalidade correta
- ✓Todo arquivo lido continua no contexto até o fim da sessão
- ✓MCPs inativos ainda custam pelas definições
- ✓CLAUDE.md é re-injetado após compaction
✗ Erros comuns
- ✗Achar que "apagar a mensagem" remove do contexto
- ✗Deixar 20 MCPs ligados "porque não atrapalha"
- ✗Ignorar o tamanho do CLAUDE.md
📊 Onde vão os tokens
Para onde vai o contexto de uma sessão típica? Medindo dezenas de sessões reais, a distribuição é mais ou menos assim — e saber disso guia o que cortar primeiro.
Distribuição típica de uma sessão de 50k tokens
Valores aproximados. Use /context para ver a distribuição real da sua sessão.
💡 Dica prática: comece pelo histórico
O histórico é ~44% do contexto e você controla 100% dele. Resetar uma sessão longa zera essa fatia inteira. Por isso /clear + handoff é quase sempre a economia mais rápida possível.
🔍 Comando oficial: /context
No Claude Code, digite /context para ver um mapa em grade colorida do que está consumindo espaço. A documentação oficial diz:
"Shows optimization suggestions for context-heavy tools, memory bloat, and capacity warnings."
Fonte: docs.claude.com · Commands
🪟 A janela de contexto
Cada modelo Claude tem uma capacidade máxima de tokens que pode processar numa única chamada — isso é a janela de contexto. Mas atenção: janela não é meta. É margem.
Modelos Claude e suas janelas (abril 2026)
| Modelo | Contexto | Melhor uso |
|---|---|---|
| Claude Opus 4.7 | 1.000.000 | Raciocínio complexo, planos |
| Claude Sonnet 4.6 | 1.000.000 | Uso geral equilibrado |
| Claude Opus 4.6 | 1.000.000 | Tarefas pesadas |
| Claude Haiku 4.5 | 200.000 | Velocidade, execução barata |
| Claude Sonnet 4.5 | 200.000 | Compatibilidade, legacy |
Qualidade vs ocupação da janela (ilustrativo)
A qualidade cai progressivamente bem antes do limite. A Anthropic recomenda operar entre 0–50% da janela para resultados consistentes.
⚠️ Janela ≠ meta
Ter 1M tokens disponíveis não significa que você deve chegar lá. Chegar a 80% custa 8× mais que 10% e o modelo já estará lutando para manter coerência. Trate a janela como o limite do seu combustível — não como o destino.
🔢 O que é um token
Token não é palavra nem caractere — é uma unidade intermediária usada pelo tokenizer do Claude. Ter intuição de tamanho te ajuda a decidir o que vale anexar e o que é gordura.
📐Regra de bolso
por token
por token
1.000 tokens
Exemplo: como o tokenizer "vê" uma frase
Densidade por tipo de conteúdo
| Conteúdo | Tokens aprox. | Notas |
|---|---|---|
| 📝 Texto em português | ~1k / 750 palavras | Baseline |
| 💻 Código Python | ~1k / 80 linhas | Denso: símbolos, identação |
| 🌐 HTML com Tailwind | ~1k / 40 linhas | Muita sintaxe |
| 📊 JSON formatado | ~1k / 30 linhas | Aspas e vírgulas inflam |
| 📄 PDF (por página) | 1.500–3.000 | Oficial Anthropic |
💰 Input vs Output pricing
Aqui tem uma surpresa para muita gente: em uma sessão longa, o custo não vem do output — vem do input acumulado. Saber disso muda onde você coloca esforço de otimização.
Preços por 1M tokens (Anthropic, 2026)
| Modelo | Input base | Cache read | Output |
|---|---|---|---|
| Opus 4.7 | US$ 15 | US$ 1,50 | US$ 75 |
| Sonnet 4.6 | US$ 3 | US$ 0,30 | US$ 15 |
| Haiku 4.5 | US$ 1 | US$ 0,10 | US$ 5 |
Valores de referência. Preço oficial atualizado em platform.claude.com.
📊Onde mora o custo em uma sessão típica
Moral: cortar input em 50% economiza bem mais que limitar output.
💡A alavanca certa
Em vez de "responda curto", foque em: reduzir histórico (reset cedo), não anexar arquivos gigantes, delegar saídas verbosas para subagentes. Isso ataca a fatia de input acumulado, que é onde o dinheiro realmente sai.
🎯 Por que isso importa para você
Entender anatomia do contexto muda 5 decisões que você toma toda semana — talvez todo dia. Cada uma com impacto direto no seu custo e qualidade.
Quantos arquivos abrir?
Antes: "abre tudo que parece relevante". Agora: abrir só o necessário, porque cada arquivo fica no contexto até o fim.
Quando limpar a sessão?
Antes: "quando der problema". Agora: a cada 20–30 turns por prevenção — antes de estourar.
Como estruturar prompts?
Antes: "mando tudo junto". Agora: estático primeiro (para cache), dinâmico no final.
Quando delegar?
Antes: "faz tudo aqui mesmo". Agora: pesquisa e saídas verbosas vão para subagente — contexto principal fica limpo.
Quando reiniciar?
Antes: "só quando der ruim". Agora: proativamente — handoff estruturado, /clear, continuar limpo.
🏆A meta-skill
Intencionalidade com contexto é a habilidade que destrava todas as outras do curso. Sem ela, o resto são dicas soltas. Com ela, cada decisão técnica (delegar, resumir, cachear) vira natural.
📋Resumo do Módulo
Próximo módulo:
1.2 — 🔄 A Releitura a Cada Mensagem
Por que o custo cresce em curva e como prompt caching muda o jogo.