1.1 Anatomia do Contexto | Mestre em Contexto e Tokens

🎒 O que está no contexto

Quando você digita uma mensagem no Claude Code, o modelo não recebe apenas essa mensagem. Ele recebe um pacote completo com 6 categorias de informação que precisam ser reprocessadas do zero a cada turno. Entender cada camada é o primeiro passo para controlar o custo.

As 6 camadas do contexto (do fixo ao volátil)

⚙️

1. System Prompt

Instruções internas do Claude Code. Você não controla diretamente, mas existem — ~2–4k tokens.

fixo

📘

2. CLAUDE.md

Suas instruções persistentes. Carregado automaticamente no início e re-injetado após compaction.

fixo

🛠️

3. Ferramentas & MCPs

Definições JSON de cada tool disponível. Muitos MCPs = muito overhead de contexto.

semi-fixo

📚

4. Skills ativas

Carregam sob demanda (até 5k tokens cada, budget de 25k combinado).

on-demand

💬

5. Histórico da conversa

Todas as mensagens anteriores + saídas de ferramentas + arquivos lidos. Cresce sem parar.

cresce

✏️

6. Sua mensagem atual

O texto que você acabou de digitar. Única parte "nova" em cada turno.

novo

✓ Mentalidade correta

✓Todo arquivo lido continua no contexto até o fim da sessão
✓MCPs inativos ainda custam pelas definições
✓CLAUDE.md é re-injetado após compaction

✗ Erros comuns

✗Achar que "apagar a mensagem" remove do contexto
✗Deixar 20 MCPs ligados "porque não atrapalha"
✗Ignorar o tamanho do CLAUDE.md

📊 Onde vão os tokens

Para onde vai o contexto de uma sessão típica? Medindo dezenas de sessões reais, a distribuição é mais ou menos assim — e saber disso guia o que cortar primeiro.

Distribuição típica de uma sessão de 50k tokens

💬 Histórico da conversa~22k • 44%

📄 Arquivos e leituras~13k • 26%

🛠️ Ferramentas & saídas~8k • 16%

⚙️ System + Skills~5k • 10%

📘 CLAUDE.md + outros~2k • 4%

Valores aproximados. Use /context para ver a distribuição real da sua sessão.

💡 Dica prática: comece pelo histórico

O histórico é ~44% do contexto e você controla 100% dele. Resetar uma sessão longa zera essa fatia inteira. Por isso /clear + handoff é quase sempre a economia mais rápida possível.

🔍 Comando oficial: `/context`

No Claude Code, digite /context para ver um mapa em grade colorida do que está consumindo espaço. A documentação oficial diz:

"Shows optimization suggestions for context-heavy tools, memory bloat, and capacity warnings."

Fonte: docs.claude.com · Commands

🪟 A janela de contexto

Cada modelo Claude tem uma capacidade máxima de tokens que pode processar numa única chamada — isso é a janela de contexto. Mas atenção: janela não é meta. É margem.

Modelos Claude e suas janelas (abril 2026)

Modelo	Contexto	Melhor uso
Claude Opus 4.7	1.000.000	Raciocínio complexo, planos
Claude Sonnet 4.6	1.000.000	Uso geral equilibrado
Claude Opus 4.6	1.000.000	Tarefas pesadas
Claude Haiku 4.5	200.000	Velocidade, execução barata
Claude Sonnet 4.5	200.000	Compatibilidade, legacy

Qualidade vs ocupação da janela (ilustrativo)

0%30%60%90%+

A qualidade cai progressivamente bem antes do limite. A Anthropic recomenda operar entre 0–50% da janela para resultados consistentes.

⚠️ Janela ≠ meta

Ter 1M tokens disponíveis não significa que você deve chegar lá. Chegar a 80% custa 8× mais que 10% e o modelo já estará lutando para manter coerência. Trate a janela como o limite do seu combustível — não como o destino.

🔢 O que é um token

Token não é palavra nem caractere — é uma unidade intermediária usada pelo tokenizer do Claude. Ter intuição de tamanho te ajuda a decidir o que vale anexar e o que é gordura.

📐Regra de bolso

caracteres
por token

~0,75

palavra
por token

~750

palavras em
1.000 tokens

Exemplo: como o tokenizer "vê" uma frase

Texto original:

"Mestre em Contexto e Tokens"

Tokens separados:

Mestre _em _Con texto _e _T okens

7 tokens • 28 caracteres • ≈ 4 chars/token

Densidade por tipo de conteúdo

Conteúdo	Tokens aprox.	Notas
📝 Texto em português	~1k / 750 palavras	Baseline
💻 Código Python	~1k / 80 linhas	Denso: símbolos, identação
🌐 HTML com Tailwind	~1k / 40 linhas	Muita sintaxe
📊 JSON formatado	~1k / 30 linhas	Aspas e vírgulas inflam
📄 PDF (por página)	1.500–3.000	Oficial Anthropic

💰 Input vs Output pricing

Aqui tem uma surpresa para muita gente: em uma sessão longa, o custo não vem do output — vem do input acumulado. Saber disso muda onde você coloca esforço de otimização.

Preços por 1M tokens (Anthropic, 2026)

Modelo	Input base	Cache read	Output
Opus 4.7	US$ 15	US$ 1,50	US$ 75
Sonnet 4.6	US$ 3	US$ 0,30	US$ 15
Haiku 4.5	US$ 1	US$ 0,10	US$ 5

Valores de referência. Preço oficial atualizado em platform.claude.com.

📊Onde mora o custo em uma sessão típica

30 turnos, média de 40k tokens de contexto, 1k de output por turno

Input acumulado (sem cache)~1,2M tokens

Output total~30k tokens

Ratio input/output40× mais input

Moral: cortar input em 50% economiza bem mais que limitar output.

💡A alavanca certa

Em vez de "responda curto", foque em: reduzir histórico (reset cedo), não anexar arquivos gigantes, delegar saídas verbosas para subagentes. Isso ataca a fatia de input acumulado, que é onde o dinheiro realmente sai.

🎯 Por que isso importa para você

Entender anatomia do contexto muda 5 decisões que você toma toda semana — talvez todo dia. Cada uma com impacto direto no seu custo e qualidade.

Quantos arquivos abrir?

Antes: "abre tudo que parece relevante". Agora: abrir só o necessário, porque cada arquivo fica no contexto até o fim.

Quando limpar a sessão?

Antes: "quando der problema". Agora: a cada 20–30 turns por prevenção — antes de estourar.

Como estruturar prompts?

Antes: "mando tudo junto". Agora: estático primeiro (para cache), dinâmico no final.

Quando delegar?

Antes: "faz tudo aqui mesmo". Agora: pesquisa e saídas verbosas vão para subagente — contexto principal fica limpo.

Quando reiniciar?

Antes: "só quando der ruim". Agora: proativamente — handoff estruturado, /clear, continuar limpo.

🏆A meta-skill

Intencionalidade com contexto é a habilidade que destrava todas as outras do curso. Sem ela, o resto são dicas soltas. Com ela, cada decisão técnica (delegar, resumir, cachear) vira natural.

📋Resumo do Módulo

✓

6 camadas de contexto — System, CLAUDE.md, Tools/MCPs, Skills, Histórico, Mensagem atual

✓

Onde mora o custo — Histórico (~44%) + Arquivos (~26%) dominam

✓

Janela não é meta — Opere entre 0–50% para qualidade consistente

✓

Token ≈ 4 caracteres — Código e JSON são mais densos que texto

✓

Input acumulado domina o custo — Cortar histórico vale mais que cortar output

✓

5 decisões diárias mudam — Arquivos, limpeza, prompts, delegação, reinício

Próximo módulo:

1.2 — 🔄 A Releitura a Cada Mensagem

Por que o custo cresce em curva e como prompt caching muda o jogo.

← Voltar para Trilha Próximo: Releitura →