Conteúdo Detalhado
📦 Anatomia do Contexto
O que está dentro da janela? System prompt, CLAUDE.md, conversa, arquivos, ferramentas. Onde vai cada token.
System prompt, CLAUDE.md, instruções, histórico, arquivos lidos, skills, MCPs, definições de ferramentas — tudo isso é carregado no contexto a cada turno.
Sem enxergar o contexto inteiro, você otimiza errado. Arquivo lido no começo continua custando até o fim da sessão.
Contexto = soma de todas as entradas ativas. Não é apenas "sua mensagem" — é o universo inteiro que o Claude precisa reler para responder.
Histórico da conversa costuma ser ~40–50%, arquivos abertos ~20–30%, ferramentas/saídas ~15%, system+skills ~10%, o resto em overhead.
Saber onde mora o custo guia o que cortar primeiro. Cortar histórico é diferente de cortar arquivos.
Use /context no Claude Code para ver o mapa real da sua sessão.
Opus 4.7, Opus 4.6 e Sonnet 4.6 têm 1M tokens. Haiku 4.5 e Sonnet 4.5 têm 200k. Essa é a capacidade máxima — não a meta.
Qualidade começa a degradar bem antes do limite. Tratar 1M como espaço "para encher" é receita para context rot.
Janela = margem de segurança. Opere sempre muito abaixo dela.
Um token ≈ 4 caracteres em inglês, ≈ 0,75 palavra. Em português é parecido. 1.000 tokens ≈ 750 palavras ≈ 1,5 página de texto.
Intuição de tamanho ajuda a decidir o que anexar e o que cortar. Um arquivo de 10k linhas pode ser ~30–40k tokens.
Código denso tem mais tokens por caractere que texto. JSON e HTML também inflam.
Na API da Anthropic, output custa ~5× mais que input. Cache read custa ~0,1× do input. O grosso do custo numa sessão é o input acumulado.
Cortar contexto reduz input em toda chamada seguinte. Pedir respostas curtas corta output, mas é a menor fatia.
Input acumulado × número de turnos = onde mora o dinheiro.
Entender o contexto muda 5 decisões: quantos arquivos abrir, quando limpar, como estruturar prompts, quando delegar, quando reiniciar.
Sem esse modelo mental, você opera no reativo — só age quando estoura. Com ele, você previne.
Intencionalidade com contexto é a meta-skill que destrava todas as outras do curso.
🔄 A Releitura a Cada Mensagem
Por que o custo cresce em curva. Prompt caching, como usar, quando quebra, quanto economiza.
Entre chamadas de API não há estado persistente. Cada chamada é autossuficiente: o modelo recebe tudo de novo, processa, responde, esquece.
Não é "falha" da Anthropic — é como transformers funcionam. Não adianta pedir "lembre-se disso" sem que "isso" esteja visível no próximo turno.
Memória = contexto visível. "Lembrar" = anexar de volta na próxima mensagem.
Turno 1: envia 1k tokens. Turno 10: envia 15k (soma de todos). Turno 30: envia 80k. O custo por turno cresce porque inclui tudo antes.
Os últimos 30% de uma sessão custam mais que os primeiros 70% juntos. Por isso resetar cedo é econômico.
Custo de uma sessão ≈ soma quadrática dos turnos, não linear.
A Anthropic armazena prefixos do prompt e cobra só 0,1× do preço base ao ler. TTL padrão 5min, opcional 1h. O Claude Code aplica automaticamente.
Cache não elimina o crescimento do contexto, mas amacia bastante o custo. Entender como ele funciona ensina a não quebrá-lo.
Escrever no cache custa 1,25× (5min) ou 2× (1h). Ler = 0,1×.
O cache só funciona se o prefixo for idêntico. Coloque partes fixas no topo (system, CLAUDE.md, docs) e variáveis embaixo (pergunta atual).
Mudar uma vírgula no meio invalida tudo depois. Ordenação é crítica.
Pense em camadas: sistema → projeto → conversa → turno atual.
Editar CLAUDE.md no meio da sessão, mudar tools disponíveis, reordenar arquivos, timestamps dinâmicos no prompt — tudo invalida o cache.
Você pode estar pagando preço cheio sem saber. Diagnosticar isso economiza muito em sessões longas.
Estabilidade do prefixo = dinheiro no bolso.
Sessão de 20 turnos com 50k tokens de base: sem cache ~US$3 em input. Com cache bem usado: ~US$0,50. Diferença de 6×.
Ver os números concretos torna a disciplina palpável. Não é teoria — é o valor que fica ou sai do seu bolso.
O módulo completo traz a conta linha por linha.
🍂 Context Rot — O Apodrecimento
Qualidade cai antes do limite. Pesquisa Chroma, sintomas, por que acontece, como defender.
Em 2025 a Chroma publicou "Context Rot": 18 LLMs frontier (incluindo Opus 4) mostraram queda mensurável de qualidade conforme o input crescia — antes do limite.
É dado, não opinião. Justifica por que "encher a janela" é ruim mesmo quando tecnicamente cabe.
Termo "context rot" é da Chroma, não oficial Anthropic. Fenômeno é arquitetural.
Repetição (refaz algo já feito), contradição (diz A agora e ~A antes), esquecimento (ignora instrução dada), decisões ruins (escolhe pior opção), tom quebrado (muda estilo).
Detectar cedo evita horas desperdiçadas "brigando" com o modelo.
Se ver qualquer um desses: pare, não empurre.
Transformers têm atenção finita: mais tokens = atenção mais diluída. Instruções do início ficam "distantes" e perdem peso relativo contra o meio/fim.
Explica por que a Anthropic recomenda colocar regras persistentes no CLAUDE.md em vez da conversa.
CLAUDE.md é re-injetado após compaction; conversa, não.
A cada ~10 turnos, pergunte: "resuma o objetivo atual em 2 linhas". Se sair divergente, é sinal de rot. Use /context para ver o gráfico.
Diagnóstico ativo > esperar o desastre. 10 segundos de check previnem 1 hora de retrabalho.
Check curto, cedo, sempre.
3 opções escalonadas: /compact (resumo mantendo sessão), /rewind (voltar ao ponto bom), /clear + handoff (reset total).
Saber qual ferramenta usar evita over-reset (perder trabalho) e under-reset (continuar sofrendo).
Trilha 2 destrincha cada um desses comandos com exemplos.
Não esperar rot acontecer. Trabalhar em ciclos de 20–30 mensagens. Resumir. Limpar. Continuar. Prevenir > remediar.
É a rotina central do curso, consolidada na Trilha 2. Todo o resto decorre daqui.
Rotina de ciclos curtos + handoff estruturado = 80% do ganho.