Trilha 6 — Avançado | Mestre em Contexto e Tokens

Conteúdo Detalhado

6.1~35 min

💎 Engenharia de Prompt Caching

O cache do Claude Code está ativo por padrão — mas você pode potencializar se estruturar o prompt certo.

O que é:

A Anthropic armazena o prefixo exato do prompt no servidor. TTL padrão 5 min, opcional 1h (sem beta header desde 2025). Escrita custa 1,25× (5min) ou 2× (1h); leitura custa 0,1× do input.

Por que aprender:

Cache é por modelo — trocar de Sonnet para Opus invalida. Entender o mecanismo é pré-requisito para não quebrá-lo acidentalmente.

Conceitos-chave:

Prefixo idêntico, TTL, ratio de 90% desconto na leitura.

O que é:

Sessão de 50k tokens × 20 turnos sem cache: ~US$ 3,00 em input. Com cache bem usado: ~US$ 0,48. Ratio: 6,25×.

Por que aprender:

Ver os números concretos dá intuição. Em projetos grandes, a diferença é centenas de dólares por mês.

Conceitos-chave:

Tabela comparativa com breakdown de cada cenário.

O que é:

System prompt (topo, sempre cache) → CLAUDE.md (cache se estável) → arquivos fixos → histórico → mensagem atual (sem cache).

Por que aprender:

Ordenação é crítica. Mudar uma vírgula no topo invalida tudo depois. Pense em camadas.

Conceitos-chave:

Regra: não edite CLAUDE.md ou skills no meio da sessão.

O que é:

A API da Anthropic aceita até 4 pontos de cache via cache_control: {"type": "ephemeral"}. O Claude Code gerencia automaticamente.

Por que aprender:

Se você usar a API direto (SDK ou projeto próprio), saber onde marcar checkpoints multiplica a economia.

Conceitos-chave:

Exemplo JSON de request com cache_control em 3 pontos.

O que é:

Editar CLAUDE.md em runtime, ativar/desativar MCPs, timestamp dinâmico no system, mudar ordem de arquivos, trocar modelo, TTL expirado.

Por que aprender:

Você pode estar pagando preço cheio sem saber. Diagnosticar isso economiza muito.

Conceitos-chave:

Estabilidade do prefixo = dinheiro no bolso.

O que é:

Caso real: equipe que estruturou projeto com CLAUDE.md estável e arquivos fixos. Custo mensal caiu de US$ 850 para US$ 140, mesmo volume de trabalho.

Por que aprender:

Números concretos justificam o esforço de configurar bem. É ROI medido, não promessa.

Conceitos-chave:

Tabela antes/depois com breakdown por categoria de gasto.

Ver Completo

6.2~40 min

🎭 Orquestração Multi-Modelo

Opus é caro. Haiku é barato. Se você usar certo, economiza 80% sem perder qualidade.

O que é:

Opus analisa o problema complexo e produz plano detalhado → Haiku executa cada passo em paralelo → Opus revisa o resultado final.

Por que aprender:

Economiza 5–10× de custo em tarefas repetitivas sem sacrificar qualidade do raciocínio.

Conceitos-chave:

Diagrama: Opus (1×) → Haiku × 5 (paralelo) → Opus revisa.

O que é:

No arquivo .claude/agents/meu-agente.md, adicione model: haiku no frontmatter para forçar o modelo escolhido.

Por que aprender:

Agentes de busca, formatação e sumarização não precisam de Opus. Force Haiku e economize 15×.

Conceitos-chave:

Estrutura completa de agente com name, description, model.

O que é:

Opus 4.7: US$ 15/1,50/75. Sonnet 4.6: US$ 3/0,30/15. Haiku 4.5: US$ 1/0,10/5. (input/cache-read/output por 1M tokens).

Por que aprender:

Opus custa 15× Haiku. Trocar de modelo onde faz sentido é a maior alavanca de custo disponível.

Conceitos-chave:

Tabela completa oficial, cache rate, output rate.

O que é:

Opus: raciocínio complexo, arquitetura, código crítico. Sonnet: uso geral, 90% das tarefas. Haiku: execução repetitiva, formatação, busca, sumarização.

Por que aprender:

Default Opus é desperdício. Default Haiku é subutilização. Saber escolher é o core da disciplina.

Conceitos-chave:

Matriz de decisão: complexidade × repetição × criticidade.

O que é:

Documentar 20 arquivos: Opus sequencial = US$ 6 em 40 min. Haiku paralelo (5 agentes × 4 arquivos) = US$ 0,80 em 8 min.

Por que aprender:

Paralelização + modelo barato = combinação mais poderosa para tarefas em lote.

Conceitos-chave:

Economia de 7,5× em custo, 5× em tempo, mesmo resultado.

O que é:

Equipe de 5 devs. Antes: tudo em Opus, US$ 2.100/mês. Depois: Opus planos/revisões (20%), Sonnet geral (50%), Haiku execução (30%). Total: US$ 420/mês.

Por que aprender:

Mesma produtividade. O que mudou foi distribuir trabalho pelo modelo correto.

Conceitos-chave:

Breakdown por tipo de chamada com % de uso e custo.

Ver Completo

6.3~30 min

🔬 Auditoria de Contexto

O que está comendo seu contexto? Descubra e corte.

O que é:

Comando oficial que mostra grade visual colorida + sugestões de otimização + alertas de memory bloat. Execute regularmente (ex: ao passar 40% da janela).

Por que aprender:

Sem /context você otimiza no escuro. Com ele, cada decisão de cortar é informada por dado.

Conceitos-chave:

Screenshot ilustrado da saída do comando + interpretação.

O que é:

Cada servidor MCP carregado adiciona definições de tools no contexto, mesmo se você não usar. claude mcp list mostra tudo ativo.

Por que aprender:

Muitas equipes carregam 15–20 MCPs. A maioria não usa 12+. Isso é overhead puro.

Conceitos-chave:

Como listar, medir, desabilitar.

O que é:

Skills carregam sob demanda (até 5k cada, budget combinado 25k). Liste com claude skills. Skills raramente usadas não precisam estar instaladas globalmente.

Por que aprender:

Skills bem escolhidas potencializam. Muitas skills diluem. Disciplina é essencial.

Conceitos-chave:

Skills globais × locais, carga sob demanda, triagem.

O que é:

Cada tool custom usa 200–1000 tokens só de definição. MCPs com muitas tools são os piores ofensores. Regra prática: MCP com >10 tools raramente vale o overhead.

Por que aprender:

Tools são "invisíveis" mas pesadas. Medir é o primeiro passo para cortar.

Conceitos-chave:

Tabela com overhead por tipo de MCP e como medir.

O que é:

Remover MCPs não usados nos últimos 30 dias. Reduzir CLAUDE.md a <200 linhas. Desinstalar skills duplicadas. Não deixar arquivos grandes abertos "por precaução".

Por que aprender:

Lista acionável. Nada teórico. Execute em 15 minutos e ganhe 20% da janela.

Conceitos-chave:

Checklist 4 pontos prontos para executar.

O que é:

Rodar /context no início de sessão típica. Listar MCPs. Revisar CLAUDE.md. Medir custo médio com /cost. Documentar mudanças.

Por que aprender:

Auditar é como escovar dente: precisa ser hábito. Checklist transforma disciplina em rotina.

Conceitos-chave:

Template claude-audit-YYYY-MM.md para documentar.

Ver Completo

6.4~45 min

🧰 Ecossistema de Redução de Tokens

10 repositórios open-source para cortar 60–98% dos tokens em Claude Code. Proxies, MCPs, grafos e skills — cada um com seu nicho.

O que é:

Binário Rust que intercepta a saída de comandos de terminal (git, cargo, docker, pytest…) e entrega versão comprimida antes de virar contexto. Zero dependências.

Por que aprender:

Saída de build/test são os maiores vilões silenciosos do contexto. RTK corta isso na fonte, sem mudar workflow.

Uso típico:

rtk cargo test — só testes falhados. rtk git status — só o essencial. Funciona com Claude Code, Cursor, Copilot.

O que é:

Plugin Claude Code que encapsula saída bruta de MCPs (Playwright, GitHub, logs) em um SQLite com FTS5. Só resumos limpos entram na conversa.

Por que aprender:

Quando você tem muitos MCPs, cada chamada despeja JSON gigante no contexto. Context Mode isola isso e devolve apenas o que importa.

Uso típico:

/plugin install context-mode — depois peça uma pesquisa em repo gigante e rode /context-mode:ctx-stats para auditar ganho.

O que é:

Constrói grafo local do seu código (imports, chamadas, símbolos) com Tree-sitter. Claude lê apenas o que é relevante para o diff, não o repo inteiro.

Por que aprender:

Em monorepos, a redução relatada é de 49× em tarefas diárias e 6,8× em revisões. É o "skill do repo grande".

Uso típico:

pip install code-review-graph && code-review-graph build — depois peça ao Claude: "Build the code review graph for this project".

O que é:

MCP server que indexa código por símbolos (funções, classes, imports) e serve recortes cirúrgicos em vez de arquivos inteiros. Memória persistente em SQLite.

Por que aprender:

69 tools prontas, sem dependências externas. Troca Read file inteiro por pegue só essa função em toda a sessão.

Uso típico:

uvx token-savior-recall — configure como MCP. Lembra decisões entre sessões, cortando repetição de handoff.

O que é:

Skill/plugin que instrui Claude a responder em estilo telegráfico ("caveman speak"). Zero adjetivos, zero preâmbulo. Precisão técnica intacta.

Por que aprender:

Ataca o lado output da equação — geralmente mais caro que input em Opus/Sonnet. Instalação de uma linha.

Uso típico:

claude plugin install caveman@caveman. Ex.: "novo ref cada render. wrap em useMemo." em vez de parágrafo explicativo.

O que é:

Arquivo CLAUDE.md pronto com instruções de concisão. Copia na raiz do projeto e pronto — respostas caem de 120 para 30 palavras.

Por que aprender:

Zero código, zero plugin. Ideal para quem quer resultado imediato sem tocar no stack.

Uso típico:

curl -o CLAUDE.md https://raw.githubusercontent.com/drona23/claude-token-efficient/main/CLAUDE.md.

O que é:

MCP server que detecta saídas repetidas de tools, cacheia, comprime e serve de volta sem custo de tokens. "Smart tool intelligence" para workflows pesados.

Por que aprender:

Complementa o cache da Anthropic em um nível acima: cacheia saída de tools, não só prompt.

Uso típico:

Clone repo, npm install, configurar como MCP. Melhor em sessões longas que repetem consultas.

O que é:

Script que reorganiza documentação do projeto: só 4 arquivos essenciais carregam por padrão (~800 tokens), o resto fica disponível sob demanda.

Por que aprender:

Caso real: projeto RedwoodJS caiu de 11.000 para 1.300 tokens só de boot. 5 minutos de setup, 90% de redução.

Uso típico:

curl -fsSL .../init.sh | bash na raiz do projeto.

O que é:

Detecta "ghost tokens" — desperdício estrutural invisível. Dashboard local em localhost:24842 acompanha qualidade do contexto ao vivo.

Por que aprender:

Atende o problema que /context só mostra por cima: degradação silenciosa ao longo da sessão, especialmente pós-compactação.

Uso típico:

/plugin install token-optimizer@alexgreensh-token-optimizer → /token-optimizer para auditoria com 6 agentes paralelos.

O que é:

MCP de busca semântica que indexa a base inteira em Milvus/Zilliz Cloud. Combina BM25 (keyword) com vetores densos (semântica) para retrieval preciso.

Por que aprender:

Para bases enormes (milhões de linhas). Transforma "codebase inteira" em contexto sob demanda, com qualidade de retrieval comparável a varredura completa.

Uso típico:

claude mcp add claude-context -- npx @zilliz/claude-context-mcp@latest. Depois: "Find functions that handle user authentication".

Ver Completo

6.5~60 min

🔧 Hands-on — Como Usar Cada Repo

Guia de bolso: pré-requisitos, comandos exatos, primeiro uso, como verificar que funcionou, pegadinhas comuns. Para os 10 repos do módulo 6.4.

Pré-requisito:

macOS/Linux com Homebrew (ou binário direto do release).

Setup:

brew install rtk → opcionalmente crie alias alias cargo='rtk cargo'.

Primeiro uso:

rtk cargo test ou rtk npm test dentro da sessão Claude Code.

Como saber que funcionou:

Saída compacta (só testes falhados + resumo) em vez da lista inteira.

Pré-requisito:

Claude Code atualizado (suporte a plugins marketplace).

Setup:

Dentro do CC: /plugin marketplace add mksglu/context-mode → /plugin install context-mode@context-mode.

Primeiro uso:

Faça uma pesquisa pesada (ex: "pesquise issues do repo X") → rode /context-mode:ctx-stats.

Como saber que funcionou:

A saída do MCP vem resumida; o comando de stats mostra tokens poupados.

Pré-requisito:

Python 3.9+. Repo com estrutura estável (preferencialmente pós-commit).

Setup:

pip install code-review-graph → code-review-graph install → code-review-graph build.

Primeiro uso:

No Claude Code: "Use code review graph to analyze changes in src/UserService.ts".

Como saber que funcionou:

Claude lista apenas 3–5 arquivos relevantes em vez de tentar abrir o repo inteiro.

Pré-requisito:

uv instalado (curl -LsSf https://astral.sh/uv/install.sh | sh).

Setup:

Adicione ao ~/.claude.json como MCP: "command": "uvx", "args": ["token-savior-recall"].

Primeiro uso:

Peça ao Claude: "Find the definition of function processPayment" — ele usa símbolo, não grep.

Como saber que funcionou:

Claude devolve só o recorte da função, não o arquivo inteiro. Memória persiste no próximo /clear.

Pré-requisito:

Claude Code atualizado.

Setup:

claude plugin marketplace add JuliusBrussee/caveman → claude plugin install caveman@caveman.

Primeiro uso:

Ative (via comando do plugin) e peça qualquer coisa técnica. A resposta vem telegráfica.

Como saber que funcionou:

Zero adjetivos, zero "Claro!", zero preâmbulo. Direto ao fato.

⚠️ Pegadinha:

Em explicações complexas, pode ficar seco demais. Desative quando quiser tutorial didático.

Pré-requisito:

Projeto com sua própria CLAUDE.md? Faça backup antes (vai ser sobrescrita).

Setup:

curl -o CLAUDE.md https://raw.githubusercontent.com/drona23/claude-token-efficient/main/CLAUDE.md na raiz.

Primeiro uso:

Recomece sessão (/clear) para carregar a nova CLAUDE.md, e peça revisão de código.

Como saber que funcionou:

Resposta cai de ~120 para ~30 palavras com mesma qualidade técnica.

⚠️ Pegadinha:

Mescle com a sua CLAUDE.md em vez de sobrescrever — senão perde contexto do projeto.

Pré-requisito:

Node 18+, npm.

Setup:

git clone https://github.com/ooples/token-optimizer-mcp && cd token-optimizer-mcp && npm install → configurar como MCP em ~/.claude.json.

Primeiro uso:

Sessão longa com muitas chamadas de tools repetidas (ex: buscas GitHub). A segunda chamada igual vem do cache local.

Como saber que funcionou:

Latência cai drasticamente em chamadas repetidas. Logs mostram hits de cache.

Pré-requisito:

Projeto com documentação inflada no boot (CLAUDE.md longo, README pesado, /docs).

Setup:

curl -fsSL https://raw.githubusercontent.com/nadimtuhin/claude-token-optimizer/main/init.sh | bash na raiz.

Primeiro uso:

Recomece a sessão. Rode /context e compare com o estado anterior.

Como saber que funcionou:

Tokens de boot caem. Docs antigas continuam disponíveis, mas carregam sob demanda.

Pré-requisito:

Sessão com histórico significativo (ou pós-/compact) para detectar ghost tokens.

Setup:

/plugin marketplace add alexgreensh/token-optimizer → /plugin install token-optimizer@alexgreensh-token-optimizer.

Primeiro uso:

/token-optimizer para auditoria completa, ou python3 measure.py quick para check rápido.

Como saber que funcionou:

Dashboard em localhost:24842 mostra ghost tokens detectados e sugestões de corte.

Pré-requisito:

Node 20–22, conta Zilliz Cloud (free tier serve), chave OpenAI (para embeddings).

Setup:

claude mcp add claude-context -e OPENAI_API_KEY=sk-... -e MILVUS_TOKEN=... -- npx @zilliz/claude-context-mcp@latest.

Primeiro uso:

"Index this codebase" (leva minutos em repos grandes) → depois: "Find functions that handle user authentication".

Como saber que funcionou:

Claude retorna resultados por relevância semântica em vez de grep literal.

⚠️ Pegadinha:

Custo de embeddings na OpenAI (baixo, mas não zero). Monitore uso em repos enormes.

Ver Completo

← Voltar Trilha 5 Voltar para Landing →