Conteúdo Detalhado
💎 Engenharia de Prompt Caching
O cache do Claude Code está ativo por padrão — mas você pode potencializar se estruturar o prompt certo.
A Anthropic armazena o prefixo exato do prompt no servidor. TTL padrão 5 min, opcional 1h (sem beta header desde 2025). Escrita custa 1,25× (5min) ou 2× (1h); leitura custa 0,1× do input.
Cache é por modelo — trocar de Sonnet para Opus invalida. Entender o mecanismo é pré-requisito para não quebrá-lo acidentalmente.
Prefixo idêntico, TTL, ratio de 90% desconto na leitura.
Sessão de 50k tokens × 20 turnos sem cache: ~US$ 3,00 em input. Com cache bem usado: ~US$ 0,48. Ratio: 6,25×.
Ver os números concretos dá intuição. Em projetos grandes, a diferença é centenas de dólares por mês.
Tabela comparativa com breakdown de cada cenário.
System prompt (topo, sempre cache) → CLAUDE.md (cache se estável) → arquivos fixos → histórico → mensagem atual (sem cache).
Ordenação é crítica. Mudar uma vírgula no topo invalida tudo depois. Pense em camadas.
Regra: não edite CLAUDE.md ou skills no meio da sessão.
A API da Anthropic aceita até 4 pontos de cache via cache_control: {"type": "ephemeral"}. O Claude Code gerencia automaticamente.
Se você usar a API direto (SDK ou projeto próprio), saber onde marcar checkpoints multiplica a economia.
Exemplo JSON de request com cache_control em 3 pontos.
Editar CLAUDE.md em runtime, ativar/desativar MCPs, timestamp dinâmico no system, mudar ordem de arquivos, trocar modelo, TTL expirado.
Você pode estar pagando preço cheio sem saber. Diagnosticar isso economiza muito.
Estabilidade do prefixo = dinheiro no bolso.
Caso real: equipe que estruturou projeto com CLAUDE.md estável e arquivos fixos. Custo mensal caiu de US$ 850 para US$ 140, mesmo volume de trabalho.
Números concretos justificam o esforço de configurar bem. É ROI medido, não promessa.
Tabela antes/depois com breakdown por categoria de gasto.
🎭 Orquestração Multi-Modelo
Opus é caro. Haiku é barato. Se você usar certo, economiza 80% sem perder qualidade.
Opus analisa o problema complexo e produz plano detalhado → Haiku executa cada passo em paralelo → Opus revisa o resultado final.
Economiza 5–10× de custo em tarefas repetitivas sem sacrificar qualidade do raciocínio.
Diagrama: Opus (1×) → Haiku × 5 (paralelo) → Opus revisa.
No arquivo .claude/agents/meu-agente.md, adicione model: haiku no frontmatter para forçar o modelo escolhido.
Agentes de busca, formatação e sumarização não precisam de Opus. Force Haiku e economize 15×.
Estrutura completa de agente com name, description, model.
Opus 4.7: US$ 15/1,50/75. Sonnet 4.6: US$ 3/0,30/15. Haiku 4.5: US$ 1/0,10/5. (input/cache-read/output por 1M tokens).
Opus custa 15× Haiku. Trocar de modelo onde faz sentido é a maior alavanca de custo disponível.
Tabela completa oficial, cache rate, output rate.
Opus: raciocínio complexo, arquitetura, código crítico. Sonnet: uso geral, 90% das tarefas. Haiku: execução repetitiva, formatação, busca, sumarização.
Default Opus é desperdício. Default Haiku é subutilização. Saber escolher é o core da disciplina.
Matriz de decisão: complexidade × repetição × criticidade.
Documentar 20 arquivos: Opus sequencial = US$ 6 em 40 min. Haiku paralelo (5 agentes × 4 arquivos) = US$ 0,80 em 8 min.
Paralelização + modelo barato = combinação mais poderosa para tarefas em lote.
Economia de 7,5× em custo, 5× em tempo, mesmo resultado.
Equipe de 5 devs. Antes: tudo em Opus, US$ 2.100/mês. Depois: Opus planos/revisões (20%), Sonnet geral (50%), Haiku execução (30%). Total: US$ 420/mês.
Mesma produtividade. O que mudou foi distribuir trabalho pelo modelo correto.
Breakdown por tipo de chamada com % de uso e custo.
🔬 Auditoria de Contexto
O que está comendo seu contexto? Descubra e corte.
Comando oficial que mostra grade visual colorida + sugestões de otimização + alertas de memory bloat. Execute regularmente (ex: ao passar 40% da janela).
Sem /context você otimiza no escuro. Com ele, cada decisão de cortar é informada por dado.
Screenshot ilustrado da saída do comando + interpretação.
Cada servidor MCP carregado adiciona definições de tools no contexto, mesmo se você não usar. claude mcp list mostra tudo ativo.
Muitas equipes carregam 15–20 MCPs. A maioria não usa 12+. Isso é overhead puro.
Como listar, medir, desabilitar.
Skills carregam sob demanda (até 5k cada, budget combinado 25k). Liste com claude skills. Skills raramente usadas não precisam estar instaladas globalmente.
Skills bem escolhidas potencializam. Muitas skills diluem. Disciplina é essencial.
Skills globais × locais, carga sob demanda, triagem.
Cada tool custom usa 200–1000 tokens só de definição. MCPs com muitas tools são os piores ofensores. Regra prática: MCP com >10 tools raramente vale o overhead.
Tools são "invisíveis" mas pesadas. Medir é o primeiro passo para cortar.
Tabela com overhead por tipo de MCP e como medir.
Remover MCPs não usados nos últimos 30 dias. Reduzir CLAUDE.md a <200 linhas. Desinstalar skills duplicadas. Não deixar arquivos grandes abertos "por precaução".
Lista acionável. Nada teórico. Execute em 15 minutos e ganhe 20% da janela.
Checklist 4 pontos prontos para executar.
Rodar /context no início de sessão típica. Listar MCPs. Revisar CLAUDE.md. Medir custo médio com /cost. Documentar mudanças.
Auditar é como escovar dente: precisa ser hábito. Checklist transforma disciplina em rotina.
Template claude-audit-YYYY-MM.md para documentar.
🧰 Ecossistema de Redução de Tokens
10 repositórios open-source para cortar 60–98% dos tokens em Claude Code. Proxies, MCPs, grafos e skills — cada um com seu nicho.
Binário Rust que intercepta a saída de comandos de terminal (git, cargo, docker, pytest…) e entrega versão comprimida antes de virar contexto. Zero dependências.
Saída de build/test são os maiores vilões silenciosos do contexto. RTK corta isso na fonte, sem mudar workflow.
rtk cargo test — só testes falhados. rtk git status — só o essencial. Funciona com Claude Code, Cursor, Copilot.
Plugin Claude Code que encapsula saída bruta de MCPs (Playwright, GitHub, logs) em um SQLite com FTS5. Só resumos limpos entram na conversa.
Quando você tem muitos MCPs, cada chamada despeja JSON gigante no contexto. Context Mode isola isso e devolve apenas o que importa.
/plugin install context-mode — depois peça uma pesquisa em repo gigante e rode /context-mode:ctx-stats para auditar ganho.
Constrói grafo local do seu código (imports, chamadas, símbolos) com Tree-sitter. Claude lê apenas o que é relevante para o diff, não o repo inteiro.
Em monorepos, a redução relatada é de 49× em tarefas diárias e 6,8× em revisões. É o "skill do repo grande".
pip install code-review-graph && code-review-graph build — depois peça ao Claude: "Build the code review graph for this project".
MCP server que indexa código por símbolos (funções, classes, imports) e serve recortes cirúrgicos em vez de arquivos inteiros. Memória persistente em SQLite.
69 tools prontas, sem dependências externas. Troca Read file inteiro por pegue só essa função em toda a sessão.
uvx token-savior-recall — configure como MCP. Lembra decisões entre sessões, cortando repetição de handoff.
Skill/plugin que instrui Claude a responder em estilo telegráfico ("caveman speak"). Zero adjetivos, zero preâmbulo. Precisão técnica intacta.
Ataca o lado output da equação — geralmente mais caro que input em Opus/Sonnet. Instalação de uma linha.
claude plugin install caveman@caveman. Ex.: "novo ref cada render. wrap em useMemo." em vez de parágrafo explicativo.
Arquivo CLAUDE.md pronto com instruções de concisão. Copia na raiz do projeto e pronto — respostas caem de 120 para 30 palavras.
Zero código, zero plugin. Ideal para quem quer resultado imediato sem tocar no stack.
curl -o CLAUDE.md https://raw.githubusercontent.com/drona23/claude-token-efficient/main/CLAUDE.md.
MCP server que detecta saídas repetidas de tools, cacheia, comprime e serve de volta sem custo de tokens. "Smart tool intelligence" para workflows pesados.
Complementa o cache da Anthropic em um nível acima: cacheia saída de tools, não só prompt.
Clone repo, npm install, configurar como MCP. Melhor em sessões longas que repetem consultas.
Script que reorganiza documentação do projeto: só 4 arquivos essenciais carregam por padrão (~800 tokens), o resto fica disponível sob demanda.
Caso real: projeto RedwoodJS caiu de 11.000 para 1.300 tokens só de boot. 5 minutos de setup, 90% de redução.
curl -fsSL .../init.sh | bash na raiz do projeto.
Detecta "ghost tokens" — desperdício estrutural invisível. Dashboard local em localhost:24842 acompanha qualidade do contexto ao vivo.
Atende o problema que /context só mostra por cima: degradação silenciosa ao longo da sessão, especialmente pós-compactação.
/plugin install token-optimizer@alexgreensh-token-optimizer → /token-optimizer para auditoria com 6 agentes paralelos.
MCP de busca semântica que indexa a base inteira em Milvus/Zilliz Cloud. Combina BM25 (keyword) com vetores densos (semântica) para retrieval preciso.
Para bases enormes (milhões de linhas). Transforma "codebase inteira" em contexto sob demanda, com qualidade de retrieval comparável a varredura completa.
claude mcp add claude-context -- npx @zilliz/claude-context-mcp@latest. Depois: "Find functions that handle user authentication".
🔧 Hands-on — Como Usar Cada Repo
Guia de bolso: pré-requisitos, comandos exatos, primeiro uso, como verificar que funcionou, pegadinhas comuns. Para os 10 repos do módulo 6.4.
macOS/Linux com Homebrew (ou binário direto do release).
brew install rtk → opcionalmente crie alias alias cargo='rtk cargo'.
rtk cargo test ou rtk npm test dentro da sessão Claude Code.
Saída compacta (só testes falhados + resumo) em vez da lista inteira.
Claude Code atualizado (suporte a plugins marketplace).
Dentro do CC: /plugin marketplace add mksglu/context-mode → /plugin install context-mode@context-mode.
Faça uma pesquisa pesada (ex: "pesquise issues do repo X") → rode /context-mode:ctx-stats.
A saída do MCP vem resumida; o comando de stats mostra tokens poupados.
Python 3.9+. Repo com estrutura estável (preferencialmente pós-commit).
pip install code-review-graph → code-review-graph install → code-review-graph build.
No Claude Code: "Use code review graph to analyze changes in src/UserService.ts".
Claude lista apenas 3–5 arquivos relevantes em vez de tentar abrir o repo inteiro.
uv instalado (curl -LsSf https://astral.sh/uv/install.sh | sh).
Adicione ao ~/.claude.json como MCP: "command": "uvx", "args": ["token-savior-recall"].
Peça ao Claude: "Find the definition of function processPayment" — ele usa símbolo, não grep.
Claude devolve só o recorte da função, não o arquivo inteiro. Memória persiste no próximo /clear.
Claude Code atualizado.
claude plugin marketplace add JuliusBrussee/caveman → claude plugin install caveman@caveman.
Ative (via comando do plugin) e peça qualquer coisa técnica. A resposta vem telegráfica.
Zero adjetivos, zero "Claro!", zero preâmbulo. Direto ao fato.
Em explicações complexas, pode ficar seco demais. Desative quando quiser tutorial didático.
Projeto com sua própria CLAUDE.md? Faça backup antes (vai ser sobrescrita).
curl -o CLAUDE.md https://raw.githubusercontent.com/drona23/claude-token-efficient/main/CLAUDE.md na raiz.
Recomece sessão (/clear) para carregar a nova CLAUDE.md, e peça revisão de código.
Resposta cai de ~120 para ~30 palavras com mesma qualidade técnica.
Mescle com a sua CLAUDE.md em vez de sobrescrever — senão perde contexto do projeto.
Node 18+, npm.
git clone https://github.com/ooples/token-optimizer-mcp && cd token-optimizer-mcp && npm install → configurar como MCP em ~/.claude.json.
Sessão longa com muitas chamadas de tools repetidas (ex: buscas GitHub). A segunda chamada igual vem do cache local.
Latência cai drasticamente em chamadas repetidas. Logs mostram hits de cache.
Projeto com documentação inflada no boot (CLAUDE.md longo, README pesado, /docs).
curl -fsSL https://raw.githubusercontent.com/nadimtuhin/claude-token-optimizer/main/init.sh | bash na raiz.
Recomece a sessão. Rode /context e compare com o estado anterior.
Tokens de boot caem. Docs antigas continuam disponíveis, mas carregam sob demanda.
Sessão com histórico significativo (ou pós-/compact) para detectar ghost tokens.
/plugin marketplace add alexgreensh/token-optimizer → /plugin install token-optimizer@alexgreensh-token-optimizer.
/token-optimizer para auditoria completa, ou python3 measure.py quick para check rápido.
Dashboard em localhost:24842 mostra ghost tokens detectados e sugestões de corte.
Node 20–22, conta Zilliz Cloud (free tier serve), chave OpenAI (para embeddings).
claude mcp add claude-context -e OPENAI_API_KEY=sk-... -e MILVUS_TOKEN=... -- npx @zilliz/claude-context-mcp@latest.
"Index this codebase" (leva minutos em repos grandes) → depois: "Find functions that handle user authentication".
Claude retorna resultados por relevância semântica em vez de grep literal.
Custo de embeddings na OpenAI (baixo, mas não zero). Monitore uso em repos enormes.