MÓDULO 6.4 AVANÇADO

🧰 Ecossistema de Redução de Tokens

10 repositórios open-source que atacam o consumo de tokens em ângulos diferentes. Proxies de terminal, MCPs de compressão, grafos Tree-sitter, skills de estilo. O objetivo não é usar todos — é escolher 2 ou 3 certos para o seu workflow.

10
Repositórios
45
Minutos
Avançado
Nível
Prático
Tipo

🎯A tese

A maior parte das pessoas queima tokens sem saber. Rodar /context em uma sessão fresca, antes de digitar qualquer coisa, revela quanto já foi gasto só com tool definitions, skills carregadas e MCPs instalados.

Os 10 repos abaixo atacam o problema em pontos diferentes da pipeline: entrada de terminal, saída de tools, indexação de código, estilo da resposta. Não são concorrentes — são complementares. O truque é escolher os 2–3 que combinam com como você trabalha.

Onde cada repo ataca no pipeline

📥 Entrada
  • • RTK (terminal)
  • • code-review-graph
  • • Token Savior
  • • claude-context
🔧 Tools
  • • Context Mode
  • • token-optimizer-mcp
📚 Docs/Setup
  • • claude-token-efficient
  • • claude-token-optimizer
  • • token-optimizer (ghost)
📤 Saída
  • • Caveman Claude
  • • claude-token-efficient
1

🦀 RTK — Rust Token Killer

↗ github.com/rtk-ai/rtk

Proxy CLI que filtra saída de terminal antes dela virar contexto

Comandos de build, test e lint são os maiores devoradores silenciosos de contexto. Um cargo test pode vomitar 15k tokens só de stack traces. RTK fica entre o shell e o Claude, entregando a versão útil.

Sem RTK

$ cargo test
running 247 tests
test tests::auth::login ... ok
test tests::auth::logout ... ok
... (244 linhas)
test tests::payment::refund ... FAILED
failures:
---- payment::refund stdout ----
thread 'main' panicked at...
  (80 linhas de stack trace)

~15k tokens despejados no contexto

Com RTK

$ rtk cargo test
247 tests: 246 passed, 1 failed

FAIL: tests::payment::refund
  src/payment.rs:142
  panicked: 'amount cannot be negative'
  called from: process_refund (line 98)

~800 tokens. Mesma informação útil.

Instalação

brew install rtk
# ou baixe o binário direto do release no GitHub

Funciona com Claude Code, Cursor e Copilot — qualquer agente que leia do seu terminal.

2

Sandboxes saída de MCPs em SQLite — até 98% de redução

MCPs de Playwright, GitHub e observabilidade despejam JSONs imensos no contexto a cada chamada. Context Mode intercepta essa saída bruta, armazena em SQLite com indexação FTS5, e devolve apenas sumários limpos para a conversa.

Instalação (Claude Code)

/plugin marketplace add mksglu/context-mode
/plugin install context-mode@context-mode

Exemplo de uso

Research https://github.com/modelcontextprotocol/servers —
arquitetura, stack tech, contribuidores, issues abertas.

Depois execute: /context-mode:ctx-stats

A saída bruta dos MCPs é armazenada; o Claude recebe só o resumo analítico.

3

Grafo local do código via Tree-sitter — 49× menos tokens em monorepos

Em vez do Claude ler o repo inteiro para entender um diff, o code-review-graph mapeia imports, chamadas e símbolos com Tree-sitter e devolve só os arquivos conectados ao que mudou. Resultado: 49× de redução em tarefas diárias e 6,8× em revisões médias.

Instalação

pip install code-review-graph
code-review-graph install
code-review-graph build

Exemplo prático

Você: "Build the code review graph for this project"
Claude: [grafo indexado]

Você: "Quais arquivos são afetados pela mudança em
       UserService.updateProfile()?"
Claude: lê apenas os 4 arquivos conectados,
        não o repo de 800 arquivos.
4

Navegação por símbolos + memória persistente, −97% em navegação

MCP com 69 tools que faz o Claude navegar o código por símbolos (funções, classes, variáveis) em vez de ler arquivos inteiros. Tem memória persistente em SQLite — decisões de uma sessão ficam disponíveis na próxima, sem precisar de handoff manual.

Instalação

uvx token-savior-recall
# depois configure como MCP no Claude Code

Combo poderoso

Token Savior + code-review-graph = navegação simbólica e grafo de dependências. Para monorepos, essa dupla é a mais forte da lista.

5

Estilo "caverna" corta 65–75% do output — precisão técnica intacta

O output do Claude é mais caro que o input (5× em Sonnet, 5× em Opus). Caveman instrui o Claude a responder em estilo telegráfico: zero adjetivos, zero preâmbulo, zero "Claro! Aqui está...". Só fato técnico.

Resposta padrão

"A razão pela qual seu componente React está sofrendo re-renderizações é provavelmente porque você está criando uma nova referência de objeto a cada render. Quando você passa um objeto inline como prop, o React interpreta isso como uma mudança, mesmo que o conteúdo seja idêntico..."

~120 palavras

Caveman

"Novo ref cada render. Inline obj prop = novo ref = re-render. Wrap em useMemo."

~15 palavras — mesma info

Instalação

claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman
6

📝 claude-token-efficient

↗ github.com/drona23/claude-token-efficient

CLAUDE.md drop-in que enxuga respostas — zero código

Se você quer redução imediata sem instalar nada, este é o caminho. Um único arquivo CLAUDE.md com instruções de concisão. Cola na raiz do projeto e pronto.

Instalação (uma linha)

curl -o CLAUDE.md \
  https://raw.githubusercontent.com/drona23/claude-token-efficient/main/CLAUDE.md

Efeito relatado: revisão de código cai de 120 para 30 palavras com mesma qualidade.

7

MCP com cache de tools e compressão — +95% de redução

Complementa o cache da Anthropic em um nível acima: em vez de cachear só o prefixo do prompt, cacheia saída de tools. Se o Claude chamar a mesma tool com os mesmos argumentos duas vezes, a segunda vem do cache local.

Instalação

git clone https://github.com/ooples/token-optimizer-mcp
cd token-optimizer-mcp
npm install
# depois configurar como MCP no ~/.claude.json
8

Setup em 5 min que reduz docs de 11k para 1,3k tokens

Script que reorganiza a documentação do projeto: só 4 arquivos essenciais carregam automaticamente (~800 tokens). O resto fica disponível para o Claude pedir sob demanda, sem custar tokens até ser usado.

Caso real (RedwoodJS)

Situação Tokens ao boot Contexto livre para código
Antes11.000~189k
Depois1.300~198k
Ganho−9.700+5% de janela útil

Instalação

curl -fsSL https://raw.githubusercontent.com/nadimtuhin/claude-token-optimizer/main/init.sh | bash
9

👻 token-optimizer (alexgreensh)

↗ github.com/alexgreensh/token-optimizer

Caça "ghost tokens" e mede degradação do contexto ao vivo

O /context mostra o que está carregado, mas não mostra qualidade do contexto. Ghost tokens são desperdícios estruturais invisíveis — definições duplicadas, tool schemas que nunca serão usados, histórico que o modelo já "esqueceu". Este repo detecta e corta.

Instalação

/plugin marketplace add alexgreensh/token-optimizer
/plugin install token-optimizer@alexgreensh-token-optimizer

Uso típico

# auditoria com 6 agentes paralelos
/token-optimizer

# ou verificação rápida via CLI
python3 measure.py quick

Dashboard em localhost:24842 atualiza após cada sessão. Essencial para sessões longas pós-/compact.

10

🔍 claude-context (Zilliz)

↗ github.com/zilliztech/claude-context

Busca híbrida BM25 + vetores para codebase gigante

Para bases verdadeiramente enormes (milhões de linhas, várias linguagens), este MCP indexa tudo em Milvus e combina BM25 (keyword) com vetores densos (semântica). Redução de ~40% mantendo qualidade de retrieval equivalente a varredura completa.

Instalação

claude mcp add claude-context \
  -e OPENAI_API_KEY=sk-... \
  -e MILVUS_TOKEN=... \
  -- npx @zilliz/claude-context-mcp@latest

Requer Node 20-22, conta Zilliz Cloud e chave OpenAI (para embeddings).

Uso típico

Você: "Index this codebase"
Claude: [indexa ~2M linhas em ~8 min]

Você: "Find functions that handle user authentication"
Claude: retorna os 5 arquivos relevantes em segundos,
        sem carregar o repo inteiro.

🧩 Como empilhar

Você não precisa de todos os 10. Escolha 2–3 baseado no seu gargalo real. Rode /context em uma sessão fresca antes de digitar qualquer coisa — veja quanto já foi gasto, e então escolha o combo certo.

💻

Sessão pesada em terminal

Muito build, test, log. Saída pesada.

RTK
📂

Monorepo grande

Claude precisa entender dependências.

code-review-graph + Token Savior
🔌

Muitos MCPs ativos

Saídas gigantes de Playwright/GitHub.

Context Mode

Só quero reduzir já

Zero setup, resultado em 5 minutos.

Caveman + claude-token-efficient
📚

Docs infladas no boot

CLAUDE.md longo, muitos READMEs.

claude-token-optimizer
🌐

Codebase gigante (multi-lang)

Milhões de linhas, precisa de busca.

claude-context (Zilliz)
💡 O teste mais honesto

Abra Claude Code em um projeto real. Antes de digitar qualquer coisa, rode /context.

O número que aparecer já é o seu piso: tudo que você conversar nesta sessão vai somar a isso. Se já estiver em 40% da janela, você tem um problema — e um dos 10 repos acima resolve.

📋 Todos os repos — referência rápida

Repo Nicho Redução Link
RTKProxy de terminal60–90%rtk-ai/rtk
Context ModeSandbox de tool output98%mksglu/context-mode
code-review-graphGrafo Tree-sitter49×tirth8205/code-review-graph
Token SaviorNavegação por símbolos97%Mibayy/token-savior
Caveman ClaudeEstilo de output65–75%JuliusBrussee/caveman
claude-token-efficientCLAUDE.md drop-in75%drona23/claude-token-efficient
token-optimizer-mcpCache de tools95%+ooples/token-optimizer-mcp
claude-token-optimizerReorg de docs90%nadimtuhin/claude-token-optimizer
token-optimizerGhost tokens + dashboardalexgreensh/token-optimizer
claude-contextBusca híbrida em codebase40%zilliztech/claude-context
← Módulo 6.3 Voltar para Trilha 6 →