6.4 Ecossistema de Redução de Tokens | Mestre em Contexto e Tokens

🎯A tese

A maior parte das pessoas queima tokens sem saber. Rodar /context em uma sessão fresca, antes de digitar qualquer coisa, revela quanto já foi gasto só com tool definitions, skills carregadas e MCPs instalados.

Os 10 repos abaixo atacam o problema em pontos diferentes da pipeline: entrada de terminal, saída de tools, indexação de código, estilo da resposta. Não são concorrentes — são complementares. O truque é escolher os 2–3 que combinam com como você trabalha.

Onde cada repo ataca no pipeline

📥 Entrada

• RTK (terminal)
• code-review-graph
• Token Savior
• claude-context

🔧 Tools

• Context Mode
• token-optimizer-mcp

📚 Docs/Setup

• claude-token-efficient
• claude-token-optimizer
• token-optimizer (ghost)

📤 Saída

• Caveman Claude
• claude-token-efficient

1

🦀 RTK — Rust Token Killer

↗ github.com/rtk-ai/rtk

Proxy CLI que filtra saída de terminal antes dela virar contexto

Comandos de build, test e lint são os maiores devoradores silenciosos de contexto. Um cargo test pode vomitar 15k tokens só de stack traces. RTK fica entre o shell e o Claude, entregando a versão útil.

❌Sem RTK

$ cargo test
running 247 tests
test tests::auth::login ... ok
test tests::auth::logout ... ok
... (244 linhas)
test tests::payment::refund ... FAILED
failures:
---- payment::refund stdout ----
thread 'main' panicked at...
  (80 linhas de stack trace)

~15k tokens despejados no contexto

✅Com RTK

$ rtk cargo test
247 tests: 246 passed, 1 failed

FAIL: tests::payment::refund
  src/payment.rs:142
  panicked: 'amount cannot be negative'
  called from: process_refund (line 98)

~800 tokens. Mesma informação útil.

Instalação

brew install rtk
# ou baixe o binário direto do release no GitHub

Funciona com Claude Code, Cursor e Copilot — qualquer agente que leia do seu terminal.

2

📦 Context Mode

↗ github.com/mksglu/context-mode

Sandboxes saída de MCPs em SQLite — até 98% de redução

MCPs de Playwright, GitHub e observabilidade despejam JSONs imensos no contexto a cada chamada. Context Mode intercepta essa saída bruta, armazena em SQLite com indexação FTS5, e devolve apenas sumários limpos para a conversa.

Instalação (Claude Code)

/plugin marketplace add mksglu/context-mode
/plugin install context-mode@context-mode

Exemplo de uso

Research https://github.com/modelcontextprotocol/servers —
arquitetura, stack tech, contribuidores, issues abertas.

Depois execute: /context-mode:ctx-stats

A saída bruta dos MCPs é armazenada; o Claude recebe só o resumo analítico.

3

🌳 code-review-graph

↗ github.com/tirth8205/code-review-graph

Grafo local do código via Tree-sitter — 49× menos tokens em monorepos

Em vez do Claude ler o repo inteiro para entender um diff, o code-review-graph mapeia imports, chamadas e símbolos com Tree-sitter e devolve só os arquivos conectados ao que mudou. Resultado: 49× de redução em tarefas diárias e 6,8× em revisões médias.

Instalação

pip install code-review-graph
code-review-graph install
code-review-graph build

Exemplo prático

Você: "Build the code review graph for this project"
Claude: [grafo indexado]

Você: "Quais arquivos são afetados pela mudança em
       UserService.updateProfile()?"
Claude: lê apenas os 4 arquivos conectados,
        não o repo de 800 arquivos.

4

💾 Token Savior

↗ github.com/Mibayy/token-savior

Navegação por símbolos + memória persistente, −97% em navegação

MCP com 69 tools que faz o Claude navegar o código por símbolos (funções, classes, variáveis) em vez de ler arquivos inteiros. Tem memória persistente em SQLite — decisões de uma sessão ficam disponíveis na próxima, sem precisar de handoff manual.

Instalação

uvx token-savior-recall
# depois configure como MCP no Claude Code

Combo poderoso

Token Savior + code-review-graph = navegação simbólica e grafo de dependências. Para monorepos, essa dupla é a mais forte da lista.

5

🪨 Caveman Claude

↗ github.com/JuliusBrussee/caveman

Estilo "caverna" corta 65–75% do output — precisão técnica intacta

O output do Claude é mais caro que o input (5× em Sonnet, 5× em Opus). Caveman instrui o Claude a responder em estilo telegráfico: zero adjetivos, zero preâmbulo, zero "Claro! Aqui está...". Só fato técnico.

❌Resposta padrão

"A razão pela qual seu componente React está sofrendo re-renderizações é provavelmente porque você está criando uma nova referência de objeto a cada render. Quando você passa um objeto inline como prop, o React interpreta isso como uma mudança, mesmo que o conteúdo seja idêntico..."

~120 palavras

✅Caveman

"Novo ref cada render. Inline obj prop = novo ref = re-render. Wrap em useMemo."

~15 palavras — mesma info

Instalação

claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman

6

📝 claude-token-efficient

↗ github.com/drona23/claude-token-efficient

CLAUDE.md drop-in que enxuga respostas — zero código

Se você quer redução imediata sem instalar nada, este é o caminho. Um único arquivo CLAUDE.md com instruções de concisão. Cola na raiz do projeto e pronto.

Instalação (uma linha)

curl -o CLAUDE.md \
  https://raw.githubusercontent.com/drona23/claude-token-efficient/main/CLAUDE.md

Efeito relatado: revisão de código cai de 120 para 30 palavras com mesma qualidade.

7

⚡ token-optimizer-mcp

↗ github.com/ooples/token-optimizer-mcp

MCP com cache de tools e compressão — +95% de redução

Complementa o cache da Anthropic em um nível acima: em vez de cachear só o prefixo do prompt, cacheia saída de tools. Se o Claude chamar a mesma tool com os mesmos argumentos duas vezes, a segunda vem do cache local.

Instalação

git clone https://github.com/ooples/token-optimizer-mcp
cd token-optimizer-mcp
npm install
# depois configurar como MCP no ~/.claude.json

8

🎯 claude-token-optimizer

↗ github.com/nadimtuhin/claude-token-optimizer

Setup em 5 min que reduz docs de 11k para 1,3k tokens

Script que reorganiza a documentação do projeto: só 4 arquivos essenciais carregam automaticamente (~800 tokens). O resto fica disponível para o Claude pedir sob demanda, sem custar tokens até ser usado.

Caso real (RedwoodJS)

Situação	Tokens ao boot	Contexto livre para código
Antes	11.000	~189k
Depois	1.300	~198k
Ganho	−9.700	+5% de janela útil

Instalação

curl -fsSL https://raw.githubusercontent.com/nadimtuhin/claude-token-optimizer/main/init.sh | bash

9

👻 token-optimizer (alexgreensh)

↗ github.com/alexgreensh/token-optimizer

Caça "ghost tokens" e mede degradação do contexto ao vivo

O /context mostra o que está carregado, mas não mostra qualidade do contexto. Ghost tokens são desperdícios estruturais invisíveis — definições duplicadas, tool schemas que nunca serão usados, histórico que o modelo já "esqueceu". Este repo detecta e corta.

Instalação

/plugin marketplace add alexgreensh/token-optimizer
/plugin install token-optimizer@alexgreensh-token-optimizer

Uso típico

# auditoria com 6 agentes paralelos
/token-optimizer

# ou verificação rápida via CLI
python3 measure.py quick

Dashboard em localhost:24842 atualiza após cada sessão. Essencial para sessões longas pós-/compact.

10

🔍 claude-context (Zilliz)

↗ github.com/zilliztech/claude-context

Busca híbrida BM25 + vetores para codebase gigante

Para bases verdadeiramente enormes (milhões de linhas, várias linguagens), este MCP indexa tudo em Milvus e combina BM25 (keyword) com vetores densos (semântica). Redução de ~40% mantendo qualidade de retrieval equivalente a varredura completa.

Instalação

claude mcp add claude-context \
  -e OPENAI_API_KEY=sk-... \
  -e MILVUS_TOKEN=... \
  -- npx @zilliz/claude-context-mcp@latest

Requer Node 20-22, conta Zilliz Cloud e chave OpenAI (para embeddings).

Uso típico

Você: "Index this codebase"
Claude: [indexa ~2M linhas em ~8 min]

Você: "Find functions that handle user authentication"
Claude: retorna os 5 arquivos relevantes em segundos,
        sem carregar o repo inteiro.

★

🧩 Como empilhar

Você não precisa de todos os 10. Escolha 2–3 baseado no seu gargalo real. Rode /context em uma sessão fresca antes de digitar qualquer coisa — veja quanto já foi gasto, e então escolha o combo certo.

💻

Sessão pesada em terminal

Muito build, test, log. Saída pesada.

RTK

📂

Monorepo grande

Claude precisa entender dependências.

code-review-graph + Token Savior

🔌

Muitos MCPs ativos

Saídas gigantes de Playwright/GitHub.

Context Mode

⚡

Só quero reduzir já

Zero setup, resultado em 5 minutos.

Caveman + claude-token-efficient

📚

Docs infladas no boot

CLAUDE.md longo, muitos READMEs.

claude-token-optimizer

🌐

Codebase gigante (multi-lang)

Milhões de linhas, precisa de busca.

claude-context (Zilliz)

💡 O teste mais honesto

Abra Claude Code em um projeto real. Antes de digitar qualquer coisa, rode /context.

O número que aparecer já é o seu piso: tudo que você conversar nesta sessão vai somar a isso. Se já estiver em 40% da janela, você tem um problema — e um dos 10 repos acima resolve.

📋 Todos os repos — referência rápida

Repo	Nicho	Redução	Link
RTK	Proxy de terminal	60–90%	rtk-ai/rtk
Context Mode	Sandbox de tool output	98%	mksglu/context-mode
code-review-graph	Grafo Tree-sitter	49×	tirth8205/code-review-graph
Token Savior	Navegação por símbolos	97%	Mibayy/token-savior
Caveman Claude	Estilo de output	65–75%	JuliusBrussee/caveman
claude-token-efficient	CLAUDE.md drop-in	75%	drona23/claude-token-efficient
token-optimizer-mcp	Cache de tools	95%+	ooples/token-optimizer-mcp
claude-token-optimizer	Reorg de docs	90%	nadimtuhin/claude-token-optimizer
token-optimizer	Ghost tokens + dashboard	—	alexgreensh/token-optimizer
claude-context	Busca híbrida em codebase	40%	zilliztech/claude-context