Modulo 6.1 - Token Tax e Custo de Contexto | 6 Pilares do Claude Code Resumido

🏷️ O que e Token Tax

🎯 Conceito Principal

Token tax e o custo em tokens que cada MCP conectado adiciona a TODA interacao com o Claude, mesmo quando voce nao esta usando aquele MCP ativamente. Quando um MCP e conectado, seu schema completo (definicoes de tools, parametros, descricoes) e injetado automaticamente no contexto de cada mensagem enviada ao Claude.

• Cada MCP expoe tools com descricoes e parametros que sao serializados como tokens de entrada
• Esses tokens sao enviados em TODA mensagem, nao apenas quando voce usa o MCP
• 5 MCPs conectados podem consumir 10.000+ tokens fixos por mensagem, antes de qualquer codigo ou instrucao

📊 Por Que Isso Importa

Token tax e invisivel - voce nao ve os schemas sendo enviados, mas eles consomem contexto
Operadores que ignoram token tax perdem 10-30% do contexto sem saber
A qualidade das respostas degrada proporcionalmente ao contexto consumido por overhead

💡 Dica Pratica

Faca um teste: rode /cost no inicio de uma sessao sem MCPs, envie 5 mensagens. Depois, adicione 3-4 MCPs e envie as mesmas 5 mensagens. Compare o consumo de tokens. A diferenca e o token tax real dos seus MCPs. Esse numero deve guiar suas decisoes de quais MCPs manter conectados.

✓ O que FAZER

✓ Medir o token tax real dos seus MCPs com /cost
✓ Desconectar MCPs que nao esta usando ativamente
✓ Priorizar MCPs com baixo overhead (Filesystem) sobre alto (Browser)

✗ O que NAO fazer

✗ Conectar todos os MCPs 'por precaucao'
✗ Ignorar o impacto de token tax na qualidade
✗ Assumir que MCPs sao 'gratis' so porque a conexao e facil

📊 Tabela de Overhead por MCP

🎯 Tabela de Token Tax

Cada MCP tem um custo fixo diferente baseado no numero de tools que expoe e na complexidade dos schemas. Esta tabela mostra o overhead aproximado por mensagem para os MCPs mais comuns:

• Filesystem: ~500 tokens (LOW) - 3-4 tools simples, menor overhead do ecossistema
• Google Sheets: ~800 tokens (LOW-MODERATE) - 4-5 tools com parametros de range
• Database/Supabase: ~1.500 tokens (MODERATE) - 5-8 tools com schemas SQL
• GitHub: ~2.000 tokens (MODERATE) - 10+ tools com muitos parametros
• Browser/Chrome: ~5.000+ tokens (HIGH) - 10+ tools complexas com screenshots

📊 Impacto Cumulativo

Filesystem + GitHub + Browser = ~7.500 tokens fixos por mensagem
Em 50 mensagens, isso e 375.000 tokens extras - quase 2x a janela de contexto
Cada MCP removido economiza seu overhead multiplicado pelo numero de mensagens da sessao

💡 Dica Pratica

Cole esta tabela no seu CLAUDE.md como referencia rapida. Quando for decidir quais MCPs conectar, consulte os numeros e calcule o overhead total. Regra pratica: se o overhead total passa de 5.000 tokens, voce ja esta sacrificando qualidade perceptivelmente.

✓ O que FAZER

✓ Memorizar os overheads aproximados
✓ Calcular overhead total antes de conectar MCPs
✓ Priorizar MCPs Low sobre MCPs High

✗ O que NAO fazer

✗ Conectar 4+ MCPs simultaneamente sem calcular
✗ Ignorar a diferenca entre 500 e 5000 tokens
✗ Tratar todos os MCPs como tendo o mesmo custo

🫁 Contexto como Oxigenio

🎯 A Metafora do Tanque de Oxigenio

Imagine o contexto do Claude como um tanque de oxigenio dentro de um capacete de astronauta. O tanque tem 200.000 litros (tokens). Tudo o que o Claude precisa para 'pensar' - seu codigo, instrucoes, historico, CLAUDE.md - consome oxigenio desse tanque. MCPs sao equipamentos extras conectados ao mesmo tanque.

• Tanque cheio (200k tokens) = Claude pensa com clareza maxima, respostas detalhadas e precisas
• Cada MCP e como um equipamento sugando oxigenio: Filesystem = tubinho fino, Browser = mangueira grossa
• Quando o tanque esta 70%+ consumido, o Claude comeca a 'sufocar': respostas mais curtas, menos detalhadas, mais erros

📊 Por Que Esta Metafora Funciona

Torna tangivel algo abstrato - tokens viram oxigenio que voce consegue visualizar
Naturalmente gera cuidado - ninguem desperdicaria oxigenio com equipamento que nao esta usando
Cria urgencia correta - desconectar MCPs desnecessarios vira 'fechar a valvula' de equipamento ocioso

💡 Dica Pratica

Antes de cada sessao, pergunte: 'quanto oxigenio cada equipamento vai consumir?' Se a tarefa e puramente codigo, nao conecte Browser (mangueira grossa). Se e backend sem GitHub, nao conecte GitHub MCP. Cada litro de oxigenio economizado em overhead vai para qualidade de pensamento.

✓ O que FAZER

✓ Visualizar o contexto como recurso finito e precioso
✓ Questionar cada MCP: 'preciso deste equipamento agora?'
✓ Desconectar MCPs = fechar valvulas de equipamentos ociosos

✗ O que NAO fazer

✗ Tratar contexto como infinito
✗ Manter MCPs 'por precaucao' como se fossem gratis
✗ Esperar degradacao de qualidade para agir

📏 Regra de Ouro: Max 2-3 MCPs

🎯 O Limite Pratico

Baseado no overhead medio dos MCPs populares, a regra de ouro e: mantenha no maximo 2-3 MCPs conectados simultaneamente. Com 2-3 MCPs, o overhead total fica entre 1.000-4.000 tokens - aceitavel para a maioria das tarefas. Com 4+, o overhead pode ultrapassar 8.000 tokens e degradacao se torna perceptivel.

• 1 MCP (ideal): 500-2.000 tokens de overhead, impacto minimo na qualidade
• 2-3 MCPs (aceitavel): 1.500-5.000 tokens, balanco entre funcionalidade e qualidade
• 4-5 MCPs (excessivo): 5.000-10.000+ tokens, degradacao perceptivel em respostas complexas
• 6+ MCPs (desperdicador): 10.000++ tokens, qualidade seriamente comprometida

📊 Por Que 2-3 e o Sweet Spot

Cobre 95% dos workflows: Filesystem (sempre) + 1-2 MCPs especificos para a tarefa
Overhead maximo de ~5.000 tokens = apenas 2.5% do contexto de 200k
Permite rotacao rapida: remover 1 e adicionar outro leva segundos

💡 Dica Pratica

Trate a regra de 2-3 MCPs como um limite rigido, nao como sugestao. Se voce precisa de 4 MCPs para uma tarefa, divida a tarefa em fases e rotacione: fase 1 com MCPs A+B, fase 2 com MCPs C+D. Nunca conecte tudo ao mesmo tempo 'por conveniencia'.

✓ O que FAZER

✓ Respeitar o limite de 2-3 MCPs simultaneos
✓ Rotacionar MCPs por fase de trabalho
✓ Manter Filesystem como o '1 MCP fixo' e rotacionar os outros

✗ O que NAO fazer

✗ Conectar 4+ MCPs simultaneamente
✗ Justificar excesso com 'mas eu preciso de todos'
✗ Sacrificar qualidade por conveniencia

📈 Monitoramento com /cost

🎯 Medindo o Impacto Real

O comando /cost e sua ferramenta principal para monitorar token tax na pratica. Ele mostra tokens consumidos por mensagem, custo acumulado da sessao e percentual de contexto usado. Use antes e depois de conectar MCPs para ver o impacto direto.

• Rode /cost no inicio da sessao para baseline
• Apos conectar MCPs, rode novamente e compare os tokens por mensagem
• A diferenca entre as duas medicoes e o token tax real dos MCPs conectados

📊 Monitoramento e Poder

Sem medicao, token tax e teoria. Com /cost, e numero concreto que voce otimiza
Permite decisoes data-driven: 'Browser MCP custa 5k tokens mas salvou 30 min de QA manual'
Cria feedback loop: conecta -> mede -> otimiza -> mede novamente

💡 Dica Pratica

Crie o habito de rodar /cost a cada 15-20 mensagens quando usando MCPs. Se o contexto esta acima de 60% E voce tem MCPs conectados, avalie se pode desconectar algum antes de rodar /compact. Desconectar um MCP de 2.000 tokens antes de compactar e como liberar espaco no tanque de oxigenio.

✓ O que FAZER

✓ Rodar /cost regularmente com MCPs ativos
✓ Comparar sessoes com e sem MCPs
✓ Usar dados de /cost para justificar decisoes de MCP

✗ O que NAO fazer

✗ Ignorar /cost quando usando MCPs
✗ Assumir que MCPs nao afetam o consumo
✗ Esperar problemas para comecar a monitorar

🎯 Impacto na Qualidade das Respostas

🎯 A Curva de Degradacao

A qualidade das respostas do Claude segue uma curva previsivel baseada no uso de contexto. Com MCPs conectados, voce entra mais rapido nas faixas de degradacao porque o overhead fixo consome contexto desde o inicio.

• 0-50% contexto: Respostas excelentes - detalhadas, precisas, com exemplos. Claude no maximo potencial
• 50-70% contexto: Respostas boas - ainda precisas mas menos detalhadas. Comece a considerar /compact
• 70-90% contexto: Degradacao visivel - respostas mais curtas, menos exemplos, possiveis omissoes
• 90%+ contexto: Degradacao severa - erros frequentes, respostas truncadas, contexto perdido entre mensagens

📊 MCPs Aceleram a Curva

Sem MCPs: voce chega a 50% do contexto apos ~40-60 mensagens
Com 3 MCPs (~5k overhead): voce chega a 50% apos ~30-40 mensagens
Com 5+ MCPs (~10k+ overhead): voce chega a 50% apos ~20-30 mensagens - quase metade do normal

💡 Dica Pratica

Quando perceber que as respostas do Claude estao ficando mais curtas ou menos precisas, rode /cost imediatamente. Se o contexto esta acima de 70%, a causa provavel e contexto saturado - nao 'o modelo ficou burro'. A solucao: /compact + remover MCPs desnecessarios. Voce ficara surpreso com a melhoria.

✓ O que FAZER

✓ Correlacionar qualidade de resposta com uso de contexto
✓ Usar /cost quando respostas parecerem degradadas
✓ Compactar E remover MCPs quando contexto > 70%

✗ O que NAO fazer

✗ Culpar o modelo quando a qualidade cai (geralmente e contexto)
✗ Ignorar os sinais de degradacao
✗ Continuar pedindo tarefas complexas com contexto > 80%

📋 Resumo do Modulo

✓

O que e Token Tax - Token tax e o custo em tokens que cada MCP conectado adiciona a TODA interacao c...

✓

Tabela de Overhead por MCP - Cada MCP tem um custo fixo diferente baseado no numero de tools que expoe e na c...

✓

Contexto como Oxigenio - Imagine o contexto do Claude como um tanque de oxigenio dentro de um capacete de...

✓

Regra de Ouro: Max 2-3 MCPs - Baseado no overhead medio dos MCPs populares, a regra de ouro e: mantenha no max...

✓

Monitoramento com /cost - O comando /cost e sua ferramenta principal para monitorar token tax na pratica. ...

✓

Impacto na Qualidade das Respostas - A qualidade das respostas do Claude segue uma curva previsivel baseada no uso de...

Proximo:

6.2 - Framework de Decisao: Skill vs MCP

← Voltar para Trilha Proximo Modulo →