MODULO 6.1

💰 Token Tax e Custo de Contexto

Entenda o custo invisivel de cada MCP conectado: token tax, overhead por mensagem e como isso afeta a qualidade das respostas do Claude. Aprenda a monitorar e otimizar o consumo de contexto.

6
Topicos
12
Minutos
Avancado
Nivel
Conceitual
Tipo
1

🏷️ O que e Token Tax

🎯 Conceito Principal

Token tax e o custo em tokens que cada MCP conectado adiciona a TODA interacao com o Claude, mesmo quando voce nao esta usando aquele MCP ativamente. Quando um MCP e conectado, seu schema completo (definicoes de tools, parametros, descricoes) e injetado automaticamente no contexto de cada mensagem enviada ao Claude.

  • Cada MCP expoe tools com descricoes e parametros que sao serializados como tokens de entrada
  • Esses tokens sao enviados em TODA mensagem, nao apenas quando voce usa o MCP
  • 5 MCPs conectados podem consumir 10.000+ tokens fixos por mensagem, antes de qualquer codigo ou instrucao

📊 Por Que Isso Importa

  • Token tax e invisivel - voce nao ve os schemas sendo enviados, mas eles consomem contexto
  • Operadores que ignoram token tax perdem 10-30% do contexto sem saber
  • A qualidade das respostas degrada proporcionalmente ao contexto consumido por overhead

💡 Dica Pratica

Faca um teste: rode /cost no inicio de uma sessao sem MCPs, envie 5 mensagens. Depois, adicione 3-4 MCPs e envie as mesmas 5 mensagens. Compare o consumo de tokens. A diferenca e o token tax real dos seus MCPs. Esse numero deve guiar suas decisoes de quais MCPs manter conectados.

✓ O que FAZER

  • Medir o token tax real dos seus MCPs com /cost
  • Desconectar MCPs que nao esta usando ativamente
  • Priorizar MCPs com baixo overhead (Filesystem) sobre alto (Browser)

✗ O que NAO fazer

  • Conectar todos os MCPs 'por precaucao'
  • Ignorar o impacto de token tax na qualidade
  • Assumir que MCPs sao 'gratis' so porque a conexao e facil
2

📊 Tabela de Overhead por MCP

🎯 Tabela de Token Tax

Cada MCP tem um custo fixo diferente baseado no numero de tools que expoe e na complexidade dos schemas. Esta tabela mostra o overhead aproximado por mensagem para os MCPs mais comuns:

  • Filesystem: ~500 tokens (LOW) - 3-4 tools simples, menor overhead do ecossistema
  • Google Sheets: ~800 tokens (LOW-MODERATE) - 4-5 tools com parametros de range
  • Database/Supabase: ~1.500 tokens (MODERATE) - 5-8 tools com schemas SQL
  • GitHub: ~2.000 tokens (MODERATE) - 10+ tools com muitos parametros
  • Browser/Chrome: ~5.000+ tokens (HIGH) - 10+ tools complexas com screenshots

📊 Impacto Cumulativo

  • Filesystem + GitHub + Browser = ~7.500 tokens fixos por mensagem
  • Em 50 mensagens, isso e 375.000 tokens extras - quase 2x a janela de contexto
  • Cada MCP removido economiza seu overhead multiplicado pelo numero de mensagens da sessao

💡 Dica Pratica

Cole esta tabela no seu CLAUDE.md como referencia rapida. Quando for decidir quais MCPs conectar, consulte os numeros e calcule o overhead total. Regra pratica: se o overhead total passa de 5.000 tokens, voce ja esta sacrificando qualidade perceptivelmente.

✓ O que FAZER

  • Memorizar os overheads aproximados
  • Calcular overhead total antes de conectar MCPs
  • Priorizar MCPs Low sobre MCPs High

✗ O que NAO fazer

  • Conectar 4+ MCPs simultaneamente sem calcular
  • Ignorar a diferenca entre 500 e 5000 tokens
  • Tratar todos os MCPs como tendo o mesmo custo
3

🫁 Contexto como Oxigenio

🎯 A Metafora do Tanque de Oxigenio

Imagine o contexto do Claude como um tanque de oxigenio dentro de um capacete de astronauta. O tanque tem 200.000 litros (tokens). Tudo o que o Claude precisa para 'pensar' - seu codigo, instrucoes, historico, CLAUDE.md - consome oxigenio desse tanque. MCPs sao equipamentos extras conectados ao mesmo tanque.

  • Tanque cheio (200k tokens) = Claude pensa com clareza maxima, respostas detalhadas e precisas
  • Cada MCP e como um equipamento sugando oxigenio: Filesystem = tubinho fino, Browser = mangueira grossa
  • Quando o tanque esta 70%+ consumido, o Claude comeca a 'sufocar': respostas mais curtas, menos detalhadas, mais erros

📊 Por Que Esta Metafora Funciona

  • Torna tangivel algo abstrato - tokens viram oxigenio que voce consegue visualizar
  • Naturalmente gera cuidado - ninguem desperdicaria oxigenio com equipamento que nao esta usando
  • Cria urgencia correta - desconectar MCPs desnecessarios vira 'fechar a valvula' de equipamento ocioso

💡 Dica Pratica

Antes de cada sessao, pergunte: 'quanto oxigenio cada equipamento vai consumir?' Se a tarefa e puramente codigo, nao conecte Browser (mangueira grossa). Se e backend sem GitHub, nao conecte GitHub MCP. Cada litro de oxigenio economizado em overhead vai para qualidade de pensamento.

✓ O que FAZER

  • Visualizar o contexto como recurso finito e precioso
  • Questionar cada MCP: 'preciso deste equipamento agora?'
  • Desconectar MCPs = fechar valvulas de equipamentos ociosos

✗ O que NAO fazer

  • Tratar contexto como infinito
  • Manter MCPs 'por precaucao' como se fossem gratis
  • Esperar degradacao de qualidade para agir
4

📏 Regra de Ouro: Max 2-3 MCPs

🎯 O Limite Pratico

Baseado no overhead medio dos MCPs populares, a regra de ouro e: mantenha no maximo 2-3 MCPs conectados simultaneamente. Com 2-3 MCPs, o overhead total fica entre 1.000-4.000 tokens - aceitavel para a maioria das tarefas. Com 4+, o overhead pode ultrapassar 8.000 tokens e degradacao se torna perceptivel.

  • 1 MCP (ideal): 500-2.000 tokens de overhead, impacto minimo na qualidade
  • 2-3 MCPs (aceitavel): 1.500-5.000 tokens, balanco entre funcionalidade e qualidade
  • 4-5 MCPs (excessivo): 5.000-10.000+ tokens, degradacao perceptivel em respostas complexas
  • 6+ MCPs (desperdicador): 10.000++ tokens, qualidade seriamente comprometida

📊 Por Que 2-3 e o Sweet Spot

  • Cobre 95% dos workflows: Filesystem (sempre) + 1-2 MCPs especificos para a tarefa
  • Overhead maximo de ~5.000 tokens = apenas 2.5% do contexto de 200k
  • Permite rotacao rapida: remover 1 e adicionar outro leva segundos

💡 Dica Pratica

Trate a regra de 2-3 MCPs como um limite rigido, nao como sugestao. Se voce precisa de 4 MCPs para uma tarefa, divida a tarefa em fases e rotacione: fase 1 com MCPs A+B, fase 2 com MCPs C+D. Nunca conecte tudo ao mesmo tempo 'por conveniencia'.

✓ O que FAZER

  • Respeitar o limite de 2-3 MCPs simultaneos
  • Rotacionar MCPs por fase de trabalho
  • Manter Filesystem como o '1 MCP fixo' e rotacionar os outros

✗ O que NAO fazer

  • Conectar 4+ MCPs simultaneamente
  • Justificar excesso com 'mas eu preciso de todos'
  • Sacrificar qualidade por conveniencia
5

📈 Monitoramento com /cost

🎯 Medindo o Impacto Real

O comando /cost e sua ferramenta principal para monitorar token tax na pratica. Ele mostra tokens consumidos por mensagem, custo acumulado da sessao e percentual de contexto usado. Use antes e depois de conectar MCPs para ver o impacto direto.

  • Rode /cost no inicio da sessao para baseline
  • Apos conectar MCPs, rode novamente e compare os tokens por mensagem
  • A diferenca entre as duas medicoes e o token tax real dos MCPs conectados

📊 Monitoramento e Poder

  • Sem medicao, token tax e teoria. Com /cost, e numero concreto que voce otimiza
  • Permite decisoes data-driven: 'Browser MCP custa 5k tokens mas salvou 30 min de QA manual'
  • Cria feedback loop: conecta -> mede -> otimiza -> mede novamente

💡 Dica Pratica

Crie o habito de rodar /cost a cada 15-20 mensagens quando usando MCPs. Se o contexto esta acima de 60% E voce tem MCPs conectados, avalie se pode desconectar algum antes de rodar /compact. Desconectar um MCP de 2.000 tokens antes de compactar e como liberar espaco no tanque de oxigenio.

✓ O que FAZER

  • Rodar /cost regularmente com MCPs ativos
  • Comparar sessoes com e sem MCPs
  • Usar dados de /cost para justificar decisoes de MCP

✗ O que NAO fazer

  • Ignorar /cost quando usando MCPs
  • Assumir que MCPs nao afetam o consumo
  • Esperar problemas para comecar a monitorar
6

🎯 Impacto na Qualidade das Respostas

🎯 A Curva de Degradacao

A qualidade das respostas do Claude segue uma curva previsivel baseada no uso de contexto. Com MCPs conectados, voce entra mais rapido nas faixas de degradacao porque o overhead fixo consome contexto desde o inicio.

  • 0-50% contexto: Respostas excelentes - detalhadas, precisas, com exemplos. Claude no maximo potencial
  • 50-70% contexto: Respostas boas - ainda precisas mas menos detalhadas. Comece a considerar /compact
  • 70-90% contexto: Degradacao visivel - respostas mais curtas, menos exemplos, possiveis omissoes
  • 90%+ contexto: Degradacao severa - erros frequentes, respostas truncadas, contexto perdido entre mensagens

📊 MCPs Aceleram a Curva

  • Sem MCPs: voce chega a 50% do contexto apos ~40-60 mensagens
  • Com 3 MCPs (~5k overhead): voce chega a 50% apos ~30-40 mensagens
  • Com 5+ MCPs (~10k+ overhead): voce chega a 50% apos ~20-30 mensagens - quase metade do normal

💡 Dica Pratica

Quando perceber que as respostas do Claude estao ficando mais curtas ou menos precisas, rode /cost imediatamente. Se o contexto esta acima de 70%, a causa provavel e contexto saturado - nao 'o modelo ficou burro'. A solucao: /compact + remover MCPs desnecessarios. Voce ficara surpreso com a melhoria.

✓ O que FAZER

  • Correlacionar qualidade de resposta com uso de contexto
  • Usar /cost quando respostas parecerem degradadas
  • Compactar E remover MCPs quando contexto > 70%

✗ O que NAO fazer

  • Culpar o modelo quando a qualidade cai (geralmente e contexto)
  • Ignorar os sinais de degradacao
  • Continuar pedindo tarefas complexas com contexto > 80%

📋 Resumo do Modulo

O que e Token Tax - Token tax e o custo em tokens que cada MCP conectado adiciona a TODA interacao c...
Tabela de Overhead por MCP - Cada MCP tem um custo fixo diferente baseado no numero de tools que expoe e na c...
Contexto como Oxigenio - Imagine o contexto do Claude como um tanque de oxigenio dentro de um capacete de...
Regra de Ouro: Max 2-3 MCPs - Baseado no overhead medio dos MCPs populares, a regra de ouro e: mantenha no max...
Monitoramento com /cost - O comando /cost e sua ferramenta principal para monitorar token tax na pratica. ...
Impacto na Qualidade das Respostas - A qualidade das respostas do Claude segue uma curva previsivel baseada no uso de...

Proximo:

6.2 - Framework de Decisao: Skill vs MCP