Módulo 3.5 · Budget & Tokens

🥧 73% de overhead fixo

Quando você manda uma pergunta de uma linha, o modelo não lê só ela. Ele lê todo o overhead primeiro: o system prompt, a lista de ferramentas, a memória, as skills carregadas. Esse pedaço fixo é cerca de 73% de cada request — e você paga por ele em toda chamada, não importa o tamanho da pergunta.

Diagrama ilustrativo · proporção aproximada de overhead × conteúdo útil

🔤 Tokens ↔ palavras

Para ter noção de custo, você precisa converter. A conta de bolso: ~10 tokens equivalem a cerca de 7 palavras (≈70-75%). Um token é um pedaço de palavra — palavras comuns são 1 token, palavras longas viram 2 ou 3.

Conversão rápida (ilustrativo)

10 tokens ≈ 7 palavras

100 tokens ≈ ~70 palavras (um parágrafo curto)

1.000 tokens ≈ ~700 palavras (uma página)

📊 Por que estimar importa

Antes de colar um documento de 50 páginas, você já sabe: são ~35.000 tokens só de entrada — e isso entra em todas as chamadas seguintes se você não limpar a sessão.

🧹 Estratégias de economia

A boa notícia: pequenos hábitos cortam a conta pela metade. O segredo é manter o overhead enxuto e a sessão limpa.

✓ O que FAZER

✓Limpar a sessão com frequência (uma conversa, uma meta).
✓Usar o modelo certo para cada job.
✓Manter system prompts curtos.
✓Comprimir quando o contexto crescer (de grande para pequeno).

✗ O que EVITAR

✗Carregar dezenas de skills que você não usa.
✗System prompts gigantes "por garantia".
✗Manter uma sessão infinita acumulando contexto.
✗Usar modelo caro para tarefa trivial.

💡 Dica prática

Lema do material: uma conversa, uma meta; sempre limpar e recomeçar. Cada skill inútil carregada no overhead é paga em toda mensagem da sessão.

🔥 4 milhões de tokens em 2h

O alerta real do material: alguém queimou 4 milhões de tokens em 2 horas de uso aparentemente leve. Outro gastou 21.000 tokens só perguntando o tempo por causa de um erro em loop. Com API key, o dinheiro some rápido se você não vigia.

4M tokens em 2h de uso leve

Contexto que cresce sem limpeza + crons disparando + overhead fixo = explosão silenciosa de consumo.

21.000 tokens para saber o tempo

Um erro colocou o agente num loop de tentativas — cada retry repagando os 73% de overhead.

🚨 Atenção

Loop descontrolado é o maior vilão da fatura. Monitore o uso e use /stop quando algo parecer preso repetindo a mesma coisa.

🎛️ Modelo certo, custo certo

A maior alavanca de custo é o modelo. Seja específico: raciocínio pesado vai no modelo caro (Opus); volume e tarefas simples vão no barato ou no free (DeepSeek, GPT via OAuth). Usar Opus para tudo multiplica o custo sem ganho de qualidade.

Raciocínio

Modelo caro, só onde vale.

Volume

Modelo barato ou via assinatura.

Rotina / autopilot

Modelo free, quase de graça.

📊 Tetos de gasto

A rede de segurança definitiva: defina um teto de gasto. No OpenRouter, por exemplo, você configura um limite (ex.: US$10/mês) e o sistema simplesmente para ao atingir. É o que te deixa dormir tranquilo mesmo com crons rodando.

Painel de uso · recriação ilustrativa, não screenshot real

Gasto do mêsUS$ 7,40 / 10,00

Alerta em80%

73% fixo

Toda chamada paga.

Limpar sessão

Uma conversa, uma meta.

Modelo certo

Caro só onde vale.

Teto

Para no limite.

🧾 Onde o dinheiro vaza (checklist)

Juntando tudo: os maiores ralos de token são previsíveis. Rode este checklist mental sempre que a fatura assustar.

Sessão infinita

Contexto acumulado entra em toda chamada. Limpe e recomece.

Modelo caro em tarefa trivial

Opus para "que horas são" é desperdício. Troque com /model.

Crons esquecidos

Um agendamento frequente multiplica o overhead. Revise os crons.

Loop de retry

Erro em loop repaga os 73% a cada tentativa. Use /stop.

💡 Dica prática

Deixe o painel de uso aberto nas primeiras semanas. Ver o número subir em tempo real é o melhor professor de economia de tokens.

📌 Resumo do Módulo

✓

73% overhead - cada request paga um pedágio fixo de system prompt, tools e memória.

✓

10 tokens ≈ 7 palavras - estime antes de mandar texto enorme.

✓

Limpe e foque - uma conversa, uma meta; nada de skills inúteis.

✓

Loop = vilão - 4M tokens em 2h e 21k para ver o tempo vieram de loops e contexto inchado.

✓

Teto de gasto - defina um limite e o sistema para sozinho.

Próximo Módulo:

3.6 - 🌐 Operating System: o painel único onde você gere personas, memória, gastos e metas.

← Módulo anterior Próximo Módulo →