🥧 73% de overhead fixo
Quando você manda uma pergunta de uma linha, o modelo não lê só ela. Ele lê todo o overhead primeiro: o system prompt, a lista de ferramentas, a memória, as skills carregadas. Esse pedaço fixo é cerca de 73% de cada request — e você paga por ele em toda chamada, não importa o tamanho da pergunta.
Diagrama ilustrativo · proporção aproximada de overhead × conteúdo útil
🔤 Tokens ↔ palavras
Para ter noção de custo, você precisa converter. A conta de bolso: ~10 tokens equivalem a cerca de 7 palavras (≈70-75%). Um token é um pedaço de palavra — palavras comuns são 1 token, palavras longas viram 2 ou 3.
Conversão rápida (ilustrativo)
📊 Por que estimar importa
Antes de colar um documento de 50 páginas, você já sabe: são ~35.000 tokens só de entrada — e isso entra em todas as chamadas seguintes se você não limpar a sessão.
🧹 Estratégias de economia
A boa notícia: pequenos hábitos cortam a conta pela metade. O segredo é manter o overhead enxuto e a sessão limpa.
✓ O que FAZER
- ✓Limpar a sessão com frequência (uma conversa, uma meta).
- ✓Usar o modelo certo para cada job.
- ✓Manter system prompts curtos.
- ✓Comprimir quando o contexto crescer (de grande para pequeno).
✗ O que EVITAR
- ✗Carregar dezenas de skills que você não usa.
- ✗System prompts gigantes "por garantia".
- ✗Manter uma sessão infinita acumulando contexto.
- ✗Usar modelo caro para tarefa trivial.
💡 Dica prática
Lema do material: uma conversa, uma meta; sempre limpar e recomeçar. Cada skill inútil carregada no overhead é paga em toda mensagem da sessão.
🔥 4 milhões de tokens em 2h
O alerta real do material: alguém queimou 4 milhões de tokens em 2 horas de uso aparentemente leve. Outro gastou 21.000 tokens só perguntando o tempo por causa de um erro em loop. Com API key, o dinheiro some rápido se você não vigia.
4M tokens em 2h de uso leve
Contexto que cresce sem limpeza + crons disparando + overhead fixo = explosão silenciosa de consumo.
21.000 tokens para saber o tempo
Um erro colocou o agente num loop de tentativas — cada retry repagando os 73% de overhead.
🚨 Atenção
Loop descontrolado é o maior vilão da fatura. Monitore o uso e use /stop quando algo parecer preso repetindo a mesma coisa.
🎛️ Modelo certo, custo certo
A maior alavanca de custo é o modelo. Seja específico: raciocínio pesado vai no modelo caro (Opus); volume e tarefas simples vão no barato ou no free (DeepSeek, GPT via OAuth). Usar Opus para tudo multiplica o custo sem ganho de qualidade.
Modelo caro, só onde vale.
Modelo barato ou via assinatura.
Modelo free, quase de graça.
📊 Tetos de gasto
A rede de segurança definitiva: defina um teto de gasto. No OpenRouter, por exemplo, você configura um limite (ex.: US$10/mês) e o sistema simplesmente para ao atingir. É o que te deixa dormir tranquilo mesmo com crons rodando.
Painel de uso · recriação ilustrativa, não screenshot real
Toda chamada paga.
Uma conversa, uma meta.
Caro só onde vale.
Para no limite.
🧾 Onde o dinheiro vaza (checklist)
Juntando tudo: os maiores ralos de token são previsíveis. Rode este checklist mental sempre que a fatura assustar.
Sessão infinita
Contexto acumulado entra em toda chamada. Limpe e recomece.
Modelo caro em tarefa trivial
Opus para "que horas são" é desperdício. Troque com /model.
Crons esquecidos
Um agendamento frequente multiplica o overhead. Revise os crons.
Loop de retry
Erro em loop repaga os 73% a cada tentativa. Use /stop.
💡 Dica prática
Deixe o painel de uso aberto nas primeiras semanas. Ver o número subir em tempo real é o melhor professor de economia de tokens.
📌 Resumo do Módulo
Próximo Módulo:
3.6 - 🌐 Operating System: o painel único onde você gere personas, memória, gastos e metas.