MÓDULO 3.5

💰 Budget & Tokens · 73% é overhead fixo

O segredo sujo dos agentes: ~73% de cada request é overhead fixo — system prompt, ferramentas, memória. Só ~27% é a sua pergunta. Entender isso muda como você opera e evita queimar 4 milhões de tokens sem perceber.

6
Tópicos
~25
Minutos
Avançado
Nível
Prática
Tipo
1

🥧 73% de overhead fixo

Quando você manda uma pergunta de uma linha, o modelo não lê só ela. Ele lê todo o overhead primeiro: o system prompt, a lista de ferramentas, a memória, as skills carregadas. Esse pedaço fixo é cerca de 73% de cada request — e você paga por ele em toda chamada, não importa o tamanho da pergunta.

73% overhead fixo 27% útil Overhead fixo: system prompt, tools, memória, skills Útil: a sua pergunta de verdade → Toda chamada paga o pedágio dos 73%

Diagrama ilustrativo · proporção aproximada de overhead × conteúdo útil

2

🔤 Tokens ↔ palavras

Para ter noção de custo, você precisa converter. A conta de bolso: ~10 tokens equivalem a cerca de 7 palavras (≈70-75%). Um token é um pedaço de palavra — palavras comuns são 1 token, palavras longas viram 2 ou 3.

Conversão rápida (ilustrativo)

10 tokens ≈ 7 palavras
100 tokens ≈ ~70 palavras (um parágrafo curto)
1.000 tokens ≈ ~700 palavras (uma página)

📊 Por que estimar importa

Antes de colar um documento de 50 páginas, você já sabe: são ~35.000 tokens só de entrada — e isso entra em todas as chamadas seguintes se você não limpar a sessão.

3

🧹 Estratégias de economia

A boa notícia: pequenos hábitos cortam a conta pela metade. O segredo é manter o overhead enxuto e a sessão limpa.

✓ O que FAZER

  • Limpar a sessão com frequência (uma conversa, uma meta).
  • Usar o modelo certo para cada job.
  • Manter system prompts curtos.
  • Comprimir quando o contexto crescer (de grande para pequeno).

✗ O que EVITAR

  • Carregar dezenas de skills que você não usa.
  • System prompts gigantes "por garantia".
  • Manter uma sessão infinita acumulando contexto.
  • Usar modelo caro para tarefa trivial.

💡 Dica prática

Lema do material: uma conversa, uma meta; sempre limpar e recomeçar. Cada skill inútil carregada no overhead é paga em toda mensagem da sessão.

4

🔥 4 milhões de tokens em 2h

O alerta real do material: alguém queimou 4 milhões de tokens em 2 horas de uso aparentemente leve. Outro gastou 21.000 tokens só perguntando o tempo por causa de um erro em loop. Com API key, o dinheiro some rápido se você não vigia.

!

4M tokens em 2h de uso leve

Contexto que cresce sem limpeza + crons disparando + overhead fixo = explosão silenciosa de consumo.

!

21.000 tokens para saber o tempo

Um erro colocou o agente num loop de tentativas — cada retry repagando os 73% de overhead.

🚨 Atenção

Loop descontrolado é o maior vilão da fatura. Monitore o uso e use /stop quando algo parecer preso repetindo a mesma coisa.

5

🎛️ Modelo certo, custo certo

A maior alavanca de custo é o modelo. Seja específico: raciocínio pesado vai no modelo caro (Opus); volume e tarefas simples vão no barato ou no free (DeepSeek, GPT via OAuth). Usar Opus para tudo multiplica o custo sem ganho de qualidade.

Raciocínio

Modelo caro, só onde vale.

Volume

Modelo barato ou via assinatura.

Rotina / autopilot

Modelo free, quase de graça.

6

📊 Tetos de gasto

A rede de segurança definitiva: defina um teto de gasto. No OpenRouter, por exemplo, você configura um limite (ex.: US$10/mês) e o sistema simplesmente para ao atingir. É o que te deixa dormir tranquilo mesmo com crons rodando.

Painel de uso · recriação ilustrativa, não screenshot real

Gasto do mêsUS$ 7,40 / 10,00
Alerta em80%
73% fixo

Toda chamada paga.

Limpar sessão

Uma conversa, uma meta.

Modelo certo

Caro só onde vale.

Teto

Para no limite.

7

🧾 Onde o dinheiro vaza (checklist)

Juntando tudo: os maiores ralos de token são previsíveis. Rode este checklist mental sempre que a fatura assustar.

1

Sessão infinita

Contexto acumulado entra em toda chamada. Limpe e recomece.

2

Modelo caro em tarefa trivial

Opus para "que horas são" é desperdício. Troque com /model.

3

Crons esquecidos

Um agendamento frequente multiplica o overhead. Revise os crons.

4

Loop de retry

Erro em loop repaga os 73% a cada tentativa. Use /stop.

💡 Dica prática

Deixe o painel de uso aberto nas primeiras semanas. Ver o número subir em tempo real é o melhor professor de economia de tokens.

📌 Resumo do Módulo

73% overhead - cada request paga um pedágio fixo de system prompt, tools e memória.
10 tokens ≈ 7 palavras - estime antes de mandar texto enorme.
Limpe e foque - uma conversa, uma meta; nada de skills inúteis.
Loop = vilão - 4M tokens em 2h e 21k para ver o tempo vieram de loops e contexto inchado.
Teto de gasto - defina um limite e o sistema para sozinho.

Próximo Módulo:

3.6 - 🌐 Operating System: o painel único onde você gere personas, memória, gastos e metas.