MÓDULO 1.3

📜 A janela de 1M de tokens

O que cabe em um milhão de tokens, como os limites mudam por plataforma e por que contexto grande precisa de cache para não sair caro.

6
Tópicos
30
Minutos
Básico
Nível
Teoria
Tipo
1

📏 O que é 1M de contexto

O Opus 4.8 suporta 1 milhão de tokens de contexto por padrão na Claude API, no Amazon Bedrock e no Google Vertex AI, com 128k de saída.

1M
tokens de entrada
128k
tokens de saída
~750k
palavras (aprox.)

💡 Dica prática

1M de tokens equivale, grosso modo, a vários livros ou a uma base de código de porte médio inteira numa única chamada.

2

🏢 O limite no Foundry

Nem toda plataforma entrega 1M: no Microsoft Foundry o contexto é limitado a 200k tokens.

⚠️ Atenção

Se o seu caso depende de contexto enorme, prefira Claude API, Bedrock ou Vertex AI. No Foundry, planeje para 200k.

3

🗜️ Compactação de contexto

Em sessões longas, o modelo às vezes precisa compactar o contexto. O 4.8 melhora isso: menos compactações e melhor recuperação depois delas.

✓ Ganhos do 4.8

  • Menos compactações ("fewer compactions")
  • Melhor recuperação após compactar

✗ Por que importa

  • Compactar demais perde informação
  • Recuperação ruim quebra agentes longos
4

📈 GraphWalks 1M

Contexto grande só vale se for usável. No benchmark GraphWalks em janela de 1M, o 4.8 marca F1 de 68,1%, medindo recuperação de informação espalhada pela janela inteira.

📊 O que o número diz

  • GraphWalks testa "achar e conectar" pontos distantes no contexto
  • F1 68,1% indica que a janela de 1M é aproveitável, não decorativa
5

💡 Casos de uso

Onde a janela grande paga a conta:

📦 Repositórios inteiros

Análise global sem chunking.

📄 Contratos longos

Revisão com visão do documento todo.

💬 Históricos de suporte

Contexto completo do cliente.

🤖 Sessões de agente

Horas de trabalho sem perder o fio.

6

⚠️ O custo do contexto grande

Cada token de entrada é cobrado. Encher 1M de contexto a US$5/M custa US$5 por chamada — caro se repetido sem cache.

💡 Dica prática

Para contexto longo recorrente, use prompt caching (Trilha 2): um cache hit custa US$0,50/M — até 90% de economia.

📌 Resumo do Módulo

1M por padrão — API, Bedrock e Vertex; 128k de saída.
Foundry = 200k — única exceção relevante.
Compactação melhor — menos vezes e melhor recuperação.
Grande ≠ grátis — combine com cache.

Próximo Módulo:

1.4 — Controle de esforço (Low → Max)