Módulo 1.3 · Janela de 1M

📏 O que é 1M de contexto

O Opus 4.8 suporta 1 milhão de tokens de contexto por padrão na Claude API, no Amazon Bedrock e no Google Vertex AI, com 128k de saída.

tokens de entrada

128k

tokens de saída

~750k

palavras (aprox.)

💡 Dica prática

1M de tokens equivale, grosso modo, a vários livros ou a uma base de código de porte médio inteira numa única chamada.

🏢 O limite no Foundry

Nem toda plataforma entrega 1M: no Microsoft Foundry o contexto é limitado a 200k tokens.

⚠️ Atenção

Se o seu caso depende de contexto enorme, prefira Claude API, Bedrock ou Vertex AI. No Foundry, planeje para 200k.

🗜️ Compactação de contexto

Em sessões longas, o modelo às vezes precisa compactar o contexto. O 4.8 melhora isso: menos compactações e melhor recuperação depois delas.

✓ Ganhos do 4.8

✓Menos compactações ("fewer compactions")
✓Melhor recuperação após compactar

✗ Por que importa

✗Compactar demais perde informação
✗Recuperação ruim quebra agentes longos

📈 GraphWalks 1M

Contexto grande só vale se for usável. No benchmark GraphWalks em janela de 1M, o 4.8 marca F1 de 68,1%, medindo recuperação de informação espalhada pela janela inteira.

📊 O que o número diz

•GraphWalks testa "achar e conectar" pontos distantes no contexto
•F1 68,1% indica que a janela de 1M é aproveitável, não decorativa

💡 Casos de uso

Onde a janela grande paga a conta:

📦 Repositórios inteiros

Análise global sem chunking.

📄 Contratos longos

Revisão com visão do documento todo.

💬 Históricos de suporte

Contexto completo do cliente.

🤖 Sessões de agente

Horas de trabalho sem perder o fio.

⚠️ O custo do contexto grande

Cada token de entrada é cobrado. Encher 1M de contexto a US$5/M custa US$5 por chamada — caro se repetido sem cache.

💡 Dica prática

Para contexto longo recorrente, use prompt caching (Trilha 2): um cache hit custa US$0,50/M — até 90% de economia.

📌 Resumo do Módulo

✓

1M por padrão — API, Bedrock e Vertex; 128k de saída.

✓

Foundry = 200k — única exceção relevante.

✓

Compactação melhor — menos vezes e melhor recuperação.

✓

Grande ≠ grátis — combine com cache.

Próximo Módulo:

1.4 — Controle de esforço (Low → Max)

← Voltar para Trilha Próximo Módulo →