📏 Context Window Limits
Cada LLM tem um limite de tokens que pode processar em uma unica interacao. Esse limite e chamado de context window e varia drasticamente entre modelos - de 8.000 tokens em modelos mais simples ate mais de 2 milhoes em modelos como o Gemini.
💡 O que sao Tokens?
Tokens nao sao exatamente palavras. Um token pode ser uma palavra, parte de uma palavra, ou ate mesmo um caractere especial. Em ingles, 1 token ≈ 0.75 palavras. Em portugues, a proporcao pode ser menor devido aos acentos e caracteres especiais.
- • GPT-4o: ~128.000 tokens de input
- • Claude 3.7: ~200.000 tokens de input
- • Gemini 2.5 Pro: ~1.000.000+ tokens de input
📊 Input vs Output Tokens
E crucial entender que context window se refere ao input. O output tem limites separados e geralmente menores:
- GPT-4o: Output limitado a ~16.000 tokens
- Claude 3.7: Output limitado a ~40.000-60.000 tokens
- O3 Mini: Output de ate ~100.000 tokens (maior do mercado)
💳 A Analogia do Credito
Uma das melhores formas de entender context windows e atraves da analogia do credito financeiro. Se voce tem R$500.000 de limite no cartao, usar R$499.999 nao e uma boa ideia - sua utilizacao seria altissima e isso afeta negativamente seu score.
🎯 A Regra de Ouro
So porque voce TEM 1 milhao de tokens, nao significa que voce DEVE usar todos.
Quanto menor sua "utilizacao de contexto", mais preciso e confiavel tende a ser o resultado. Um prompt de 1.000 tokens em um modelo com 1 milhao de capacidade vai receber muito mais "atencao" do que se voce enchesse com 900.000 tokens de contexto.
✓ O que FAZER
- ✓ Usar apenas o contexto relevante para a tarefa
- ✓ Extrair trechos especificos de documentos longos
- ✓ Criar sumarios antes de enviar docs completos
- ✓ Manter o "denominador grande, numerador pequeno"
✗ O que NAO fazer
- ✗ Dumpar 5 PDFs de uma vez "so porque pode"
- ✗ Confundir tamanho de contexto com qualidade
- ✗ Ignorar os limites de output token
- ✗ Assumir que mais contexto = melhor resultado
🎯 Utilizacao Inteligente
A utilizacao inteligente do contexto e o que separa prompts mediocres de prompts excelentes. Nao se trata de economizar tokens por economia - trata-se de maximizar a atencao do modelo no que realmente importa.
Identifique o nucleo da tarefa
Antes de adicionar contexto
O que exatamente voce precisa que o modelo faca? Qual e a pergunta central? Comece por ai.
Selecione apenas o contexto necessario
Qualidade sobre quantidade
Se voce tem um documento de 50 paginas, provavelmente so 2-3 paginas sao relevantes. Use essas.
Estruture de forma clara
Facilite o processamento
Use headers, separadores e formatacao que ajude o modelo a entender onde cada informacao esta.
💡 Dica Pratica
Antes de enviar um documento longo, pergunte-se: "Se eu tivesse que explicar isso para um colega em 2 minutos, o que eu diria?" Essa versao resumida e provavelmente o que o modelo precisa.
⚠️ Armadilhas Comuns
Mesmo profissionais experientes cometem esses erros. Conhece-los e o primeiro passo para evita-los.
🚨 Armadilha #1: O "Data Dump"
Empresas adoram configurar um ChatGPT Teams, jogar 5 PDFs e dizer "vai". Enquanto isso pode funcionar as vezes (especialmente com reasoning models), nao e consistente.
O melhor approach: alimente o modelo apenas com o que ele precisa para a tarefa especifica.
🚨 Armadilha #2: Confundir Context com Memoria
Context window NAO e memoria persistente. A cada nova conversa, o modelo comeca do zero. Mesmo em conversas longas, o contexto anterior pode ser "esquecido" ou receber menos peso. Nao assuma que o modelo "lembra" de algo que voce disse 50 mensagens atras.
🚨 Armadilha #3: Ignorar Output Limits
Voce pode ter 1 milhao de tokens de input, mas se o output esta limitado a 16K, sua resposta vai ser truncada. Sempre considere ambos os limites ao planejar tarefas que exigem respostas longas.
📊 Comparativo de Modelos
Conhecer os limites de cada modelo ajuda a escolher a ferramenta certa para cada tarefa.
| Modelo | Input Tokens | Output Tokens | Forca |
|---|---|---|---|
| GPT-4o | 128K | ~16K | Equilibrado, function calling |
| GPT-4.5 | 128K | ~16K | Conversacional, copy profissional |
| O3 Mini | 200K | 100K | Maior output, reasoning rapido |
| Claude 3.7 Sonnet | 200K | ~60K | Copy artistico, codigo |
| Gemini 2.5 Pro | 1M+ | ~64K | Docs longos, multimodal, needle-in-haystack |
🔮 Tendencias Futuras
Os context windows estao aumentando exponencialmente. Gemini ja fala em 2-3 milhoes de tokens. Mas lembre-se: maior contexto != melhor resultado. A analogia do credito continua valida.
🔧 Exercicio Pratico
Hora de aplicar o que aprendemos. Este exercicio vai consolidar a analogia do credito na pratica.
📝 Desafio: Comprimir sem Perder
Cenario: Voce tem um relatorio de 5.000 palavras sobre vendas do Q4. Seu chefe quer que voce use IA para extrair insights.
Tarefa: Em vez de jogar o documento inteiro, identifique:
- Quais secoes sao essenciais para a pergunta especifica?
- O que pode ser resumido em 1-2 frases?
- O que pode ser completamente removido?
Meta: Reduzir de 5.000 para ~500 palavras mantendo 95% do valor informativo.
💡 Dica do Exercicio
Use o proprio LLM para ajudar! Pergunte: "Atue como um prompt engineer. Remova todo o bloat deste texto e comprima sem comprometer as instrucoes ou conteudo vital para seu sucesso."
📋 Resumo do Modulo
Proximo Modulo:
1.2 - Lost in the Middle: entenda por que informacoes no meio do prompt sao frequentemente ignoradas