Modulo 1.1 - Entendendo Context Windows

📏 Context Window Limits

Cada LLM tem um limite de tokens que pode processar em uma unica interacao. Esse limite e chamado de context window e varia drasticamente entre modelos - de 8.000 tokens em modelos mais simples ate mais de 2 milhoes em modelos como o Gemini.

💡 O que sao Tokens?

Tokens nao sao exatamente palavras. Um token pode ser uma palavra, parte de uma palavra, ou ate mesmo um caractere especial. Em ingles, 1 token ≈ 0.75 palavras. Em portugues, a proporcao pode ser menor devido aos acentos e caracteres especiais.

• GPT-4o: ~128.000 tokens de input
• Claude 3.7: ~200.000 tokens de input
• Gemini 2.5 Pro: ~1.000.000+ tokens de input

📊 Input vs Output Tokens

E crucial entender que context window se refere ao input. O output tem limites separados e geralmente menores:

GPT-4o: Output limitado a ~16.000 tokens
Claude 3.7: Output limitado a ~40.000-60.000 tokens
O3 Mini: Output de ate ~100.000 tokens (maior do mercado)

💳 A Analogia do Credito

Uma das melhores formas de entender context windows e atraves da analogia do credito financeiro. Se voce tem R$500.000 de limite no cartao, usar R$499.999 nao e uma boa ideia - sua utilizacao seria altissima e isso afeta negativamente seu score.

🎯 A Regra de Ouro

So porque voce TEM 1 milhao de tokens, nao significa que voce DEVE usar todos.

Quanto menor sua "utilizacao de contexto", mais preciso e confiavel tende a ser o resultado. Um prompt de 1.000 tokens em um modelo com 1 milhao de capacidade vai receber muito mais "atencao" do que se voce enchesse com 900.000 tokens de contexto.

✓ O que FAZER

✓ Usar apenas o contexto relevante para a tarefa
✓ Extrair trechos especificos de documentos longos
✓ Criar sumarios antes de enviar docs completos
✓ Manter o "denominador grande, numerador pequeno"

✗ O que NAO fazer

✗ Dumpar 5 PDFs de uma vez "so porque pode"
✗ Confundir tamanho de contexto com qualidade
✗ Ignorar os limites de output token
✗ Assumir que mais contexto = melhor resultado

🎯 Utilizacao Inteligente

A utilizacao inteligente do contexto e o que separa prompts mediocres de prompts excelentes. Nao se trata de economizar tokens por economia - trata-se de maximizar a atencao do modelo no que realmente importa.

Identifique o nucleo da tarefa

Antes de adicionar contexto

O que exatamente voce precisa que o modelo faca? Qual e a pergunta central? Comece por ai.

Selecione apenas o contexto necessario

Qualidade sobre quantidade

Se voce tem um documento de 50 paginas, provavelmente so 2-3 paginas sao relevantes. Use essas.

Estruture de forma clara

Facilite o processamento

Use headers, separadores e formatacao que ajude o modelo a entender onde cada informacao esta.

💡 Dica Pratica

Antes de enviar um documento longo, pergunte-se: "Se eu tivesse que explicar isso para um colega em 2 minutos, o que eu diria?" Essa versao resumida e provavelmente o que o modelo precisa.

⚠️ Armadilhas Comuns

Mesmo profissionais experientes cometem esses erros. Conhece-los e o primeiro passo para evita-los.

🚨 Armadilha #1: O "Data Dump"

Empresas adoram configurar um ChatGPT Teams, jogar 5 PDFs e dizer "vai". Enquanto isso pode funcionar as vezes (especialmente com reasoning models), nao e consistente.

O melhor approach: alimente o modelo apenas com o que ele precisa para a tarefa especifica.

🚨 Armadilha #2: Confundir Context com Memoria

Context window NAO e memoria persistente. A cada nova conversa, o modelo comeca do zero. Mesmo em conversas longas, o contexto anterior pode ser "esquecido" ou receber menos peso. Nao assuma que o modelo "lembra" de algo que voce disse 50 mensagens atras.

🚨 Armadilha #3: Ignorar Output Limits

Voce pode ter 1 milhao de tokens de input, mas se o output esta limitado a 16K, sua resposta vai ser truncada. Sempre considere ambos os limites ao planejar tarefas que exigem respostas longas.

📊 Comparativo de Modelos

Conhecer os limites de cada modelo ajuda a escolher a ferramenta certa para cada tarefa.

Modelo	Input Tokens	Output Tokens	Forca
GPT-4o	128K	~16K	Equilibrado, function calling
GPT-4.5	128K	~16K	Conversacional, copy profissional
O3 Mini	200K	100K	Maior output, reasoning rapido
Claude 3.7 Sonnet	200K	~60K	Copy artistico, codigo
Gemini 2.5 Pro	1M+	~64K	Docs longos, multimodal, needle-in-haystack

🔮 Tendencias Futuras

Os context windows estao aumentando exponencialmente. Gemini ja fala em 2-3 milhoes de tokens. Mas lembre-se: maior contexto != melhor resultado. A analogia do credito continua valida.

🔧 Exercicio Pratico

Hora de aplicar o que aprendemos. Este exercicio vai consolidar a analogia do credito na pratica.

📝 Desafio: Comprimir sem Perder

Cenario: Voce tem um relatorio de 5.000 palavras sobre vendas do Q4. Seu chefe quer que voce use IA para extrair insights.

Tarefa: Em vez de jogar o documento inteiro, identifique:

Quais secoes sao essenciais para a pergunta especifica?
O que pode ser resumido em 1-2 frases?
O que pode ser completamente removido?

Meta: Reduzir de 5.000 para ~500 palavras mantendo 95% do valor informativo.

💡 Dica do Exercicio

Use o proprio LLM para ajudar! Pergunte: "Atue como um prompt engineer. Remova todo o bloat deste texto e comprima sem comprometer as instrucoes ou conteudo vital para seu sucesso."

📋 Resumo do Modulo

✓

Context Window - E o limite de tokens que um LLM processa por interacao

✓

Analogia do Credito - Baixa utilizacao = melhores resultados

✓

Input vs Output - Sao limites separados, sempre considere ambos

✓

Data Dump = Erro - Alimente apenas o contexto necessario

✓

Escolha o modelo certo - Gemini para docs longos, O3 para outputs grandes

Proximo Modulo:

1.2 - Lost in the Middle: entenda por que informacoes no meio do prompt sao frequentemente ignoradas

← Voltar para Trilha Proximo Modulo →