MODULO 1.1

📊 Entendendo Context Windows

Aprenda os limites de contexto dos LLMs e como a analogia do credito ajuda a otimizar sua utilizacao. A base para todo o resto do curso.

6
Topicos
20
Minutos
Basico
Nivel
Teoria
Tipo
1

📏 Context Window Limits

Cada LLM tem um limite de tokens que pode processar em uma unica interacao. Esse limite e chamado de context window e varia drasticamente entre modelos - de 8.000 tokens em modelos mais simples ate mais de 2 milhoes em modelos como o Gemini.

💡 O que sao Tokens?

Tokens nao sao exatamente palavras. Um token pode ser uma palavra, parte de uma palavra, ou ate mesmo um caractere especial. Em ingles, 1 token ≈ 0.75 palavras. Em portugues, a proporcao pode ser menor devido aos acentos e caracteres especiais.

  • GPT-4o: ~128.000 tokens de input
  • Claude 3.7: ~200.000 tokens de input
  • Gemini 2.5 Pro: ~1.000.000+ tokens de input

📊 Input vs Output Tokens

E crucial entender que context window se refere ao input. O output tem limites separados e geralmente menores:

  • GPT-4o: Output limitado a ~16.000 tokens
  • Claude 3.7: Output limitado a ~40.000-60.000 tokens
  • O3 Mini: Output de ate ~100.000 tokens (maior do mercado)
2

💳 A Analogia do Credito

Uma das melhores formas de entender context windows e atraves da analogia do credito financeiro. Se voce tem R$500.000 de limite no cartao, usar R$499.999 nao e uma boa ideia - sua utilizacao seria altissima e isso afeta negativamente seu score.

🎯 A Regra de Ouro

So porque voce TEM 1 milhao de tokens, nao significa que voce DEVE usar todos.

Quanto menor sua "utilizacao de contexto", mais preciso e confiavel tende a ser o resultado. Um prompt de 1.000 tokens em um modelo com 1 milhao de capacidade vai receber muito mais "atencao" do que se voce enchesse com 900.000 tokens de contexto.

✓ O que FAZER

  • Usar apenas o contexto relevante para a tarefa
  • Extrair trechos especificos de documentos longos
  • Criar sumarios antes de enviar docs completos
  • Manter o "denominador grande, numerador pequeno"

✗ O que NAO fazer

  • Dumpar 5 PDFs de uma vez "so porque pode"
  • Confundir tamanho de contexto com qualidade
  • Ignorar os limites de output token
  • Assumir que mais contexto = melhor resultado
3

🎯 Utilizacao Inteligente

A utilizacao inteligente do contexto e o que separa prompts mediocres de prompts excelentes. Nao se trata de economizar tokens por economia - trata-se de maximizar a atencao do modelo no que realmente importa.

1

Identifique o nucleo da tarefa

Antes de adicionar contexto

O que exatamente voce precisa que o modelo faca? Qual e a pergunta central? Comece por ai.

2

Selecione apenas o contexto necessario

Qualidade sobre quantidade

Se voce tem um documento de 50 paginas, provavelmente so 2-3 paginas sao relevantes. Use essas.

3

Estruture de forma clara

Facilite o processamento

Use headers, separadores e formatacao que ajude o modelo a entender onde cada informacao esta.

💡 Dica Pratica

Antes de enviar um documento longo, pergunte-se: "Se eu tivesse que explicar isso para um colega em 2 minutos, o que eu diria?" Essa versao resumida e provavelmente o que o modelo precisa.

4

⚠️ Armadilhas Comuns

Mesmo profissionais experientes cometem esses erros. Conhece-los e o primeiro passo para evita-los.

🚨 Armadilha #1: O "Data Dump"

Empresas adoram configurar um ChatGPT Teams, jogar 5 PDFs e dizer "vai". Enquanto isso pode funcionar as vezes (especialmente com reasoning models), nao e consistente.

O melhor approach: alimente o modelo apenas com o que ele precisa para a tarefa especifica.

🚨 Armadilha #2: Confundir Context com Memoria

Context window NAO e memoria persistente. A cada nova conversa, o modelo comeca do zero. Mesmo em conversas longas, o contexto anterior pode ser "esquecido" ou receber menos peso. Nao assuma que o modelo "lembra" de algo que voce disse 50 mensagens atras.

🚨 Armadilha #3: Ignorar Output Limits

Voce pode ter 1 milhao de tokens de input, mas se o output esta limitado a 16K, sua resposta vai ser truncada. Sempre considere ambos os limites ao planejar tarefas que exigem respostas longas.

5

📊 Comparativo de Modelos

Conhecer os limites de cada modelo ajuda a escolher a ferramenta certa para cada tarefa.

Modelo Input Tokens Output Tokens Forca
GPT-4o 128K ~16K Equilibrado, function calling
GPT-4.5 128K ~16K Conversacional, copy profissional
O3 Mini 200K 100K Maior output, reasoning rapido
Claude 3.7 Sonnet 200K ~60K Copy artistico, codigo
Gemini 2.5 Pro 1M+ ~64K Docs longos, multimodal, needle-in-haystack

🔮 Tendencias Futuras

Os context windows estao aumentando exponencialmente. Gemini ja fala em 2-3 milhoes de tokens. Mas lembre-se: maior contexto != melhor resultado. A analogia do credito continua valida.

6

🔧 Exercicio Pratico

Hora de aplicar o que aprendemos. Este exercicio vai consolidar a analogia do credito na pratica.

📝 Desafio: Comprimir sem Perder

Cenario: Voce tem um relatorio de 5.000 palavras sobre vendas do Q4. Seu chefe quer que voce use IA para extrair insights.

Tarefa: Em vez de jogar o documento inteiro, identifique:

  1. Quais secoes sao essenciais para a pergunta especifica?
  2. O que pode ser resumido em 1-2 frases?
  3. O que pode ser completamente removido?

Meta: Reduzir de 5.000 para ~500 palavras mantendo 95% do valor informativo.

💡 Dica do Exercicio

Use o proprio LLM para ajudar! Pergunte: "Atue como um prompt engineer. Remova todo o bloat deste texto e comprima sem comprometer as instrucoes ou conteudo vital para seu sucesso."

📋 Resumo do Modulo

Context Window - E o limite de tokens que um LLM processa por interacao
Analogia do Credito - Baixa utilizacao = melhores resultados
Input vs Output - Sao limites separados, sempre considere ambos
Data Dump = Erro - Alimente apenas o contexto necessario
Escolha o modelo certo - Gemini para docs longos, O3 para outputs grandes

Proximo Modulo:

1.2 - Lost in the Middle: entenda por que informacoes no meio do prompt sao frequentemente ignoradas