Como Modelos Interpretam Long Context
Mecanismos internos e limitações
Modelos com janelas de 100k-2M tokens não processam todo o texto igualmente. Entender os mecanismos de atenção e seus vieses é fundamental para otimizar o uso de contextos extensos.
Vieses de Atenção
Primacy Bias
Início do contexto tem maior peso
Lost in Middle
Centro tende a ser ignorado
Recency Bias
Final do contexto tem alta prioridade
Implicações Práticas
- → Coloque instruções críticas no início do contexto
- → Repita informações importantes no final (task reminder)
- → Use marcadores explícitos para conteúdo no meio
- → Teste retrieval de informações em diferentes posições
Janelas Grandes vs RAG Tradicional
Quando usar cada abordagem
Com 1-2M tokens disponíveis, você pode carregar documentos inteiros na janela de contexto. Isso muda fundamentalmente a necessidade de RAG - mas não elimina.
📚 Full Context Loading
Quando usar:
- • Corpus cabe na janela (<1M tokens)
- • Precisa de visão holística
- • Cross-referência entre documentos
- • Latência de retrieval é problema
🔍 RAG Seletivo
Quando usar:
- • Corpus é muito grande (TB de dados)
- • Dados mudam frequentemente
- • Custo por token é crítico
- • Precisa de precisão cirúrgica
Decisão Matrix
| Cenário | Full Context | RAG |
|---|---|---|
| Manual de 50 páginas | ✅ Ideal | Desnecessário |
| Base de 10M documentos | Impossível | ✅ Necessário |
| Codebase de 500k linhas | ✅ Viável | ✅ Alternativa |
| News feed em tempo real | Impraticável | ✅ Ideal |
Estratégias de Organização de Contexto Extenso
Estruturando 100k-1M tokens
Técnicas de Organização
📑 Table of Contents
Inclua um índice no início listando seções e suas posições. Modelo usa como mapa de navegação.
🏷️ Section Headers
Use delimitadores claros e consistentes: === SEÇÃO: Nome ===
🎯 Relevance Ordering
Ordene documentos por relevância esperada, mais relevantes primeiro e último.
📋 Metadata Enrichment
Adicione metadados: [SOURCE: doc1.pdf] [DATE: 2024-01] [RELEVANCE: HIGH]
Exemplo: Estrutura para Análise de Codebase
=== TABLE OF CONTENTS ===
1. Architecture Overview (line 50)
2. API Endpoints (line 500)
3. Data Models (line 2000)
4. Tests (line 5000)
=== SECTION: Architecture Overview ===
[RELEVANCE: HIGH] [TYPE: documentation]
...
Resumo Progressivo e Compressão Semântica
Preservando informação com menos tokens
Mesmo com janelas grandes, às vezes o contexto excede o limite. Técnicas de compressão permitem manter informação essencial enquanto reduz tokens.
Técnicas de Compressão
🔄 Hierarchical Summarization
Resuma em níveis: documento → seção → parágrafo. Carregue nível apropriado.
🎯 Entity Extraction
Extraia entidades e relações chave, descarte texto narrativo.
📊 Structured Conversion
Converta prosa em JSON/tabelas - mais denso semanticamente.
🗜️ Progressive Compression
Conteúdo antigo = mais comprimido. Recente = detalhado.
Priorização e Descarte de Contexto
Decidindo o que manter
Critérios de Priorização
Score de similaridade semântica com a query
Informação mais recente geralmente mais relevante
Tags explícitas: [CRITICAL], [REQUIRED], [OPTIONAL]
Contexto referenciado por outros mantidos
Anti-Patterns em Long Context
Erros comuns e como evitar
Anti-Patterns Comuns
❌ "More is Better" Fallacy
Adicionar todo contexto disponível sem curadoria.
❌ Flat Context
Nenhuma estrutura ou hierarquia - tudo no mesmo nível.
❌ Instructions Burial
Colocar instruções importantes no meio do contexto.
❌ Stale Context
Manter contexto desatualizado ou contraditório.