Módulo 2: Gestão de Long Context - Nível Avançado

1

Como Modelos Interpretam Long Context

Mecanismos internos e limitações

Modelos com janelas de 100k-2M tokens não processam todo o texto igualmente. Entender os mecanismos de atenção e seus vieses é fundamental para otimizar o uso de contextos extensos.

Vieses de Atenção

📍

Primacy Bias

Início do contexto tem maior peso

🕳️

Lost in Middle

Centro tende a ser ignorado

⏱️

Recency Bias

Final do contexto tem alta prioridade

Implicações Práticas

→ Coloque instruções críticas no início do contexto
→ Repita informações importantes no final (task reminder)
→ Use marcadores explícitos para conteúdo no meio
→ Teste retrieval de informações em diferentes posições

2

Janelas Grandes vs RAG Tradicional

Quando usar cada abordagem

Com 1-2M tokens disponíveis, você pode carregar documentos inteiros na janela de contexto. Isso muda fundamentalmente a necessidade de RAG - mas não elimina.

📚 Full Context Loading

Quando usar:

• Corpus cabe na janela (<1M tokens)
• Precisa de visão holística
• Cross-referência entre documentos
• Latência de retrieval é problema

🔍 RAG Seletivo

Quando usar:

• Corpus é muito grande (TB de dados)
• Dados mudam frequentemente
• Custo por token é crítico
• Precisa de precisão cirúrgica

Decisão Matrix

Cenário	Full Context	RAG
Manual de 50 páginas	✅ Ideal	Desnecessário
Base de 10M documentos	Impossível	✅ Necessário
Codebase de 500k linhas	✅ Viável	✅ Alternativa
News feed em tempo real	Impraticável	✅ Ideal

3

Estratégias de Organização de Contexto Extenso

Estruturando 100k-1M tokens

Técnicas de Organização

📑 Table of Contents

Inclua um índice no início listando seções e suas posições. Modelo usa como mapa de navegação.

🏷️ Section Headers

Use delimitadores claros e consistentes: === SEÇÃO: Nome ===

🎯 Relevance Ordering

Ordene documentos por relevância esperada, mais relevantes primeiro e último.

📋 Metadata Enrichment

Adicione metadados: [SOURCE: doc1.pdf] [DATE: 2024-01] [RELEVANCE: HIGH]

Exemplo: Estrutura para Análise de Codebase

=== TABLE OF CONTENTS ===

1. Architecture Overview (line 50)

2. API Endpoints (line 500)

3. Data Models (line 2000)

4. Tests (line 5000)

=== SECTION: Architecture Overview ===

[RELEVANCE: HIGH] [TYPE: documentation]

...

4

Resumo Progressivo e Compressão Semântica

Preservando informação com menos tokens

Mesmo com janelas grandes, às vezes o contexto excede o limite. Técnicas de compressão permitem manter informação essencial enquanto reduz tokens.

Técnicas de Compressão

🔄 Hierarchical Summarization

Resuma em níveis: documento → seção → parágrafo. Carregue nível apropriado.

🎯 Entity Extraction

Extraia entidades e relações chave, descarte texto narrativo.

📊 Structured Conversion

Converta prosa em JSON/tabelas - mais denso semanticamente.

🗜️ Progressive Compression

Conteúdo antigo = mais comprimido. Recente = detalhado.

5

Priorização e Descarte de Contexto

Decidindo o que manter

Critérios de Priorização

🎯

Relevância para tarefa

Score de similaridade semântica com a query

⏰

Recência

Informação mais recente geralmente mais relevante

⭐

Importance markers

Tags explícitas: [CRITICAL], [REQUIRED], [OPTIONAL]

🔗

Dependencies

Contexto referenciado por outros mantidos

6

Anti-Patterns em Long Context

Erros comuns e como evitar

Anti-Patterns Comuns

❌ "More is Better" Fallacy

Adicionar todo contexto disponível sem curadoria.

❌ Flat Context

Nenhuma estrutura ou hierarquia - tudo no mesmo nível.

❌ Instructions Burial

Colocar instruções importantes no meio do contexto.

❌ Stale Context

Manter contexto desatualizado ou contraditório.

Gestão de Long Context (100K → 1M+ tokens)