Voltar ao Nível Avançado
MÓDULO 2 NÍVEL AVANÇADO

Gestão de Long Context (100K → 1M+ tokens)

Modelos com janelas gigantes mudam tudo. Aprenda a trabalhar com contextos de 100k a 2 milhões de tokens e entenda quando RAG ainda é necessário.

6
Tópicos
100
Minutos
10
Exercícios
1

Como Modelos Interpretam Long Context

Mecanismos internos e limitações

Modelos com janelas de 100k-2M tokens não processam todo o texto igualmente. Entender os mecanismos de atenção e seus vieses é fundamental para otimizar o uso de contextos extensos.

Vieses de Atenção

📍
Primacy Bias

Início do contexto tem maior peso

🕳️
Lost in Middle

Centro tende a ser ignorado

⏱️
Recency Bias

Final do contexto tem alta prioridade

Implicações Práticas

  • Coloque instruções críticas no início do contexto
  • Repita informações importantes no final (task reminder)
  • Use marcadores explícitos para conteúdo no meio
  • Teste retrieval de informações em diferentes posições
2

Janelas Grandes vs RAG Tradicional

Quando usar cada abordagem

Com 1-2M tokens disponíveis, você pode carregar documentos inteiros na janela de contexto. Isso muda fundamentalmente a necessidade de RAG - mas não elimina.

📚 Full Context Loading

Quando usar:

  • • Corpus cabe na janela (<1M tokens)
  • • Precisa de visão holística
  • • Cross-referência entre documentos
  • • Latência de retrieval é problema

🔍 RAG Seletivo

Quando usar:

  • • Corpus é muito grande (TB de dados)
  • • Dados mudam frequentemente
  • • Custo por token é crítico
  • • Precisa de precisão cirúrgica

Decisão Matrix

Cenário Full Context RAG
Manual de 50 páginas ✅ Ideal Desnecessário
Base de 10M documentos Impossível ✅ Necessário
Codebase de 500k linhas ✅ Viável ✅ Alternativa
News feed em tempo real Impraticável ✅ Ideal
3

Estratégias de Organização de Contexto Extenso

Estruturando 100k-1M tokens

Técnicas de Organização

📑 Table of Contents

Inclua um índice no início listando seções e suas posições. Modelo usa como mapa de navegação.

🏷️ Section Headers

Use delimitadores claros e consistentes: === SEÇÃO: Nome ===

🎯 Relevance Ordering

Ordene documentos por relevância esperada, mais relevantes primeiro e último.

📋 Metadata Enrichment

Adicione metadados: [SOURCE: doc1.pdf] [DATE: 2024-01] [RELEVANCE: HIGH]

Exemplo: Estrutura para Análise de Codebase

=== TABLE OF CONTENTS ===

1. Architecture Overview (line 50)

2. API Endpoints (line 500)

3. Data Models (line 2000)

4. Tests (line 5000)

=== SECTION: Architecture Overview ===

[RELEVANCE: HIGH] [TYPE: documentation]

...

4

Resumo Progressivo e Compressão Semântica

Preservando informação com menos tokens

Mesmo com janelas grandes, às vezes o contexto excede o limite. Técnicas de compressão permitem manter informação essencial enquanto reduz tokens.

Técnicas de Compressão

🔄 Hierarchical Summarization

Resuma em níveis: documento → seção → parágrafo. Carregue nível apropriado.

🎯 Entity Extraction

Extraia entidades e relações chave, descarte texto narrativo.

📊 Structured Conversion

Converta prosa em JSON/tabelas - mais denso semanticamente.

🗜️ Progressive Compression

Conteúdo antigo = mais comprimido. Recente = detalhado.

5

Priorização e Descarte de Contexto

Decidindo o que manter

Critérios de Priorização

🎯
Relevância para tarefa

Score de similaridade semântica com a query

Recência

Informação mais recente geralmente mais relevante

Importance markers

Tags explícitas: [CRITICAL], [REQUIRED], [OPTIONAL]

🔗
Dependencies

Contexto referenciado por outros mantidos

6

Anti-Patterns em Long Context

Erros comuns e como evitar

Anti-Patterns Comuns

❌ "More is Better" Fallacy

Adicionar todo contexto disponível sem curadoria.

❌ Flat Context

Nenhuma estrutura ou hierarquia - tudo no mesmo nível.

❌ Instructions Burial

Colocar instruções importantes no meio do contexto.

❌ Stale Context

Manter contexto desatualizado ou contraditório.

Baixar este módulo

Salve para estudar offline

Módulo 1: Engenharia de Contexto Módulo 3: Engenharia de Skill