1.1
GA
~60 min · Básico · Teoria
🪟 Janela de contexto, atenção e "lost in the middle"
A anatomia operacional da janela: o que é atenção, por que tokens no meio são esquecidos, e como isso muda decisões de engenharia.
1 🪟 A janela é o ambiente físico do modelo ▾
O que é: Sequência fixa de tokens que o modelo lê em uma chamada. System prompt + histórico + contexto recuperado + user turn — tudo junto.
Por que aprender: Sem essa visão, você assume que o modelo tem 'memória da conversa'. Não tem — você reconstrói a cada chamada.
Conceitos-chave: Janela nominal, janela efetiva, ordem de seções, custo do input total.
2 🎯 Atenção causal e KV cache ▾
O que é: Cada token só 'olha' tokens anteriores. Estados intermediários (KV cache) podem ser reutilizados — base do prompt caching.
Por que aprender: Entender KV cache explica por que prefixos estáveis no início têm custo amortizado e por que mexer no system prompt invalida cache da sessão.
Conceitos-chave: Self-attention, causal mask, KV cache, attention heads, prefix prefill.
3 📍 Posição: rotary embeddings e o efeito recência ▾
O que é: Modelos modernos codificam posição via Rotary Position Embeddings (RoPE). Tokens recentes têm vantagem estrutural; tokens iniciais têm vantagem de fixação.
Por que aprender: Esse é o mecanismo concreto por trás do 'lost in the middle'. Tokens no meio simplesmente não têm vantagem estrutural nenhuma.
Conceitos-chave: RoPE (Su et al. 2021), prefix bias, recency bias, position interpolation.
4 📜 Lost in the middle (Liu et al. 2023) ▾
O que é: Em testes controlados, acurácia de QA cai até 30% quando a informação crítica está no meio da janela. Permanece alta no início e fim.
Por que aprender: RAG ingênuo coloca 50 documentos esperando que o modelo dê peso uniforme. Não dá. Precisa rerankear ou recuperar menos.
Conceitos-chave: Curva U, U-shape attention, mitigação por reranking, ancoragem.
5 🧭 Ordem das seções: estável → variável → instrução ▾
O que é: System prompt e few-shot fixos primeiro (estáveis, cacheáveis), contexto recuperado depois (variável), instrução do usuário no fim (atenção máxima).
Por que aprender: Esta ordem maximiza cache hit rate (Anthropic 2024) e coloca a instrução do usuário na posição mais 'atendida' pelo modelo.
Conceitos-chave: Prefix stability, cache breakpoints, instruction-at-the-end pattern, ancoragem.
6 📏 Janela nominal vs. efetiva ▾
O que é: Janela nominal é o que o modelo aceita sem erro de API. Janela efetiva é onde a qualidade se mantém. Frequentemente bem menor (RULER, Hsieh et al. 2024).
Por que aprender: Decidir 'cabe' e 'funciona bem' são duas perguntas diferentes. A segunda exige eval no harness.
Conceitos-chave: Effective context length, needle-in-a-haystack, RULER benchmark.