T1 — Fundamentos de Contexto

🎯 Objetivo desta trilha

Construir o modelo mental de como o modelo lê de fato uma mensagem.

🔍 O que você vai explorar

▸Janela de contexto como sequência fixa serializada — não 'conversa'.
▸Atenção causal e KV cache; por que prefixos estáveis são cacheáveis.
▸Lost in the middle (Liu et al. 2023) e mitigações validadas.
▸Posição via RoPE; ordem de seções estável→variável→instrução.
▸Tokens e tokenização (BPE/SentencePiece); custo input vs. output.
▸Os três níveis de modelo: frontier, low-cost, OSS local.

👤 Para quem

Todo aluno. Pré-requisito das outras 5 trilhas — não pule.

📚 Módulos da trilha

1.1 GA

~60 min · Básico · Teoria

🪟 Janela de contexto, atenção e "lost in the middle"

A anatomia operacional da janela: o que é atenção, por que tokens no meio são esquecidos, e como isso muda decisões de engenharia.

1 🪟 A janela é o ambiente físico do modelo— Tokens, não conversas ▾

O que é: Sequência fixa de tokens que o modelo lê em uma chamada. System prompt + histórico + contexto recuperado + user turn — tudo junto.

Por que aprender: Sem essa visão, você assume que o modelo tem 'memória da conversa'. Não tem — você reconstrói a cada chamada.

Conceitos-chave: Janela nominal, janela efetiva, ordem de seções, custo do input total.

2 🎯 Atenção causal e KV cache— O mecanismo que pesa tokens ▾

O que é: Cada token só 'olha' tokens anteriores. Estados intermediários (KV cache) podem ser reutilizados — base do prompt caching.

Por que aprender: Entender KV cache explica por que prefixos estáveis no início têm custo amortizado e por que mexer no system prompt invalida cache da sessão.

Conceitos-chave: Self-attention, causal mask, KV cache, attention heads, prefix prefill.

3 📍 Posição: rotary embeddings e o efeito recência— Por que tokens recentes têm vantagem ▾

O que é: Modelos modernos codificam posição via Rotary Position Embeddings (RoPE). Tokens recentes têm vantagem estrutural; tokens iniciais têm vantagem de fixação.

Por que aprender: Esse é o mecanismo concreto por trás do 'lost in the middle'. Tokens no meio simplesmente não têm vantagem estrutural nenhuma.

Conceitos-chave: RoPE (Su et al. 2021), prefix bias, recency bias, position interpolation.

4 📜 Lost in the middle (Liu et al. 2023)— A curva U de atenção ▾

O que é: Em testes controlados, acurácia de QA cai até 30% quando a informação crítica está no meio da janela. Permanece alta no início e fim.

Por que aprender: RAG ingênuo coloca 50 documentos esperando que o modelo dê peso uniforme. Não dá. Precisa rerankear ou recuperar menos.

Conceitos-chave: Curva U, U-shape attention, mitigação por reranking, ancoragem.

5 🧭 Ordem das seções: estável → variável → instrução— O padrão que casa atenção e cache ▾

O que é: System prompt e few-shot fixos primeiro (estáveis, cacheáveis), contexto recuperado depois (variável), instrução do usuário no fim (atenção máxima).

Por que aprender: Esta ordem maximiza cache hit rate (Anthropic 2024) e coloca a instrução do usuário na posição mais 'atendida' pelo modelo.

Conceitos-chave: Prefix stability, cache breakpoints, instruction-at-the-end pattern, ancoragem.

6 📏 Janela nominal vs. efetiva— 200k de marketing ≠ 200k de qualidade ▾

O que é: Janela nominal é o que o modelo aceita sem erro de API. Janela efetiva é onde a qualidade se mantém. Frequentemente bem menor (RULER, Hsieh et al. 2024).

Por que aprender: Decidir 'cabe' e 'funciona bem' são duas perguntas diferentes. A segunda exige eval no harness.

Conceitos-chave: Effective context length, needle-in-a-haystack, RULER benchmark.

Ver Completo →

1.2 GA

~55 min · Básico · Prático

🔢 Tokens, custo e limites práticos por modelo

Como contar tokens, estimar custo antes de chamar a API, e escolher entre frontier / low-cost / OSS para o caso certo.

1 🔤 Tokenização: BPE e SentencePiece— Por que tokens ≠ palavras ▾

O que é: BPE/SentencePiece quebram texto em unidades sub-palavra aprendidas. 'engenharia' pode virar 3 tokens; 'engineering' pode virar 1.

Por que aprender: Estimativa de custo precisa do tokenizer correto. Heurísticas universais ('1 token ≈ 4 chars') falham em PT-BR (~3 chars/token), código e emoji.

Conceitos-chave: BPE (Sennrich 2016), SentencePiece (Kudo 2018), vocabulário, multi-byte tokens, UNK.

2 💰 Custo: input vs. output (cuidado com a ratio)— Output é caro mas input é volume ▾

O que é: Output tokens custam 3-5× mais que input. Mas em janelas longas, você gasta mais em input total porque ele é grande.

Por que aprender: Otimização incorreta — tentar reduzir output enquanto a janela está inflada — não move custo significativamente.

Conceitos-chave: Pricing por 1M tokens, ratio input/output, batch discounts, prompt caching.

3 🏗️ Os três níveis de modelo— Frontier, low-cost, OSS local ▾

O que é: Frontier (~$3-15/M): raciocínio complexo, contexto grande. Low-cost (~$0.10-0.30/M): volume alto, classificação. OSS local: $0/chamada, hardware-bound.

Por que aprender: Engenheiros pulam direto para frontier por inércia. Em volume, isso queima orçamento sem ganho.

Conceitos-chave: Capability vs. context vs. cost, model routing, hierarchical inference.

4 ⏱️ Latência: prefill vs. decode— TTFT em janelas longas ▾

O que é: Prefill é o tempo para o modelo 'ler' o input. Decode é o tempo de geração. Janela longa = prefill longo = TTFT (time-to-first-token) grande.

Por que aprender: Para UX de chat ao vivo, prefill domina o 'tempo até primeiro token'. Cache reduz drasticamente — entender isso é entender UX real.

Conceitos-chave: TTFT, tokens/sec, KV cache reuse, streaming.

5 🔁 Prompt caching: como obter desconto real— 10% do preço para tokens cacheados ▾

O que é: Anthropic e OpenAI oferecem cache de prefixo. Tokens cacheados custam ~10% do preço normal de input.

Por que aprender: Em chat com system prompt + few-shot grandes, cache pode reduzir custo de input em 80-90%. Detalhado em T5.2.

Conceitos-chave: Cache breakpoint, TTL, hit rate, prefix stability.

6 🆓 OSS local: a matriz de hardware— O que cabe na sua máquina ▾

O que é: Qwen2.5-7B q4 cabe em 16GB RAM. Llama-3.1-8B-instruct também. Modelos >13B exigem GPU. Detalhes em OLLAMA-MATRIZ.md.

Por que aprender: O caminho gratuito do curso usa OSS — entenda o que cabe antes de tentar T4.3 (multi-agente).

Conceitos-chave: Quantização (q4, q5, q8), VRAM/RAM, throughput CPU vs. GPU, vLLM.

Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T1.md.

Bibliografia T1 →

🗺️ Outras trilhas

✉️ Engenharia da Mensagem

📚 RAG e Recuperação

🛠️ Tools, Agentes e Multi-Agente

💾 Memória e Compressão

📊 Avaliação e Produção