TRILHA 1

🧠 Fundamentos de Contexto

Os fundamentos operacionais: janela de contexto, atenção, tokens, custo. Pré-requisito de todas as outras trilhas.

2
Módulos GA
0
Beta
~1h
Duração
12
Tópicos

🎯 Objetivo desta trilha

Construir o modelo mental de como o modelo lê de fato uma mensagem.

🔍 O que você vai explorar

  • Janela de contexto como sequência fixa serializada — não 'conversa'.
  • Atenção causal e KV cache; por que prefixos estáveis são cacheáveis.
  • Lost in the middle (Liu et al. 2023) e mitigações validadas.
  • Posição via RoPE; ordem de seções estável→variável→instrução.
  • Tokens e tokenização (BPE/SentencePiece); custo input vs. output.
  • Os três níveis de modelo: frontier, low-cost, OSS local.

👤 Para quem

Todo aluno. Pré-requisito das outras 5 trilhas — não pule.

📚 Módulos da trilha

1.1 GA
~60 min · Básico · Teoria

🪟 Janela de contexto, atenção e "lost in the middle"

A anatomia operacional da janela: o que é atenção, por que tokens no meio são esquecidos, e como isso muda decisões de engenharia.

1 🪟 A janela é o ambiente físico do modelo
O que é: Sequência fixa de tokens que o modelo lê em uma chamada. System prompt + histórico + contexto recuperado + user turn — tudo junto.
Por que aprender: Sem essa visão, você assume que o modelo tem 'memória da conversa'. Não tem — você reconstrói a cada chamada.
Conceitos-chave: Janela nominal, janela efetiva, ordem de seções, custo do input total.
2 🎯 Atenção causal e KV cache
O que é: Cada token só 'olha' tokens anteriores. Estados intermediários (KV cache) podem ser reutilizados — base do prompt caching.
Por que aprender: Entender KV cache explica por que prefixos estáveis no início têm custo amortizado e por que mexer no system prompt invalida cache da sessão.
Conceitos-chave: Self-attention, causal mask, KV cache, attention heads, prefix prefill.
3 📍 Posição: rotary embeddings e o efeito recência
O que é: Modelos modernos codificam posição via Rotary Position Embeddings (RoPE). Tokens recentes têm vantagem estrutural; tokens iniciais têm vantagem de fixação.
Por que aprender: Esse é o mecanismo concreto por trás do 'lost in the middle'. Tokens no meio simplesmente não têm vantagem estrutural nenhuma.
Conceitos-chave: RoPE (Su et al. 2021), prefix bias, recency bias, position interpolation.
4 📜 Lost in the middle (Liu et al. 2023)
O que é: Em testes controlados, acurácia de QA cai até 30% quando a informação crítica está no meio da janela. Permanece alta no início e fim.
Por que aprender: RAG ingênuo coloca 50 documentos esperando que o modelo dê peso uniforme. Não dá. Precisa rerankear ou recuperar menos.
Conceitos-chave: Curva U, U-shape attention, mitigação por reranking, ancoragem.
5 🧭 Ordem das seções: estável → variável → instrução
O que é: System prompt e few-shot fixos primeiro (estáveis, cacheáveis), contexto recuperado depois (variável), instrução do usuário no fim (atenção máxima).
Por que aprender: Esta ordem maximiza cache hit rate (Anthropic 2024) e coloca a instrução do usuário na posição mais 'atendida' pelo modelo.
Conceitos-chave: Prefix stability, cache breakpoints, instruction-at-the-end pattern, ancoragem.
6 📏 Janela nominal vs. efetiva
O que é: Janela nominal é o que o modelo aceita sem erro de API. Janela efetiva é onde a qualidade se mantém. Frequentemente bem menor (RULER, Hsieh et al. 2024).
Por que aprender: Decidir 'cabe' e 'funciona bem' são duas perguntas diferentes. A segunda exige eval no harness.
Conceitos-chave: Effective context length, needle-in-a-haystack, RULER benchmark.
Ver Completo →
1.2 GA
~55 min · Básico · Prático

🔢 Tokens, custo e limites práticos por modelo

Como contar tokens, estimar custo antes de chamar a API, e escolher entre frontier / low-cost / OSS para o caso certo.

1 🔤 Tokenização: BPE e SentencePiece
O que é: BPE/SentencePiece quebram texto em unidades sub-palavra aprendidas. 'engenharia' pode virar 3 tokens; 'engineering' pode virar 1.
Por que aprender: Estimativa de custo precisa do tokenizer correto. Heurísticas universais ('1 token ≈ 4 chars') falham em PT-BR (~3 chars/token), código e emoji.
Conceitos-chave: BPE (Sennrich 2016), SentencePiece (Kudo 2018), vocabulário, multi-byte tokens, UNK.
2 💰 Custo: input vs. output (cuidado com a ratio)
O que é: Output tokens custam 3-5× mais que input. Mas em janelas longas, você gasta mais em input total porque ele é grande.
Por que aprender: Otimização incorreta — tentar reduzir output enquanto a janela está inflada — não move custo significativamente.
Conceitos-chave: Pricing por 1M tokens, ratio input/output, batch discounts, prompt caching.
3 🏗️ Os três níveis de modelo
O que é: Frontier (~$3-15/M): raciocínio complexo, contexto grande. Low-cost (~$0.10-0.30/M): volume alto, classificação. OSS local: $0/chamada, hardware-bound.
Por que aprender: Engenheiros pulam direto para frontier por inércia. Em volume, isso queima orçamento sem ganho.
Conceitos-chave: Capability vs. context vs. cost, model routing, hierarchical inference.
4 ⏱️ Latência: prefill vs. decode
O que é: Prefill é o tempo para o modelo 'ler' o input. Decode é o tempo de geração. Janela longa = prefill longo = TTFT (time-to-first-token) grande.
Por que aprender: Para UX de chat ao vivo, prefill domina o 'tempo até primeiro token'. Cache reduz drasticamente — entender isso é entender UX real.
Conceitos-chave: TTFT, tokens/sec, KV cache reuse, streaming.
5 🔁 Prompt caching: como obter desconto real
O que é: Anthropic e OpenAI oferecem cache de prefixo. Tokens cacheados custam ~10% do preço normal de input.
Por que aprender: Em chat com system prompt + few-shot grandes, cache pode reduzir custo de input em 80-90%. Detalhado em T5.2.
Conceitos-chave: Cache breakpoint, TTL, hit rate, prefix stability.
6 🆓 OSS local: a matriz de hardware
O que é: Qwen2.5-7B q4 cabe em 16GB RAM. Llama-3.1-8B-instruct também. Modelos >13B exigem GPU. Detalhes em OLLAMA-MATRIZ.md.
Por que aprender: O caminho gratuito do curso usa OSS — entenda o que cabe antes de tentar T4.3 (multi-agente).
Conceitos-chave: Quantização (q4, q5, q8), VRAM/RAM, throughput CPU vs. GPU, vLLM.
Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T1.md.

Bibliografia T1 →

🗺️ Outras trilhas