TRILHA 5

💾 Memória e Compressão

Memória curto/longo prazo, summarização hierárquica, prompt caching e context distillation.

1
Módulos GA
1
Beta
~2h
Duração
12
Tópicos

🎯 Objetivo desta trilha

Dar 'memória' ao agente sem inflar custo nem janela.

🔍 O que você vai explorar

  • Buffer de turns (curto prazo) — solução simples para chats curtos.
  • Sumarização incremental e hierárquica (MemGPT).
  • Memória vetorial para longo prazo + recall por similaridade.
  • Perfil estruturado do usuário no system prompt.
  • Prompt caching: 10% do preço para tokens cacheados.
  • Context distillation e compressão (LLMLingua).

👤 Para quem

Quem opera chats com histórico longo ou quer cortar custo de input.

📚 Módulos da trilha

5.1 GA
~60 min · Intermediário · Prático

💾 Estratégias de memória: curto, longo prazo e summarização hierárquica

Como dar 'memória' a um agente: buffer de turn, summarização hierárquica, vetor de longo prazo, recall sob demanda.

1 📥 Buffer de turns: memória de curto prazo
O que é: Manter os últimos N turns inteiros na janela. Simples, eficaz para conversas curtas.
Por que aprender: Em chats curtos (5-10 turns), buffer puro basta. Modelos atendem bem com janela <10k.
Conceitos-chave: Sliding window, message buffer, FIFO eviction.
2 📝 Summarização incremental
O que é: Quando buffer estoura, sumariza turns antigos em parágrafo. Sumário fica no system prompt.
Por que aprender: Mantém continuidade sem inflar janela. Trade-off: perde detalhe do que foi sumarizado.
Conceitos-chave: Recursive summarization, sliding-window summarization, hierarchical.
3 🌳 Sumarização hierárquica: árvore de memória
O que é: Sumariza turns em sumário-de-1; sumários-de-1 em sumário-de-2; etc. Estrutura tipo árvore.
Por que aprender: Para chats longos (centenas de turns), hierarquia preserva detalhe nos níveis superiores.
Conceitos-chave: Tree summarization, multi-level memory, MemGPT.
4 🗃️ Memória vetorial: longo prazo
O que é: Cada turn vira embedding indexado. No próximo turn, busca turns relevantes ao tópico atual e injeta.
Por que aprender: Permite chats que 'lembram' de conversas de meses atrás sem manter tudo na janela.
Conceitos-chave: Long-term memory, episodic memory, recall on demand, retrieval-augmented memory.
5 🔍 Recall sob demanda: tool de memória
O que é: Padrão alternativo: agente tem tool 'buscar_memoria' e decide quando precisa de info antiga.
Por que aprender: Mais explícito que injection automático. Custo: mais roundtrips, mas precisão maior.
Conceitos-chave: Active recall, memory tool, on-demand retrieval.
6 🧠 Personalização: persona + perfil do usuário
O que é: Mantém ficha estruturada do usuário (nome, preferências, contexto profissional) atualizada incremental.
Por que aprender: Diferente de memória conversacional — é estado do usuário. Cabe no system prompt como JSON pequeno.
Conceitos-chave: User profile, structured memory, preference modeling.
Ver Completo →
5.2 beta
~65 min · Avançado · Avançado

⚡ Prompt caching e context distillation (beta)

Como reduzir custo em 80-90% com prompt caching. Quando context distillation (treinar um modelo pequeno) substitui contexto.

1 💰 Prompt caching (Anthropic, OpenAI)
O que é: Provedor cacheia o prefixo da janela. Próxima chamada com mesmo prefixo: tokens cacheados custam ~10% do normal.
Por que aprender: Em chat com system prompt + few-shot grandes, redução real de 80-90% no custo de input.
Conceitos-chave: Prompt cache, cache_control, cache breakpoints, TTL (5min Anthropic), hit rate.
2 🎯 Cache breakpoints: onde marcar
O que é: Você marca pontos do prompt como 'cacheável'. Anthropic: até 4 breakpoints. OpenAI: automático para prefixos >1024 tokens.
Por que aprender: Cache só vale se o prefixo até o breakpoint for ESTÁVEL. Mexer no system prompt invalida tudo daquele ponto pra frente.
Conceitos-chave: Cache anchor, prefix stability, partial invalidation.
3 📊 Medir hit rate: você está economizando?
O que é: Cada chamada retorna métricas: tokens lidos do cache vs. tokens novos. Hit rate = cached / total.
Por que aprender: Sem medir hit rate, você não sabe se cache está funcionando. Pequena mudança no prefix derruba hit para 0.
Conceitos-chave: Hit rate, cache miss, cache invalidation, observability.
4 🧪 Context distillation: substituir contexto por modelo
O que é: Treinar (fine-tune) um modelo pequeno usando inputs e outputs do modelo grande com contexto longo. Modelo pequeno aprende sem precisar do contexto.
Por que aprender: Para tarefa fixada e volume alto, distillation reduz custo dramaticamente — sem precisar do contexto a cada chamada.
Conceitos-chave: Knowledge distillation, fine-tuning, teacher-student, dataset curation.
5 📦 Compressão por sumarização
O que é: Comprimir contexto longo em representação mais densa antes de mandar (via sumarização ou modelo de compressão).
Por que aprender: Para tarefas onde detalhe completo não é crítico, compressão reduz tokens sem cair muito a qualidade.
Conceitos-chave: LLMLingua (Jiang 2023), compression ratio, lossy compression.
6 ⚠️ Quando caching/distillation NÃO valem
O que é: Cache não vale com prefix instável. Distillation não vale com tarefa que muda rápido. Compressão não vale com tarefa que exige fidelidade.
Por que aprender: Cada técnica tem zona de aplicabilidade — assumir que sempre vale é o erro mais comum.
Conceitos-chave: Applicability, regression risk, distillation drift.
Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T5.md.

Bibliografia T5 →

🗺️ Outras trilhas