T5 — Memória e Compressão

🎯 Objetivo desta trilha

Dar 'memória' ao agente sem inflar custo nem janela.

🔍 O que você vai explorar

▸Buffer de turns (curto prazo) — solução simples para chats curtos.
▸Sumarização incremental e hierárquica (MemGPT).
▸Memória vetorial para longo prazo + recall por similaridade.
▸Perfil estruturado do usuário no system prompt.
▸Prompt caching: 10% do preço para tokens cacheados.
▸Context distillation e compressão (LLMLingua).

👤 Para quem

Quem opera chats com histórico longo ou quer cortar custo de input.

📚 Módulos da trilha

5.1 GA

~60 min · Intermediário · Prático

💾 Estratégias de memória: curto, longo prazo e summarização hierárquica

Como dar 'memória' a um agente: buffer de turn, summarização hierárquica, vetor de longo prazo, recall sob demanda.

1 📥 Buffer de turns: memória de curto prazo— Últimos N turns ▾

O que é: Manter os últimos N turns inteiros na janela. Simples, eficaz para conversas curtas.

Por que aprender: Em chats curtos (5-10 turns), buffer puro basta. Modelos atendem bem com janela <10k.

Conceitos-chave: Sliding window, message buffer, FIFO eviction.

2 📝 Summarização incremental— Comprimir o que sai do buffer ▾

O que é: Quando buffer estoura, sumariza turns antigos em parágrafo. Sumário fica no system prompt.

Por que aprender: Mantém continuidade sem inflar janela. Trade-off: perde detalhe do que foi sumarizado.

Conceitos-chave: Recursive summarization, sliding-window summarization, hierarchical.

3 🌳 Sumarização hierárquica: árvore de memória— Múltiplos níveis ▾

O que é: Sumariza turns em sumário-de-1; sumários-de-1 em sumário-de-2; etc. Estrutura tipo árvore.

Por que aprender: Para chats longos (centenas de turns), hierarquia preserva detalhe nos níveis superiores.

Conceitos-chave: Tree summarization, multi-level memory, MemGPT.

4 🗃️ Memória vetorial: longo prazo— Embedding de turns + recall ▾

O que é: Cada turn vira embedding indexado. No próximo turn, busca turns relevantes ao tópico atual e injeta.

Por que aprender: Permite chats que 'lembram' de conversas de meses atrás sem manter tudo na janela.

Conceitos-chave: Long-term memory, episodic memory, recall on demand, retrieval-augmented memory.

5 🔍 Recall sob demanda: tool de memória— Agente busca a memória ▾

O que é: Padrão alternativo: agente tem tool 'buscar_memoria' e decide quando precisa de info antiga.

Por que aprender: Mais explícito que injection automático. Custo: mais roundtrips, mas precisão maior.

Conceitos-chave: Active recall, memory tool, on-demand retrieval.

6 🧠 Personalização: persona + perfil do usuário— Memória como facto ▾

O que é: Mantém ficha estruturada do usuário (nome, preferências, contexto profissional) atualizada incremental.

Por que aprender: Diferente de memória conversacional — é estado do usuário. Cabe no system prompt como JSON pequeno.

Conceitos-chave: User profile, structured memory, preference modeling.

Ver Completo →

5.2 beta

~65 min · Avançado · Avançado

⚡ Prompt caching e context distillation (beta)

Como reduzir custo em 80-90% com prompt caching. Quando context distillation (treinar um modelo pequeno) substitui contexto.

1 💰 Prompt caching (Anthropic, OpenAI)— 10% do preço para hits ▾

O que é: Provedor cacheia o prefixo da janela. Próxima chamada com mesmo prefixo: tokens cacheados custam ~10% do normal.

Por que aprender: Em chat com system prompt + few-shot grandes, redução real de 80-90% no custo de input.

Conceitos-chave: Prompt cache, cache_control, cache breakpoints, TTL (5min Anthropic), hit rate.

2 🎯 Cache breakpoints: onde marcar— Estável vs variável ▾

O que é: Você marca pontos do prompt como 'cacheável'. Anthropic: até 4 breakpoints. OpenAI: automático para prefixos >1024 tokens.

Por que aprender: Cache só vale se o prefixo até o breakpoint for ESTÁVEL. Mexer no system prompt invalida tudo daquele ponto pra frente.

Conceitos-chave: Cache anchor, prefix stability, partial invalidation.

3 📊 Medir hit rate: você está economizando?— Métrica explícita ▾

O que é: Cada chamada retorna métricas: tokens lidos do cache vs. tokens novos. Hit rate = cached / total.

Por que aprender: Sem medir hit rate, você não sabe se cache está funcionando. Pequena mudança no prefix derruba hit para 0.

Conceitos-chave: Hit rate, cache miss, cache invalidation, observability.

4 🧪 Context distillation: substituir contexto por modelo— Treinar pequeno ▾

O que é: Treinar (fine-tune) um modelo pequeno usando inputs e outputs do modelo grande com contexto longo. Modelo pequeno aprende sem precisar do contexto.

Por que aprender: Para tarefa fixada e volume alto, distillation reduz custo dramaticamente — sem precisar do contexto a cada chamada.

Conceitos-chave: Knowledge distillation, fine-tuning, teacher-student, dataset curation.

5 📦 Compressão por sumarização— LLMLingua, sumário do contexto ▾

O que é: Comprimir contexto longo em representação mais densa antes de mandar (via sumarização ou modelo de compressão).

Por que aprender: Para tarefas onde detalhe completo não é crítico, compressão reduz tokens sem cair muito a qualidade.

Conceitos-chave: LLMLingua (Jiang 2023), compression ratio, lossy compression.

6 ⚠️ Quando caching/distillation NÃO valem— Casos onde não compensa ▾

O que é: Cache não vale com prefix instável. Distillation não vale com tarefa que muda rápido. Compressão não vale com tarefa que exige fidelidade.

Por que aprender: Cada técnica tem zona de aplicabilidade — assumir que sempre vale é o erro mais comum.

Conceitos-chave: Applicability, regression risk, distillation drift.

Ver Completo →

🔬 Bibliografia da trilha

Referências datadas, congeladas na release. Lista completa em bibliografia/T5.md.

Bibliografia T5 →

🗺️ Outras trilhas

🧠 Fundamentos de Contexto

✉️ Engenharia da Mensagem

📚 RAG e Recuperação

🛠️ Tools, Agentes e Multi-Agente

📊 Avaliação e Produção