MÓDULO 3.2

⚡ Otimização e Escalabilidade

Quando o vault cresce para centenas de notas: estratégias de indexação hierárquica, compressão de contexto e gerenciamento de tokens em escala.

6
Tópicos
55
Minutos
Avançado
Nível
Prática
Tipo
1

📏 O Problema de Escala

Com 50 notas, qualquer abordagem funciona. Com 500 notas, o LLM não pode ler tudo a cada consulta. Com 5.000, precisamos de indexação hierárquica e estratégia de contexto.

📈 Tokens vs. Notas no Vault

0 25k 50k 75k 100k tokens 50 notas 200 notas 500 notas 1000 notas Ler tudo index.md Hierárquico limite de contexto (~128k tokens) ⚠ zona de risco para "Ler tudo" Ler todas as notas Via index.md Indexação hierárquica
2

🗂️ Indexação Hierárquica

A solução para vaults grandes é um índice de dois níveis: o index.md principal aponta para índices de subdomínio, que por sua vez apontam para notas individuais.

🗂️ Índice Hierárquico de 2 Níveis

index.md Mapa principal (~2k tokens) index-fundamentos.md 45 notas listadas index-projetos.md 32 projetos listados index-pessoas.md 28 pessoas listadas index-refs.md 67 referências pytorch.md transformers.md alpha.md beta.md joao.md maria.md Custo de consulta: index.md (2k) + index-projetos.md (3k) + alpha.md (1.5k) = 6.5k tokens vs. ler tudo: 172 notas × 500 tokens = 86k tokens — 13× mais barato
3

🗜️ Compressão de Contexto

Para notas muito longas, o LLM pode criar uma versão comprimida — um resumo de 3-5 linhas que captura os fatos-chave. O index.md aponta para esses resumos, não para as notas completas.

Nota Completa (500 tokens)
# Projeto Alpha — Fase 2

## Contexto
O projeto Alpha iniciou em Janeiro como...
[histórico longo de 3 parágrafos]

## Decisões Técnicas
Em Fevereiro, o time decidiu migrar de...
[detalhes de 5 decisões]

## Status Atual
O sprint 8 está em andamento...
[atualizações semanais dos últimos 3 meses]

## Riscos
[lista de 12 riscos identificados]

## Ação Items
[50 items de backlog]
Resumo no Index (50 tokens)
## projeto-alpha
Status: Sprint 8, 75% completo
Tech: FastAPI + PostgreSQL
Líder: [[joao-carlos]]
Risco principal: bug em prod (P1)
Demo: 2024-03-22 para cliente
→ [[projeto-alpha]] (nota completa)

10× menos tokens para decisão de leitura

LLM decide se precisa da nota completa baseado no resumo

💡 Padrão "Abstract + Full"

Cada nota tem um resumo de 3-5 linhas no topo. O index.md replica esses resumos. O LLM lê resumos para decidir quais notas completas precisa — como um abstract científico.

4

🔀 Sharding: Múltiplos Vaults

Quando um vault supera ~1.000 notas, considere sharding por domínio: múltiplos vaults especializados com um vault-raiz que os referencia.

🔀 Arquitetura Multi-Vault

🧠 vault-raiz index global ponteiros para sub-vaults 🔬 vault-tecnico Python, ML, infra 800 notas ~/tech-brain/ 📊 vault-negocios Projetos, clientes 600 notas ~/biz-brain/ 📚 vault-pessoal Livros, estudos 400 notas ~/personal-brain/ 👥 vault-pessoas Contatos, reuniões 300 notas ~/people-brain/
Vantagens
  • → Consultas mais rápidas (contexto menor)
  • → Colaboração possível por domínio
  • → Agents especializados por vault
Desvantagens
  • → Links cross-vault são mais complexos
  • → Manutenção de múltiplos CLAUDE.md
  • → Overhead de orquestração
5

🚀 Caching de Consultas Frequentes

Algumas consultas são feitas todo dia: status de projetos, dashboard de métricas, lista de tarefas. Pre-computar essas consultas reduz custo e latência.

Nota de Dashboard Pré-computado

# dashboard.md — atualizado diariamente pelo agente

## Status (atualizado: 2024-03-20)

### Projetos Ativos
| Projeto | Status | Prazo | Líder |
|---------|--------|-------|-------|
| Alpha | Sprint 8 — 75% | Mar 22 | João |
| Beta | Em pausa | Abr 01 | Maria |

### Bloqueadores
- [P1] Bug PostgreSQL em Alpha (João, hoje)
- [P2] Aprovação cliente para Beta (vendas, Thu)

### Esta Semana
- Demo Alpha — Sexta 14h
- Standup Beta — Qui 10h

Gerado por: agente-dashboard — raw/agenda/*.md
6

📊 Benchmarks e Metas de Performance

Defina metas de performance para seu vault. Um sistema lento ou caro vai ser abandonado — o objetivo é resposta em menos de 30 segundos e menos de 5k tokens por consulta.

Tamanho do Vault Estratégia Tokens/Consulta Latência
< 100 notas index.md simples 2-5k < 10s
100-500 notas Índice hierárquico + resumos 5-10k < 20s
500-2.000 notas Multi-índice + dashboard cache 8-15k < 30s
> 2.000 notas Sharding + agentes especializados 5-10k por shard < 30s
✅ Conceitos-chave do módulo
Escala requer estratégia — não "ler tudo"
Índice hierárquico: global → domínio → nota
Compressão: resumo 50 tokens + nota completa
Sharding: múltiplos vaults por domínio
Dashboard pré-computado para consultas frequentes
Meta: <5k tokens e <30s por consulta
3.1 — Grafos Complexos 3.3 — Integrações Avançadas