Módulo 3.2 — Otimização e Escalabilidade

1

📏 O Problema de Escala

Com 50 notas, qualquer abordagem funciona. Com 500 notas, o LLM não pode ler tudo a cada consulta. Com 5.000, precisamos de indexação hierárquica e estratégia de contexto.

📈 Tokens vs. Notas no Vault

2

🗂️ Indexação Hierárquica

A solução para vaults grandes é um índice de dois níveis: o index.md principal aponta para índices de subdomínio, que por sua vez apontam para notas individuais.

🗂️ Índice Hierárquico de 2 Níveis

3

🗜️ Compressão de Contexto

Para notas muito longas, o LLM pode criar uma versão comprimida — um resumo de 3-5 linhas que captura os fatos-chave. O index.md aponta para esses resumos, não para as notas completas.

Nota Completa (500 tokens)

# Projeto Alpha — Fase 2

## Contexto
O projeto Alpha iniciou em Janeiro como...
[histórico longo de 3 parágrafos]

## Decisões Técnicas
Em Fevereiro, o time decidiu migrar de...
[detalhes de 5 decisões]

## Status Atual
O sprint 8 está em andamento...
[atualizações semanais dos últimos 3 meses]

## Riscos
[lista de 12 riscos identificados]

## Ação Items
[50 items de backlog]

Resumo no Index (50 tokens)

## projeto-alpha
Status: Sprint 8, 75% completo
Tech: FastAPI + PostgreSQL
Líder: [[joao-carlos]]
Risco principal: bug em prod (P1)
Demo: 2024-03-22 para cliente
→ [[projeto-alpha]] (nota completa)

10× menos tokens para decisão de leitura

LLM decide se precisa da nota completa baseado no resumo

💡 Padrão "Abstract + Full"

Cada nota tem um resumo de 3-5 linhas no topo. O index.md replica esses resumos. O LLM lê resumos para decidir quais notas completas precisa — como um abstract científico.

4

🔀 Sharding: Múltiplos Vaults

Quando um vault supera ~1.000 notas, considere sharding por domínio: múltiplos vaults especializados com um vault-raiz que os referencia.

🔀 Arquitetura Multi-Vault

Vantagens

→ Consultas mais rápidas (contexto menor)
→ Colaboração possível por domínio
→ Agents especializados por vault

Desvantagens

→ Links cross-vault são mais complexos
→ Manutenção de múltiplos CLAUDE.md
→ Overhead de orquestração

5

🚀 Caching de Consultas Frequentes

Algumas consultas são feitas todo dia: status de projetos, dashboard de métricas, lista de tarefas. Pre-computar essas consultas reduz custo e latência.

Nota de Dashboard Pré-computado

# dashboard.md — atualizado diariamente pelo agente

## Status (atualizado: 2024-03-20)

### Projetos Ativos
| Projeto | Status | Prazo | Líder |
|---------|--------|-------|-------|
| Alpha | Sprint 8 — 75% | Mar 22 | João |
| Beta | Em pausa | Abr 01 | Maria |

### Bloqueadores
- [P1] Bug PostgreSQL em Alpha (João, hoje)
- [P2] Aprovação cliente para Beta (vendas, Thu)

### Esta Semana
- Demo Alpha — Sexta 14h
- Standup Beta — Qui 10h

Gerado por: agente-dashboard — raw/agenda/*.md

6

📊 Benchmarks e Metas de Performance

Defina metas de performance para seu vault. Um sistema lento ou caro vai ser abandonado — o objetivo é resposta em menos de 30 segundos e menos de 5k tokens por consulta.

Tamanho do Vault	Estratégia	Tokens/Consulta	Latência
< 100 notas	index.md simples	2-5k	< 10s
100-500 notas	Índice hierárquico + resumos	5-10k	< 20s
500-2.000 notas	Multi-índice + dashboard cache	8-15k	< 30s
> 2.000 notas	Sharding + agentes especializados	5-10k por shard	< 30s

✅ Conceitos-chave do módulo

✓Escala requer estratégia — não "ler tudo"

✓Índice hierárquico: global → domínio → nota

✓Compressão: resumo 50 tokens + nota completa

✓Sharding: múltiplos vaults por domínio

✓Dashboard pré-computado para consultas frequentes

✓Meta: <5k tokens e <30s por consulta