Módulo 1.3 — LLM Wiki vs RAG vs Banco de Dados

🗄️ As Três Abordagens de Conhecimento

Existem três paradigmas para armazenar e recuperar conhecimento com LLMs. Cada um tem trade-offs distintos em custo, semântica e manutenção. Entender as diferenças é fundamental para escolher a ferramenta certa.

🏛️ Arquitetura de Cada Abordagem

🗄️ Banco de Dados Tradicional

Bancos relacionais (PostgreSQL, MySQL) e não-relacionais (MongoDB) são excelentes para dados transacionais estruturados. O problema: não entendem semântica. Uma query "qual nota se parece com essa ideia?" é impossível sem camadas adicionais.

✓ Onde DB Tradicional Vence

✓Transações ACID e consistência forte
✓Consultas estruturadas complexas (JOINs)
✓Dados numéricos e financeiros
✓Escalabilidade para bilhões de registros

✗ Onde DB Tradicional Falha

✗Busca semântica por significado
✗Relações contextuais entre conceitos
✗Texto não estruturado e ideias
✗Conhecimento que evolui organicamente

🔍 RAG — Retrieval Augmented Generation

RAG vetoriza documentos, armazena embeddings em um vector store, e na hora da query recupera os chunks mais similares. É semântico — mas paga um preço alto em tokens a cada consulta.

🔄 Fluxo do RAG em uma Consulta

📊 O Problema de Tokens do RAG

Em uma query RAG típica, você injeta 3-10 chunks no contexto. Cada chunk tem 200-500 tokens. Isso significa 1.000-5.000 tokens extras por query — só para buscar o contexto. Com 100 queries/dia, o custo fica significativo.

Query simples (LLM Wiki): ~500 tokens

Query com RAG: ~3.500 tokens (+7x custo)

100 queries/dia, 30 dias/mês: diferença de $30-150/mês

📚 LLM Wiki — Conhecimento Pré-Compilado

A diferença fundamental do LLM Wiki: o conhecimento é compilado antes da consulta, não durante. Na query, o LLM lê apenas o index e 2-3 páginas relevantes — não documentos brutos.

⚡ Fluxo do LLM Wiki — 95% Menos Tokens

🏆 Por que o Wiki Vence

O wiki pré-compila o "work" — em vez de processar fontes brutas a cada query, o trabalho é feito uma vez na ingestão e amortizado por todas as consultas futuras. É a diferença entre uma compilação vs. interpretação a cada execução.

~5%

dos tokens do RAG

∞

reutilizações do wiki

infraestrutura extra

📊 Comparação Completa

Cada critério de avaliação revela um aspecto diferente das três abordagens. A escolha depende do seu caso de uso — não existe bala de prata.

CRITÉRIO

🗄️ Banco de Dados

🔍 RAG

📚 LLM Wiki ✓

💰 Custo por query

Médio

Alto (7x+)

Mínimo (~5%)

🧩 Semântica

Nenhuma

Por embedding

Completa

🔗 Relações entre ideias

Manual (FKs)

Nenhuma

Automática

📖 Legibilidade humana

SQL/Schemas

Vetores opacos

Markdown puro

⚙️ Infraestrutura

DB server

Vector DB + embed API

Pasta de arquivos

🔄 Atualização incremental

SQL INSERT/UPDATE

Re-indexa chunks

Nativa e incremental

🌱 Melhora com o tempo

Não

Sim — composto

🎯 Quando Usar Cada Abordagem

A escolha certa depende do tipo de dado, da frequência de consulta e do orçamento de tokens. Sistemas maduros geralmente combinam as três abordagens.

🗄️

Use Banco de Dados quando...

Dados transacionais (compras, usuários, logs), precisão e consistência crítica, queries estruturadas em grandes volumes, dados financeiros.

🔍

Use RAG quando...

Corpus imprevisível e grande (10.000+ documentos), queries raras e diversas, documentos que mudam frequentemente, busca ad-hoc em literatura acadêmica.

📚

Use LLM Wiki quando...

Conhecimento pessoal/institucional estável, consultas frequentes (mesmo tópico consultado múltiplas vezes), necessidade de conexões entre domínios, orçamento de API limitado, legibilidade humana importante.

💡 O Sistema Ideal: Combinação dos Três

Empresas maduras usam os três: DB para dados operacionais, RAG para pesquisa em documentos de clientes, e Wiki para o conhecimento institucional compilado pela equipe. Cada um no seu domínio certo.

✅ O que Aprendemos

✓

Banco de Dados — excelente para dados estruturados, mas sem semântica ou relações contextuais.

✓

RAG — busca semântica poderosa, mas paga 7x+ mais tokens por query e não cria relações entre ideias.

✓

LLM Wiki — pré-compila o conhecimento, usa ~5% dos tokens do RAG, cria relações automáticas e melhora com o tempo.

✓

Não existe bala de prata — sistemas maduros combinam as três abordagens cada uma no seu domínio ideal.

Próximo Módulo:

1.4 — A Arquitetura de 3 Camadas: raw/, wiki/, CLAUDE.md, index.md e log.md em detalhes.

← Módulo 1.2 Módulo 1.4: Arquitetura →