MÓDULO 1.3

🆚 LLM Wiki vs RAG vs Banco de Dados

A grande comparação: entenda as diferenças fundamentais de arquitetura, custo de tokens, semântica e casos de uso ideais para cada abordagem.

6
Tópicos
30
Minutos
Base
Nível
Teoria
Tipo
1

🗄️ As Três Abordagens de Conhecimento

Existem três paradigmas para armazenar e recuperar conhecimento com LLMs. Cada um tem trade-offs distintos em custo, semântica e manutenção. Entender as diferenças é fundamental para escolher a ferramenta certa.

🏛️ Arquitetura de Cada Abordagem

🗄️ Banco de Dados Pergunta do usuário ↓ SQL / keyword Tabelas & Schemas sem semântica ↓ resultado bruto LLM interpreta ⚠ Sem contexto ⚠ Sem relações ⚠ Sem semântica Custo tokens: médio 🔍 RAG Pergunta do usuário ↓ vetoriza query Vector DB cosine similarity ↓ k chunks mais próximos LLM + chunks no contexto ✓ Busca semântica ⚠ Alto custo tokens ⚠ Sem links entre ideias Custo tokens: ALTO 📚 LLM Wiki ✓ Pergunta do usuário ↓ lê index.md Wiki compilado pages 2-3 relevantes ↓ lê páginas selecionadas LLM sintetiza resposta ✓ Contexto completo ✓ Links entre ideias ✓ Custo mínimo Custo tokens: ~5%
2

🗄️ Banco de Dados Tradicional

Bancos relacionais (PostgreSQL, MySQL) e não-relacionais (MongoDB) são excelentes para dados transacionais estruturados. O problema: não entendem semântica. Uma query "qual nota se parece com essa ideia?" é impossível sem camadas adicionais.

✓ Onde DB Tradicional Vence

  • Transações ACID e consistência forte
  • Consultas estruturadas complexas (JOINs)
  • Dados numéricos e financeiros
  • Escalabilidade para bilhões de registros

✗ Onde DB Tradicional Falha

  • Busca semântica por significado
  • Relações contextuais entre conceitos
  • Texto não estruturado e ideias
  • Conhecimento que evolui organicamente
3

🔍 RAG — Retrieval Augmented Generation

RAG vetoriza documentos, armazena embeddings em um vector store, e na hora da query recupera os chunks mais similares. É semântico — mas paga um preço alto em tokens a cada consulta.

🔄 Fluxo do RAG em uma Consulta

❓ Query "O que é ML?" embed 📐 Vector [0.2, 0.8, ...] busca 🗃️ k chunks top-5 matches inject 🤖 LLM query + 5 chunks ✓ Resposta com contexto ⚠ 5x+ tokens extras

📊 O Problema de Tokens do RAG

Em uma query RAG típica, você injeta 3-10 chunks no contexto. Cada chunk tem 200-500 tokens. Isso significa 1.000-5.000 tokens extras por query — só para buscar o contexto. Com 100 queries/dia, o custo fica significativo.

Query simples (LLM Wiki): ~500 tokens
Query com RAG: ~3.500 tokens (+7x custo)
100 queries/dia, 30 dias/mês: diferença de $30-150/mês
4

📚 LLM Wiki — Conhecimento Pré-Compilado

A diferença fundamental do LLM Wiki: o conhecimento é compilado antes da consulta, não durante. Na query, o LLM lê apenas o index e 2-3 páginas relevantes — não documentos brutos.

⚡ Fluxo do LLM Wiki — 95% Menos Tokens

INGESTÃO (feita antes): raw/doc.md 🤖 LLM wiki/ml.md ← feito uma vez, reutilizado N vezes CONSULTA (eficiente): ❓ Query "O que é ML?" 📑 index.md ~100 tokens 📄 ml.md ~300 tokens 🤖 LLM síntese ✓ Resposta rica total: ~500 tokens

🏆 Por que o Wiki Vence

O wiki pré-compila o "work" — em vez de processar fontes brutas a cada query, o trabalho é feito uma vez na ingestão e amortizado por todas as consultas futuras. É a diferença entre uma compilação vs. interpretação a cada execução.

~5%
dos tokens do RAG
reutilizações do wiki
$0
infraestrutura extra
5

📊 Comparação Completa

Cada critério de avaliação revela um aspecto diferente das três abordagens. A escolha depende do seu caso de uso — não existe bala de prata.

CRITÉRIO
🗄️ Banco de Dados
🔍 RAG
📚 LLM Wiki ✓
💰 Custo por query
Médio
Alto (7x+)
Mínimo (~5%)
🧩 Semântica
Nenhuma
Por embedding
Completa
🔗 Relações entre ideias
Manual (FKs)
Nenhuma
Automática
📖 Legibilidade humana
SQL/Schemas
Vetores opacos
Markdown puro
⚙️ Infraestrutura
DB server
Vector DB + embed API
Pasta de arquivos
🔄 Atualização incremental
SQL INSERT/UPDATE
Re-indexa chunks
Nativa e incremental
🌱 Melhora com o tempo
Não
Não
Sim — composto
6

🎯 Quando Usar Cada Abordagem

A escolha certa depende do tipo de dado, da frequência de consulta e do orçamento de tokens. Sistemas maduros geralmente combinam as três abordagens.

🗄️

Use Banco de Dados quando...

Dados transacionais (compras, usuários, logs), precisão e consistência crítica, queries estruturadas em grandes volumes, dados financeiros.

🔍

Use RAG quando...

Corpus imprevisível e grande (10.000+ documentos), queries raras e diversas, documentos que mudam frequentemente, busca ad-hoc em literatura acadêmica.

📚

Use LLM Wiki quando...

Conhecimento pessoal/institucional estável, consultas frequentes (mesmo tópico consultado múltiplas vezes), necessidade de conexões entre domínios, orçamento de API limitado, legibilidade humana importante.

💡 O Sistema Ideal: Combinação dos Três

Empresas maduras usam os três: DB para dados operacionais, RAG para pesquisa em documentos de clientes, e Wiki para o conhecimento institucional compilado pela equipe. Cada um no seu domínio certo.

O que Aprendemos

Banco de Dados — excelente para dados estruturados, mas sem semântica ou relações contextuais.
RAG — busca semântica poderosa, mas paga 7x+ mais tokens por query e não cria relações entre ideias.
LLM Wiki — pré-compila o conhecimento, usa ~5% dos tokens do RAG, cria relações automáticas e melhora com o tempo.
Não existe bala de prata — sistemas maduros combinam as três abordagens cada uma no seu domínio ideal.

Próximo Módulo:

1.4 — A Arquitetura de 3 Camadas: raw/, wiki/, CLAUDE.md, index.md e log.md em detalhes.