3.1
GA
~60 min · Intermediário · Prático
📚 Indexação: chunking, embeddings e BM25 híbrido
Como transformar um corpus em um índice consultável: estratégias de chunking, embeddings densos, BM25 sparse, e por que híbrido bate ambos.
1 ✂️ Chunking: dividir o corpus ▾
O que é: Quebrar documentos em pedaços (chunks) de 200-1000 tokens com overlap de 10-20%. Pode ser por caracteres, sentenças ou parágrafos.
Por que aprender: Chunks muito grandes diluem relevância; muito pequenos perdem contexto. Overlap evita corte abrupto entre fronteiras.
Conceitos-chave: Sliding window, semantic chunking, fronteira de seção, recursive splitter.
2 🧮 Embeddings densos: vetores semânticos ▾
O que é: Converte texto em vetor (768-3072 dim) onde proximidade vetorial ≈ similaridade semântica. Modelos: bge, mpnet, OpenAI ada/text-3.
Por que aprender: Captura sinônimos e paráfrase que BM25 perde ('automóvel' vs 'carro'). Base do retrieval moderno.
Conceitos-chave: Cosine similarity, dual encoder, MTEB benchmark, dimensionalidade.
3 🔤 BM25: o sparse clássico que ainda manda ▾
O que é: Algoritmo probabilístico de relevância baseado em frequência de termo (TF) e raridade (IDF). Não usa ML.
Por que aprender: Robusto, rápido, captura match exato (números, IDs, nomes próprios) que embeddings densas erram.
Conceitos-chave: TF-IDF, BM25, sparse vector, lexical match, rare term boost.
4 🤝 Híbrido: BM25 + denso, fusão por RRF ▾
O que é: Roda ambos em paralelo, funde rankings via Reciprocal Rank Fusion (RRF) ou peso linear (alpha).
Por que aprender: Ganhos consistentes em benchmarks (BEIR). Cada método cobre falhas do outro: BM25 pega match exato, denso pega paráfrase.
Conceitos-chave: RRF, alpha-fusion, hybrid search, ColBERT (alternativa late-interaction).
5 🗂️ Vector stores: o que escolher ▾
O que é: Bancos de dados otimizados para nearest-neighbor search em vetores. Local (FAISS, pgvector) ou hosted (Qdrant Cloud, Pinecone).
Por que aprender: Sem isso, busca em 100k embeddings vira O(n) inviável. Vector stores fazem ANN (HNSW, IVF) em ms.
Conceitos-chave: ANN (approximate nearest neighbor), HNSW, IVF, recall@k, índice em memória vs. disco.
6 🏷️ Metadata e filtros: além do match semântico ▾
O que é: Anexar metadados a cada chunk (data, autor, categoria, idioma) e filtrar por eles antes ou depois da busca vetorial.
Por que aprender: Pergunta 'eventos de 2024' não deve trazer chunks de 2019, mesmo que semanticamente similares. Filtros resolvem.
Conceitos-chave: Metadata filtering, pre-filter, post-filter, namespace.