🏗️ Arquitetura e Performance
OLTP vs OLAP, particionamento, data warehouse, ETL, observabilidade e governanca de dados.
OLTP processa transacoes em tempo real. OLAP analisa grandes volumes de dados historicos.
Misturar cargas OLTP e OLAP no mesmo banco degrada ambas. Separar e engenharia.
Transacional vs analitico, row-store vs column-store, ETL, ELT
Dividir tabelas grandes em particoes menores por criterio (data, range, hash).
Tabelas com bilhoes de linhas ficam ingerenciaveis. Particao melhora queries e manutencao.
Range partition, Hash partition, List partition, partition pruning
Politicas que definem quanto tempo manter dados e como arquivar os antigos.
Compliance (LGPD, GDPR), custo de storage, performance. Dados eternos sao divida.
Politica de retencao, cold storage, tiered storage, purge jobs
Repositorio centralizado otimizado para consultas analiticas e BI.
Dados espalhados em 10 sistemas nao geram insight. DW consolida e permite analise.
Star schema, Snowflake schema, fact tables, dimension tables, BigQuery, Redshift
Processos que Extraem, Transformam e Carregam dados entre sistemas.
Dados brutos precisam de limpeza e transformacao antes de serem uteis.
ETL vs ELT, batch vs streaming, Airflow, dbt, data quality checks
Capacidade de entender o estado interno do banco atraves de metricas, logs e traces.
Banco sem monitoramento e bomba-relogio. Incidentes sao inevitaveis, cegueira nao.
Metricas (latencia, throughput, erros), logs, APM, alertas, SLOs, pg_stat_statements
Framework de politicas, processos e responsabilidades sobre dados.
Sem governanca, dados viram lixo. Qualidade, seguranca e compliance dependem dela.
Data catalog, data lineage, RBAC, auditoria, classificacao de dados
🤖 IA Aplicada a Dados
Janela de contexto, RAG, pgvector, Weaviate, Milvus, Qdrant, Redis Vetorial, Chroma e Azure AI Search.
Quantidade maxima de tokens que um LLM processa de uma vez.
Estouro da janela perde informacao. Saber dimensionar e requisito para usar IA com dados.
Tokens, context window, compressao, resumo, priorizacao por relevancia
Tecnica que busca dados relevantes e injeta no prompt antes de gerar resposta.
LLMs nao sabem seus dados internos. RAG permite chat sobre sua base de conhecimento.
Chunking, embeddings, indexacao vetorial, reranking, pipeline RAG
Extensao que adiciona tipo VECTOR ao PostgreSQL para busca por similaridade.
Usa o PostgreSQL que voce ja tem. Sem infra extra para casos ate ~1M vetores.
CREATE EXTENSION vector, VECTOR(1536), operadores <=>, ivfflat, HNSW
Banco vetorial com busca hibrida (semantica + palavras-chave).
Busca puramente semantica perde termos exatos. Hibrido combina o melhor dos dois.
nearVector, BM25, hybrid search, modules, multi-tenancy
Banco vetorial open source projetado para bilhoes de vetores.
Quando pgvector nao escala mais, Milvus e a opcao open source mais madura.
Collection, FLOAT_VECTOR, IVF_FLAT, HNSW, GPU acceleration
Qdrant armazena vetores com payload filtravel. Redis FTS adiciona vetores ao Redis.
Qdrant para filtros complexos + semantica. Redis para quem ja usa Redis e quer vetores.
Qdrant payload, cosine distance, Redis VECTOR HNSW, FT.SEARCH KNN
Chroma e leve para dev local. Azure AI Search e solucao enterprise gerenciada.
Chroma para prototipagem rapida. Azure para producao com SLA e integracao Microsoft.
chromadb.Client(), Azure vectorSearch, HNSW, skillset, reranking