Trilha 3 - Avancado

3.1 ~50 min

🏗️ Arquitetura e Performance

OLTP vs OLAP, particionamento, data warehouse, ETL, observabilidade e governanca de dados.

O que e:

OLTP processa transacoes em tempo real. OLAP analisa grandes volumes de dados historicos.

Por que aprender:

Misturar cargas OLTP e OLAP no mesmo banco degrada ambas. Separar e engenharia.

Conceitos-chave:

Transacional vs analitico, row-store vs column-store, ETL, ELT

O que e:

Dividir tabelas grandes em particoes menores por criterio (data, range, hash).

Por que aprender:

Tabelas com bilhoes de linhas ficam ingerenciaveis. Particao melhora queries e manutencao.

Conceitos-chave:

Range partition, Hash partition, List partition, partition pruning

O que e:

Politicas que definem quanto tempo manter dados e como arquivar os antigos.

Por que aprender:

Compliance (LGPD, GDPR), custo de storage, performance. Dados eternos sao divida.

Conceitos-chave:

Politica de retencao, cold storage, tiered storage, purge jobs

O que e:

Repositorio centralizado otimizado para consultas analiticas e BI.

Por que aprender:

Dados espalhados em 10 sistemas nao geram insight. DW consolida e permite analise.

Conceitos-chave:

Star schema, Snowflake schema, fact tables, dimension tables, BigQuery, Redshift

O que e:

Processos que Extraem, Transformam e Carregam dados entre sistemas.

Por que aprender:

Dados brutos precisam de limpeza e transformacao antes de serem uteis.

Conceitos-chave:

ETL vs ELT, batch vs streaming, Airflow, dbt, data quality checks

O que e:

Capacidade de entender o estado interno do banco atraves de metricas, logs e traces.

Por que aprender:

Banco sem monitoramento e bomba-relogio. Incidentes sao inevitaveis, cegueira nao.

Conceitos-chave:

Metricas (latencia, throughput, erros), logs, APM, alertas, SLOs, pg_stat_statements

O que e:

Framework de politicas, processos e responsabilidades sobre dados.

Por que aprender:

Sem governanca, dados viram lixo. Qualidade, seguranca e compliance dependem dela.

Conceitos-chave:

Data catalog, data lineage, RBAC, auditoria, classificacao de dados

📄 Ver Completo

3.2 ~70 min

🤖 IA Aplicada a Dados

Janela de contexto, RAG, pgvector, Weaviate, Milvus, Qdrant, Redis Vetorial, Chroma e Azure AI Search.

O que e:

Quantidade maxima de tokens que um LLM processa de uma vez.

Por que aprender:

Estouro da janela perde informacao. Saber dimensionar e requisito para usar IA com dados.

Conceitos-chave:

Tokens, context window, compressao, resumo, priorizacao por relevancia

O que e:

Tecnica que busca dados relevantes e injeta no prompt antes de gerar resposta.

Por que aprender:

LLMs nao sabem seus dados internos. RAG permite chat sobre sua base de conhecimento.

Conceitos-chave:

Chunking, embeddings, indexacao vetorial, reranking, pipeline RAG

O que e:

Extensao que adiciona tipo VECTOR ao PostgreSQL para busca por similaridade.

Por que aprender:

Usa o PostgreSQL que voce ja tem. Sem infra extra para casos ate ~1M vetores.

Conceitos-chave:

CREATE EXTENSION vector, VECTOR(1536), operadores <=>, ivfflat, HNSW

O que e:

Banco vetorial com busca hibrida (semantica + palavras-chave).

Por que aprender:

Busca puramente semantica perde termos exatos. Hibrido combina o melhor dos dois.

Conceitos-chave:

nearVector, BM25, hybrid search, modules, multi-tenancy

O que e:

Banco vetorial open source projetado para bilhoes de vetores.

Por que aprender:

Quando pgvector nao escala mais, Milvus e a opcao open source mais madura.

Conceitos-chave:

Collection, FLOAT_VECTOR, IVF_FLAT, HNSW, GPU acceleration

O que e:

Qdrant armazena vetores com payload filtravel. Redis FTS adiciona vetores ao Redis.

Por que aprender:

Qdrant para filtros complexos + semantica. Redis para quem ja usa Redis e quer vetores.

Conceitos-chave:

Qdrant payload, cosine distance, Redis VECTOR HNSW, FT.SEARCH KNN

O que e:

Chroma e leve para dev local. Azure AI Search e solucao enterprise gerenciada.

Por que aprender:

Chroma para prototipagem rapida. Azure para producao com SLA e integracao Microsoft.

Conceitos-chave:

chromadb.Client(), Azure vectorSearch, HNSW, skillset, reranking

📄 Ver Completo

🏗️ Arquitetura e Performance

🤖 IA Aplicada a Dados

Modulo