Módulo 2B.1: Anatomia de LLMs - Como Funcionam Por Dentro

📖 Visão Geral

Entenda a arquitetura interna de Large Language Models. Domine conceitos de transformers, attention mechanisms, tokenização e embeddings. Saiba como modelos "pensam" para usar com mais eficácia.

Ao final deste módulo, você será capaz de:

Compreender arquitetura Transformer (não precisa codificar)
Explicar como funciona self-attention e embeddings
Entender limitações técnicas (contexto, alucinações, vieses)
Comparar diferentes LLMs (GPT, Claude, Gemini, LLaMA)
Tomar decisões informadas sobre qual modelo usar quando

📚 Conteúdo Detalhado

🧠 De Redes Neurais a Transformers

### Evolução Histórica: 1. Perceptron (1958) → Redes Neurais Simples ``Input → [Camada de neurônios] → Output Limitação: Só funções lineares`2. Deep Learning (2010s) → CNNs, RNNs`CNNs: Boas para imagens (convolução espacial) RNNs: Boas para sequências (memória temporal) Limitação: RNNs não escalam (vanishing gradient)`3. Attention Mechanism (2017) → Transformers`"Attention is All You Need" (Vaswani et al) Ideia: Focar em partes relevantes do input Resultado: Escala para bilhões de parâmetros`` ### Por que Transformers Dominam: ✅ Paralelização: Processa texto todo de uma vez (vs RNN sequencial) ✅ Long-range dependencies: Conecta palavras distantes no texto ✅ Escalabilidade: Mais dados + mais parâmetros = melhor performance ✅ Transfer learning: Pré-treino geral + fine-tune específico ---

🔍 Arquitetura Transformer (Simplificada)

### Componentes Principais: ``INPUT: "O gato está no telhado" ↓ [1. TOKENIZAÇÃO] → ["O", "gato", "está", "no", "tel", "hado"] ↓ [2. EMBEDDING] → Cada token vira vetor de 768-12288 dimensões ↓ [3. POSITIONAL ENCODING] → Adiciona informação de ordem (palavra 1, 2, 3...) ↓ [4. SELF-ATTENTION] (🔑 Magia acontece aqui) → Cada palavra "olha" para todas as outras → Identifica relações: "gato" se relaciona com "telhado" ↓ [5. FEED-FORWARD] → Transformações não-lineares ↓ [6. REPETIR 4-5] (12-96 vezes, dependendo do modelo) ↓ [7. OUTPUT] → Probabilidades para próxima palavra → Ex: "O gato está no telhado [comendo: 0.3, dormindo: 0.5, ...]"`` ---

💡 Self-Attention: O Coração do Transformer

### Como Funciona (Analogia): Imagine uma sala de aula onde cada aluno (palavra) pode fazer perguntas para todos os outros: Frase: "O professor explica IA para alunos interessados" Self-Attention calcula:

"professor" deveria prestar atenção em: "explica" (0.8), "alunos" (0.6), "IA" (0.7)
"alunos" deveria prestar atenção em: "interessados" (0.9), "professor" (0.5)
"interessados" deveria prestar atenção em: "alunos" (0.95), "IA" (0.4)

Resultado: Modelo entende que "interessados" modifica "alunos", não "professor" ### Matematicamente (Conceitual): ``


Para cada palavra:
1. Query (Q): "O que eu estou procurando?"
2. Key (K): "O que eu tenho a oferecer?"
3. Value (V): "Qual informação eu carrego?"
Attention Score = Similarity(Q, K)
Output = Weighted sum of Values
Exemplo:
Palavra "gato" (Query) procura sujeitos de ação
Palavra "pulou" (Key) oferece "sou um verbo"
Score alto → "gato" presta atenção em "pulou"

`` ### Multi-Head Attention: Ao invés de 1 mecanismo de atenção, usa 8-96 em paralelo:

Head 1: Foca em sintaxe (sujeito-verbo-objeto)
Head 2: Foca em semântica (significado)
Head 3: Foca em contexto longo
Head 4-8: Outros padrões aprendidos

Analogia: 8 especialistas analisando o mesmo texto de ângulos diferentes ---

📦 Tokenização: Quebrando Texto em Pedaços

### O que são Tokens? Não são palavras! São subunidades: Exemplo (GPT-4): ``Input: "Superprofessores" Tokens: ["Super", "prof", "ess", "ores"] 4 tokens (não 1 palavra) Input: "ChatGPT é incrível!" Tokens: ["Chat", "G", "PT", " é", " in", "cr", "ível", "!"] 8 tokens`` ### Por que Tokenizar? ✅ Eficiência: Vocabulário fixo (50k-100k tokens vs milhões de palavras) ✅ Generalização: Palavras novas podem ser compostas de tokens conhecidos ✅ Multilíngue: Mesmos tokens funcionam em múltiplas línguas ### Algoritmos Comuns: 1. Byte-Pair Encoding (BPE) - Usado por GPT

Começa com caracteres
Mescla pares frequentes
Ex: "a" + "b" → "ab" se aparecem juntos frequentemente

2. WordPiece - Usado por BERT

Similar a BPE, mas otimiza likelihood

3. SentencePiece - Usado por T5, LLaMA

Trata texto como sequência de bytes (Unicode-aware)

### Implicações para Educadores: ⚠️ Limite de tokens ≠ Limite de palavras

GPT-4: 128k tokens ≈ 96k palavras (português)
Claude: 200k tokens ≈ 150k palavras

⚠️ Palavras longas custam mais

"a" = 1 token
"Institucionalização" = 5+ tokens

Ferramenta para Contar: https://platform.openai.com/tokenizer ---

🎨 Embeddings: Representando Significado em Vetores

### Conceito: Palavra → Vetor numérico de alta dimensão Exemplo (simplificado para 3D): ``"rei" → [0.8, 0.3, 0.1] "rainha" → [0.8, 0.3, 0.9] "homem" → [0.5, 0.2, 0.1] "mulher" → [0.5, 0.2, 0.9] Matemática vetorial: rei - homem + mulher ≈ rainha [0.8,0.3,0.1] - [0.5,0.2,0.1] + [0.5,0.2,0.9] = [0.8,0.3,0.9]`` ### Propriedades Mágicas: 1. Similaridade Semântica Palavras similares têm vetores próximos:

"cachorro" e "cão" → Distância pequena
"cachorro" e "árvore" → Distância grande

2. Analogias

Paris : França :: Berlim : ? → Alemanha
Funcionam via aritmética vetorial!

3. Transferência de Contexto

"banco" (sentar) vs "banco" (financeiro)
Mesmo embedding muda significado por contexto

### Embeddings em LLMs: GPT-4: 12,288 dimensões (cada token = vetor de 12k números) Claude 3: Não revelado (estimado 8k-16k) Gemini: Não revelado Visualização: t-SNE ou PCA reduzem para 2D/3D para plotar ---

📌 🏗️ Escala: De GPT-2 a GPT-4

### Evolução de Parâmetros: | Modelo | Parâmetros | Contexto | Ano | |--------|-----------|----------|-----| | GPT-2 | 1.5B | 1k tokens | 2019 | | GPT-3 | 175B | 4k tokens | 2020 | | GPT-3.5 | 175B | 16k tokens | 2022 | | GPT-4 | ~1.7T* | 128k tokens | 2023 | | Claude 3 Opus | ?** | 200k tokens | 2024 | | Gemini 1.5 | ?** | 1M tokens | 2024 | *Estimado, OpenAI não confirma **Não revelado ### Lei de Escala (Scaling Laws): Descoberta (Kaplan et al, 2020): Performance ∝ (Parâmetros)^α × (Dados)^β × (Computação)^γ Implicação: Modelos maiores com mais dados são previsivelmente melhores Mas... há limites:

💰 Custo: GPT-4 custou ~$100M para treinar
⚡ Energia: Equivalente a 1000 lares/ano
🌍 Dados: Internet tem limite
📐 Retorno diminui (modelo 10x maior ≠ 10x melhor)

---

📚 Conteúdo Completo

Faça download do material completo em Markdown para acessar todos os tópicos, exemplos, prompts e atividades detalhadas.

📄 Baixar Material Completo (MD)

📦 Recursos do Módulo

📹 Videoaulas

Aulas detalhadas sobre cada tópico do módulo

💬 Práticas

Atividades hands-on com projetos reais

✅ Avaliação

Quizzes e projetos para certificação

📚 Referências

Materiais complementares selecionados

← Voltar ao Nível 2B