Técnico

Módulo 2B.1: Anatomia de LLMs - Como Funcionam Por Dentro

Entenda a arquitetura interna de Large Language Models. Domine conceitos de transformers, attention mechanisms, tokenização e embeddings. Saiba como modelos "pensam" para usar com mais eficácia.

📖 Visão Geral

Entenda a arquitetura interna de Large Language Models. Domine conceitos de transformers, attention mechanisms, tokenização e embeddings. Saiba como modelos "pensam" para usar com mais eficácia.

Ao final deste módulo, você será capaz de:

  • Compreender arquitetura Transformer (não precisa codificar)
  • Explicar como funciona self-attention e embeddings
  • Entender limitações técnicas (contexto, alucinações, vieses)
  • Comparar diferentes LLMs (GPT, Claude, Gemini, LLaMA)
  • Tomar decisões informadas sobre qual modelo usar quando

📚 Conteúdo Detalhado

🧠 De Redes Neurais a Transformers

### Evolução Histórica: 1. Perceptron (1958) → Redes Neurais Simples `` Input → [Camada de neurônios] → Output Limitação: Só funções lineares ` 2. Deep Learning (2010s) → CNNs, RNNs ` CNNs: Boas para imagens (convolução espacial) RNNs: Boas para sequências (memória temporal) Limitação: RNNs não escalam (vanishing gradient) ` 3. Attention Mechanism (2017) → Transformers ` "Attention is All You Need" (Vaswani et al) Ideia: Focar em partes relevantes do input Resultado: Escala para bilhões de parâmetros `` ### Por que Transformers Dominam: ✅ Paralelização: Processa texto todo de uma vez (vs RNN sequencial) ✅ Long-range dependencies: Conecta palavras distantes no texto ✅ Escalabilidade: Mais dados + mais parâmetros = melhor performance ✅ Transfer learning: Pré-treino geral + fine-tune específico ---

🔍 Arquitetura Transformer (Simplificada)

### Componentes Principais: `` INPUT: "O gato está no telhado" ↓ [1. TOKENIZAÇÃO] → ["O", "gato", "está", "no", "tel", "hado"] ↓ [2. EMBEDDING] → Cada token vira vetor de 768-12288 dimensões ↓ [3. POSITIONAL ENCODING] → Adiciona informação de ordem (palavra 1, 2, 3...) ↓ [4. SELF-ATTENTION] (🔑 Magia acontece aqui) → Cada palavra "olha" para todas as outras → Identifica relações: "gato" se relaciona com "telhado" ↓ [5. FEED-FORWARD] → Transformações não-lineares ↓ [6. REPETIR 4-5] (12-96 vezes, dependendo do modelo) ↓ [7. OUTPUT] → Probabilidades para próxima palavra → Ex: "O gato está no telhado [comendo: 0.3, dormindo: 0.5, ...]" `` ---

💡 Self-Attention: O Coração do Transformer

### Como Funciona (Analogia): Imagine uma sala de aula onde cada aluno (palavra) pode fazer perguntas para todos os outros: Frase: "O professor explica IA para alunos interessados" Self-Attention calcula:

  • "professor" deveria prestar atenção em: "explica" (0.8), "alunos" (0.6), "IA" (0.7)
  • "alunos" deveria prestar atenção em: "interessados" (0.9), "professor" (0.5)
  • "interessados" deveria prestar atenção em: "alunos" (0.95), "IA" (0.4)
Resultado: Modelo entende que "interessados" modifica "alunos", não "professor" ### Matematicamente (Conceitual): `` Para cada palavra: 1. Query (Q): "O que eu estou procurando?" 2. Key (K): "O que eu tenho a oferecer?" 3. Value (V): "Qual informação eu carrego?" Attention Score = Similarity(Q, K) Output = Weighted sum of Values Exemplo: Palavra "gato" (Query) procura sujeitos de ação Palavra "pulou" (Key) oferece "sou um verbo" Score alto → "gato" presta atenção em "pulou" `` ### Multi-Head Attention: Ao invés de 1 mecanismo de atenção, usa 8-96 em paralelo:
  • Head 1: Foca em sintaxe (sujeito-verbo-objeto)
  • Head 2: Foca em semântica (significado)
  • Head 3: Foca em contexto longo
  • Head 4-8: Outros padrões aprendidos
Analogia: 8 especialistas analisando o mesmo texto de ângulos diferentes ---

📦 Tokenização: Quebrando Texto em Pedaços

### O que são Tokens? Não são palavras! São subunidades: Exemplo (GPT-4): `` Input: "Superprofessores" Tokens: ["Super", "prof", "ess", "ores"] 4 tokens (não 1 palavra) Input: "ChatGPT é incrível!" Tokens: ["Chat", "G", "PT", " é", " in", "cr", "ível", "!"] 8 tokens `` ### Por que Tokenizar? ✅ Eficiência: Vocabulário fixo (50k-100k tokens vs milhões de palavras) ✅ Generalização: Palavras novas podem ser compostas de tokens conhecidos ✅ Multilíngue: Mesmos tokens funcionam em múltiplas línguas ### Algoritmos Comuns: 1. Byte-Pair Encoding (BPE) - Usado por GPT

  • Começa com caracteres
  • Mescla pares frequentes
  • Ex: "a" + "b" → "ab" se aparecem juntos frequentemente
2. WordPiece - Usado por BERT
  • Similar a BPE, mas otimiza likelihood
3. SentencePiece - Usado por T5, LLaMA
  • Trata texto como sequência de bytes (Unicode-aware)
### Implicações para Educadores: ⚠️ Limite de tokens ≠ Limite de palavras
  • GPT-4: 128k tokens ≈ 96k palavras (português)
  • Claude: 200k tokens ≈ 150k palavras
⚠️ Palavras longas custam mais
  • "a" = 1 token
  • "Institucionalização" = 5+ tokens
Ferramenta para Contar: https://platform.openai.com/tokenizer ---

🎨 Embeddings: Representando Significado em Vetores

### Conceito: Palavra → Vetor numérico de alta dimensão Exemplo (simplificado para 3D): `` "rei" → [0.8, 0.3, 0.1] "rainha" → [0.8, 0.3, 0.9] "homem" → [0.5, 0.2, 0.1] "mulher" → [0.5, 0.2, 0.9] Matemática vetorial: rei - homem + mulher ≈ rainha [0.8,0.3,0.1] - [0.5,0.2,0.1] + [0.5,0.2,0.9] = [0.8,0.3,0.9] `` ### Propriedades Mágicas: 1. Similaridade Semântica Palavras similares têm vetores próximos:

  • "cachorro" e "cão" → Distância pequena
  • "cachorro" e "árvore" → Distância grande
2. Analogias
  • Paris : França :: Berlim : ? → Alemanha
  • Funcionam via aritmética vetorial!
3. Transferência de Contexto
  • "banco" (sentar) vs "banco" (financeiro)
  • Mesmo embedding muda significado por contexto
### Embeddings em LLMs: GPT-4: 12,288 dimensões (cada token = vetor de 12k números) Claude 3: Não revelado (estimado 8k-16k) Gemini: Não revelado Visualização: t-SNE ou PCA reduzem para 2D/3D para plotar ---

📌 🏗️ Escala: De GPT-2 a GPT-4

### Evolução de Parâmetros: | Modelo | Parâmetros | Contexto | Ano | |--------|-----------|----------|-----| | GPT-2 | 1.5B | 1k tokens | 2019 | | GPT-3 | 175B | 4k tokens | 2020 | | GPT-3.5 | 175B | 16k tokens | 2022 | | GPT-4 | ~1.7T* | 128k tokens | 2023 | | Claude 3 Opus | ?** | 200k tokens | 2024 | | Gemini 1.5 | ?** | 1M tokens | 2024 | *Estimado, OpenAI não confirma **Não revelado ### Lei de Escala (Scaling Laws): Descoberta (Kaplan et al, 2020): Performance ∝ (Parâmetros)^α × (Dados)^β × (Computação)^γ Implicação: Modelos maiores com mais dados são previsivelmente melhores Mas... há limites:

  • 💰 Custo: GPT-4 custou ~$100M para treinar
  • ⚡ Energia: Equivalente a 1000 lares/ano
  • 🌍 Dados: Internet tem limite
  • 📐 Retorno diminui (modelo 10x maior ≠ 10x melhor)
---

📚 Conteúdo Completo

Faça download do material completo em Markdown para acessar todos os tópicos, exemplos, prompts e atividades detalhadas.

📄 Baixar Material Completo (MD)

📦 Recursos do Módulo

📹 Videoaulas

Aulas detalhadas sobre cada tópico do módulo

💬 Práticas

Atividades hands-on com projetos reais

Avaliação

Quizzes e projetos para certificação

📚 Referências

Materiais complementares selecionados

← Voltar ao Nível 2B