📖 Visão Geral
Entenda a arquitetura interna de Large Language Models. Domine conceitos de transformers, attention mechanisms, tokenização e embeddings. Saiba como modelos "pensam" para usar com mais eficácia.
Ao final deste módulo, você será capaz de:
- Compreender arquitetura Transformer (não precisa codificar)
- Explicar como funciona self-attention e embeddings
- Entender limitações técnicas (contexto, alucinações, vieses)
- Comparar diferentes LLMs (GPT, Claude, Gemini, LLaMA)
- Tomar decisões informadas sobre qual modelo usar quando
📚 Conteúdo Detalhado
🧠 De Redes Neurais a Transformers
### Evolução Histórica:
1. Perceptron (1958) → Redes Neurais Simples
``
Input → [Camada de neurônios] → Output
Limitação: Só funções lineares
`
2. Deep Learning (2010s) → CNNs, RNNs
`
CNNs: Boas para imagens (convolução espacial)
RNNs: Boas para sequências (memória temporal)
Limitação: RNNs não escalam (vanishing gradient)
`
3. Attention Mechanism (2017) → Transformers
`
"Attention is All You Need" (Vaswani et al)
Ideia: Focar em partes relevantes do input
Resultado: Escala para bilhões de parâmetros
``
### Por que Transformers Dominam:
✅ Paralelização: Processa texto todo de uma vez (vs RNN sequencial)
✅ Long-range dependencies: Conecta palavras distantes no texto
✅ Escalabilidade: Mais dados + mais parâmetros = melhor performance
✅ Transfer learning: Pré-treino geral + fine-tune específico
---
🔍 Arquitetura Transformer (Simplificada)
### Componentes Principais:
``
INPUT: "O gato está no telhado"
↓
[1. TOKENIZAÇÃO]
→ ["O", "gato", "está", "no", "tel", "hado"]
↓
[2. EMBEDDING]
→ Cada token vira vetor de 768-12288 dimensões
↓
[3. POSITIONAL ENCODING]
→ Adiciona informação de ordem (palavra 1, 2, 3...)
↓
[4. SELF-ATTENTION] (🔑 Magia acontece aqui)
→ Cada palavra "olha" para todas as outras
→ Identifica relações: "gato" se relaciona com "telhado"
↓
[5. FEED-FORWARD]
→ Transformações não-lineares
↓
[6. REPETIR 4-5] (12-96 vezes, dependendo do modelo)
↓
[7. OUTPUT]
→ Probabilidades para próxima palavra
→ Ex: "O gato está no telhado [comendo: 0.3, dormindo: 0.5, ...]"
``
---
💡 Self-Attention: O Coração do Transformer
### Como Funciona (Analogia): Imagine uma sala de aula onde cada aluno (palavra) pode fazer perguntas para todos os outros: Frase: "O professor explica IA para alunos interessados" Self-Attention calcula:
- "professor" deveria prestar atenção em: "explica" (0.8), "alunos" (0.6), "IA" (0.7)
- "alunos" deveria prestar atenção em: "interessados" (0.9), "professor" (0.5)
- "interessados" deveria prestar atenção em: "alunos" (0.95), "IA" (0.4)
Para cada palavra:
1. Query (Q): "O que eu estou procurando?"
2. Key (K): "O que eu tenho a oferecer?"
3. Value (V): "Qual informação eu carrego?"
Attention Score = Similarity(Q, K)
Output = Weighted sum of Values
Exemplo:
Palavra "gato" (Query) procura sujeitos de ação
Palavra "pulou" (Key) oferece "sou um verbo"
Score alto → "gato" presta atenção em "pulou"
``
### Multi-Head Attention:
Ao invés de 1 mecanismo de atenção, usa 8-96 em paralelo:
- Head 1: Foca em sintaxe (sujeito-verbo-objeto)
- Head 2: Foca em semântica (significado)
- Head 3: Foca em contexto longo
- Head 4-8: Outros padrões aprendidos
📦 Tokenização: Quebrando Texto em Pedaços
### O que são Tokens?
Não são palavras! São subunidades:
Exemplo (GPT-4):
``
Input: "Superprofessores"
Tokens: ["Super", "prof", "ess", "ores"]
4 tokens (não 1 palavra)
Input: "ChatGPT é incrível!"
Tokens: ["Chat", "G", "PT", " é", " in", "cr", "ível", "!"]
8 tokens
``
### Por que Tokenizar?
✅ Eficiência: Vocabulário fixo (50k-100k tokens vs milhões de palavras)
✅ Generalização: Palavras novas podem ser compostas de tokens conhecidos
✅ Multilíngue: Mesmos tokens funcionam em múltiplas línguas
### Algoritmos Comuns:
1. Byte-Pair Encoding (BPE) - Usado por GPT
- Começa com caracteres
- Mescla pares frequentes
- Ex: "a" + "b" → "ab" se aparecem juntos frequentemente
- Similar a BPE, mas otimiza likelihood
- Trata texto como sequência de bytes (Unicode-aware)
- GPT-4: 128k tokens ≈ 96k palavras (português)
- Claude: 200k tokens ≈ 150k palavras
- "a" = 1 token
- "Institucionalização" = 5+ tokens
🎨 Embeddings: Representando Significado em Vetores
### Conceito:
Palavra → Vetor numérico de alta dimensão
Exemplo (simplificado para 3D):
``
"rei" → [0.8, 0.3, 0.1]
"rainha" → [0.8, 0.3, 0.9]
"homem" → [0.5, 0.2, 0.1]
"mulher" → [0.5, 0.2, 0.9]
Matemática vetorial:
rei - homem + mulher ≈ rainha
[0.8,0.3,0.1] - [0.5,0.2,0.1] + [0.5,0.2,0.9] = [0.8,0.3,0.9]
``
### Propriedades Mágicas:
1. Similaridade Semântica
Palavras similares têm vetores próximos:
- "cachorro" e "cão" → Distância pequena
- "cachorro" e "árvore" → Distância grande
- Paris : França :: Berlim : ? → Alemanha
- Funcionam via aritmética vetorial!
- "banco" (sentar) vs "banco" (financeiro)
- Mesmo embedding muda significado por contexto
📌 🏗️ Escala: De GPT-2 a GPT-4
### Evolução de Parâmetros: | Modelo | Parâmetros | Contexto | Ano | |--------|-----------|----------|-----| | GPT-2 | 1.5B | 1k tokens | 2019 | | GPT-3 | 175B | 4k tokens | 2020 | | GPT-3.5 | 175B | 16k tokens | 2022 | | GPT-4 | ~1.7T* | 128k tokens | 2023 | | Claude 3 Opus | ?** | 200k tokens | 2024 | | Gemini 1.5 | ?** | 1M tokens | 2024 | *Estimado, OpenAI não confirma **Não revelado ### Lei de Escala (Scaling Laws): Descoberta (Kaplan et al, 2020): Performance ∝ (Parâmetros)^α × (Dados)^β × (Computação)^γ Implicação: Modelos maiores com mais dados são previsivelmente melhores Mas... há limites:
- 💰 Custo: GPT-4 custou ~$100M para treinar
- ⚡ Energia: Equivalente a 1000 lares/ano
- 🌍 Dados: Internet tem limite
- 📐 Retorno diminui (modelo 10x maior ≠ 10x melhor)
📚 Conteúdo Completo
Faça download do material completo em Markdown para acessar todos os tópicos, exemplos, prompts e atividades detalhadas.
📄 Baixar Material Completo (MD)📦 Recursos do Módulo
📹 Videoaulas
Aulas detalhadas sobre cada tópico do módulo
💬 Práticas
Atividades hands-on com projetos reais
✅ Avaliação
Quizzes e projetos para certificação
📚 Referências
Materiais complementares selecionados