Módulo 2B.1: Anatomia de LLMs - Como Funcionam Por Dentro

**Nível 2B: Técnico

Carga Horária: 15 horas**

📖 Visão Geral

Entenda a arquitetura interna de Large Language Models. Domine conceitos de transformers, attention mechanisms, tokenização e embeddings. Saiba como modelos “pensam” para usar com mais eficácia.

Objetivos:

Compreender arquitetura Transformer (não precisa codificar)
Explicar como funciona self-attention e embeddings
Entender limitações técnicas (contexto, alucinações, vieses)
Comparar diferentes LLMs (GPT, Claude, Gemini, LLaMA)
Tomar decisões informadas sobre qual modelo usar quando

🧠 De Redes Neurais a Transformers

Evolução Histórica:

1. Perceptron (1958) → Redes Neurais Simples

Input → [Camada de neurônios] → Output
Limitação: Só funções lineares

2. Deep Learning (2010s) → CNNs, RNNs

CNNs: Boas para imagens (convolução espacial)
RNNs: Boas para sequências (memória temporal)
Limitação: RNNs não escalam (vanishing gradient)

3. Attention Mechanism (2017) → Transformers

"Attention is All You Need" (Vaswani et al)
Ideia: Focar em partes relevantes do input
Resultado: Escala para bilhões de parâmetros

Por que Transformers Dominam:

✅ Paralelização: Processa texto todo de uma vez (vs RNN sequencial) ✅ Long-range dependencies: Conecta palavras distantes no texto ✅ Escalabilidade: Mais dados + mais parâmetros = melhor performance ✅ Transfer learning: Pré-treino geral + fine-tune específico

🔍 Arquitetura Transformer (Simplificada)

Componentes Principais:

INPUT: "O gato está no telhado"
   ↓
[1. TOKENIZAÇÃO]
   → ["O", "gato", "está", "no", "tel", "hado"]
   ↓
[2. EMBEDDING]
   → Cada token vira vetor de 768-12288 dimensões
   ↓
[3. POSITIONAL ENCODING]
   → Adiciona informação de ordem (palavra 1, 2, 3...)
   ↓
[4. SELF-ATTENTION] (🔑 Magia acontece aqui)
   → Cada palavra "olha" para todas as outras
   → Identifica relações: "gato" se relaciona com "telhado"
   ↓
[5. FEED-FORWARD]
   → Transformações não-lineares
   ↓
[6. REPETIR 4-5] (12-96 vezes, dependendo do modelo)
   ↓
[7. OUTPUT]
   → Probabilidades para próxima palavra
   → Ex: "O gato está no telhado [comendo: 0.3, dormindo: 0.5, ...]"

💡 Self-Attention: O Coração do Transformer

Como Funciona (Analogia):

Imagine uma sala de aula onde cada aluno (palavra) pode fazer perguntas para todos os outros:

Frase: “O professor explica IA para alunos interessados”

Self-Attention calcula:

“professor” deveria prestar atenção em: “explica” (0.8), “alunos” (0.6), “IA” (0.7)
“alunos” deveria prestar atenção em: “interessados” (0.9), “professor” (0.5)
“interessados” deveria prestar atenção em: “alunos” (0.95), “IA” (0.4)

Resultado: Modelo entende que “interessados” modifica “alunos”, não “professor”

Matematicamente (Conceitual):

Para cada palavra:
1. Query (Q): "O que eu estou procurando?"
2. Key (K): "O que eu tenho a oferecer?"
3. Value (V): "Qual informação eu carrego?"

Attention Score = Similarity(Q, K)
Output = Weighted sum of Values

Exemplo:
Palavra "gato" (Query) procura sujeitos de ação
Palavra "pulou" (Key) oferece "sou um verbo"
Score alto → "gato" presta atenção em "pulou"

Multi-Head Attention:

Ao invés de 1 mecanismo de atenção, usa 8-96 em paralelo:

Head 1: Foca em sintaxe (sujeito-verbo-objeto)
Head 2: Foca em semântica (significado)
Head 3: Foca em contexto longo
Head 4-8: Outros padrões aprendidos

Analogia: 8 especialistas analisando o mesmo texto de ângulos diferentes

📦 Tokenização: Quebrando Texto em Pedaços

O que são Tokens?

Não são palavras! São subunidades:

Exemplo (GPT-4):

Input: "Superprofessores"
Tokens: ["Super", "prof", "ess", "ores"]
4 tokens (não 1 palavra)

Input: "ChatGPT é incrível!"
Tokens: ["Chat", "G", "PT", " é", " in", "cr", "ível", "!"]
8 tokens

Por que Tokenizar?

✅ Eficiência: Vocabulário fixo (50k-100k tokens vs milhões de palavras) ✅ Generalização: Palavras novas podem ser compostas de tokens conhecidos ✅ Multilíngue: Mesmos tokens funcionam em múltiplas línguas

Algoritmos Comuns:

1. Byte-Pair Encoding (BPE) - Usado por GPT

Começa com caracteres
Mescla pares frequentes
Ex: “a” + “b” → “ab” se aparecem juntos frequentemente

2. WordPiece - Usado por BERT

Similar a BPE, mas otimiza likelihood

3. SentencePiece - Usado por T5, LLaMA

Trata texto como sequência de bytes (Unicode-aware)

Implicações para Educadores:

⚠️ Limite de tokens ≠ Limite de palavras

GPT-4: 128k tokens ≈ 96k palavras (português)
Claude: 200k tokens ≈ 150k palavras

⚠️ Palavras longas custam mais

“a” = 1 token
“Institucionalização” = 5+ tokens

Ferramenta para Contar: https://platform.openai.com/tokenizer

🎨 Embeddings: Representando Significado em Vetores

Conceito:

Palavra → Vetor numérico de alta dimensão

Exemplo (simplificado para 3D):

"rei"      → [0.8, 0.3, 0.1]
"rainha"   → [0.8, 0.3, 0.9]
"homem"    → [0.5, 0.2, 0.1]
"mulher"   → [0.5, 0.2, 0.9]

Matemática vetorial:
rei - homem + mulher ≈ rainha
[0.8,0.3,0.1] - [0.5,0.2,0.1] + [0.5,0.2,0.9] = [0.8,0.3,0.9]

Propriedades Mágicas:

1. Similaridade Semântica Palavras similares têm vetores próximos:

“cachorro” e “cão” → Distância pequena
“cachorro” e “árvore” → Distância grande

2. Analogias

Paris : França :: Berlim : ? → Alemanha
Funcionam via aritmética vetorial!

3. Transferência de Contexto

“banco” (sentar) vs “banco” (financeiro)
Mesmo embedding muda significado por contexto

Embeddings em LLMs:

GPT-4: 12,288 dimensões (cada token = vetor de 12k números) Claude 3: Não revelado (estimado 8k-16k) Gemini: Não revelado

Visualização: t-SNE ou PCA reduzem para 2D/3D para plotar

🏗️ Escala: De GPT-2 a GPT-4

Evolução de Parâmetros:

Modelo	Parâmetros	Contexto	Ano
GPT-2	1.5B	1k tokens	2019
GPT-3	175B	4k tokens	2020
GPT-3.5	175B	16k tokens	2022
GPT-4	~1.7T*	128k tokens	2023
Claude 3 Opus	?**	200k tokens	2024
Gemini 1.5	?**	1M tokens	2024

*Estimado, OpenAI não confirma **Não revelado

Lei de Escala (Scaling Laws):

Descoberta (Kaplan et al, 2020): Performance ∝ (Parâmetros)^α × (Dados)^β × (Computação)^γ

Implicação: Modelos maiores com mais dados são previsivelmente melhores

Mas… há limites:

💰 Custo: GPT-4 custou ~$100M para treinar
⚡ Energia: Equivalente a 1000 lares/ano
🌍 Dados: Internet tem limite
📐 Retorno diminui (modelo 10x maior ≠ 10x melhor)

🔬 Comparação de LLMs (Novembro 2025)

GPT-4 (OpenAI)

Pontos Fortes: ✅ Raciocínio lógico superior ✅ Código (especialmente Python) ✅ Seguir instruções complexas ✅ Integração com ferramentas (plugins)

Pontos Fracos: ❌ Contexto “apenas” 128k ❌ Vieses ocidentais ❌ Custo alto (API)

Melhor para: Tutoria 1-on-1, geração de código, raciocínio matemático

Claude 3 Opus (Anthropic)

Pontos Fortes: ✅ Contexto 200k (mais longo) ✅ Ética e segurança (Constitutional AI) ✅ Redação criativa e análise literária ✅ Menos alucinação

Pontos Fracos: ❌ Código inferior ao GPT-4 ❌ Mais “conservador” (recusa mais)

Melhor para: Análise de textos longos, feedback em redações, conteúdo sensível

Gemini 1.5 Pro (Google)

Pontos Fortes: ✅ Contexto 1M tokens (absurdo!) ✅ Multimodal nativo (texto+imagem+vídeo+áudio) ✅ Integração com Google Workspace ✅ Busca em tempo real

Pontos Fracos: ❌ Qualidade inconsistente ❌ Menos controle fino

Melhor para: Análise de materiais multimídia, pesquisa com fontes atuais

LLaMA 3 (Meta)

Pontos Fortes: ✅ Open-source (gratuito) ✅ Pode rodar localmente (com GPU) ✅ Customizável (fine-tune completo) ✅ Privacidade (dados não saem do servidor)

Pontos Fracos: ❌ Requer expertise técnico ❌ Infraestrutura própria ❌ Qualidade inferior aos comerciais

Melhor para: Instituições com dados sensíveis, projetos de pesquisa, budget limitado

⚠️ Limitações Técnicas

1. Limite de Contexto

O que é: Quantidade máxima de texto que modelo “lembra”

Implicação:

Conversa longa → Esquece início
Documento > contexto → Precisa resumir/cortar

Solução:

RAG (Retrieval Augmented Generation) - Módulo 2B.2
Summarização iterativa
Sliding window

2. Alucinações

O que é: Modelo inventa fatos que parecem verdade

Por que acontece:

Treinado para gerar texto plausível, não verdadeiro
Não tem “check de realidade”
Preenche lacunas com “invenções”

Exemplo:

Prompt: "Quem ganhou Nobel de Física em 2035?"
Modelo: "Dra. Maria Santos, por trabalho em fusão fria"
[FALSO: 2035 é futuro! Mas resposta parece legítima]

Mitigação:

Pedir fontes e verificar
RAG com base de conhecimento confiável
Fine-tune em dados verificados

3. Vieses

O que é: Modelo reflete preconceitos nos dados de treino

Exemplos Documentados:

Associação “CEO” → “homem” (mais frequente que “mulher”)
Descrições de profissões variam por gênero
Vieses raciais em geração de imagens

Mitigação:

Estar ciente e testar
Diversificar prompts
Usar modelos com RLHF (Reinforcement Learning from Human Feedback)

4. Raciocínio ≠ Compreensão

Modelos são pattern matchers, não “pensadores”:

O que fazem bem: ✅ Reconhecer padrões estatísticos ✅ Completar sequências ✅ Interpolar conhecimento

O que NÃO fazem: ❌ Raciocínio causal profundo ❌ Planejamento de longo prazo ❌ Compreensão física do mundo ❌ Teoria da mente (entender intenções)

Exemplo de Falha:

Prompt: "Tenho 3 laranjas. Como 2. Pego mais 5. Quantas tenho?"
GPT-3: "6" ✅ (certo)

Prompt: "Tenho 3 laranjas. Como 2. Pego mais 5. Planto 1. Quanto tempo até ter mais laranjas?"
GPT-3: "Cerca de 3 anos" (correto: 3-5 anos para laranjeira dar frutos)

Prompt: "Tenho 3 laranjas. Como 2. Pego mais 5. Planto 1. Quantas laranjas tenho agora?"
GPT-3: "6" ❌ (errado: 5, pois plantei 1)

Lição: Modelos falham em raciocínio multi-step com mudanças de estado

🛠️ Ferramentas para Explorar LLMs

1. Playgrounds Oficiais

OpenAI Playground: https://platform.openai.com/playground

Ajustar temperatura, top-p, frequência
Ver tokens e custos

Anthropic Console: https://console.anthropic.com

Testar Claude com controles finos

Google AI Studio: https://aistudio.google.com

Testar Gemini, incluir imagens/vídeos

2. Visualizações de Attention

BertViz: https://github.com/jessevig/bertviz

Visualizar o que cada attention head “olha”
Entender decisões do modelo

LLM Visualization: https://bbycroft.net/llm

Animação 3D de forward pass

3. Contadores de Tokens

OpenAI Tokenizer: https://platform.openai.com/tokenizer Hugging Face Tokenizer: https://huggingface.co/spaces/Xenova/the-tokenizer

4. Comparadores de Modelos

LMSYS Chatbot Arena: https://arena.lmsys.org

Compare respostas lado-a-lado
Vote no melhor (crowdsourced ranking)

Artificial Analysis: https://artificialanalysis.ai

Benchmarks de qualidade, velocidade, custo

📦 Recursos do Módulo

📹 Videoaulas (4h)

História: de RNNs a Transformers (40 min)
Arquitetura Transformer explicada (60 min)
Tokenização e Embeddings (45 min)
Comparação de LLMs (55 min)

💬 Práticas (9h)

Explorar Playgrounds (3h)
Visualizar attention (2h)
Comparar outputs de diferentes LLMs (2h)
Testar limites (contexto, alucinação) (2h)

✅ Avaliação (2h)

Quiz: 30 questões (conceitos técnicos)
Projeto: Relatório comparando 3 LLMs para caso de uso educacional

📚 Referências

Paper: “Attention is All You Need” (Vaswani et al, 2017)
Curso: Stanford CS224N (NLP with Deep Learning)
Livro: Speech and Language Processing (Jurafsky & Martin) - Cap. 10-11
Blog: Jay Alammar’s Illustrated Transformer (jalammar.github.io)

Licença MIT**