Módulo 2B.1: Anatomia de LLMs - Como Funcionam Por Dentro

**Nível 2B: Técnico Carga Horária: 15 horas**

📖 Visão Geral

Entenda a arquitetura interna de Large Language Models. Domine conceitos de transformers, attention mechanisms, tokenização e embeddings. Saiba como modelos “pensam” para usar com mais eficácia.

Objetivos:

  • Compreender arquitetura Transformer (não precisa codificar)
  • Explicar como funciona self-attention e embeddings
  • Entender limitações técnicas (contexto, alucinações, vieses)
  • Comparar diferentes LLMs (GPT, Claude, Gemini, LLaMA)
  • Tomar decisões informadas sobre qual modelo usar quando

🧠 De Redes Neurais a Transformers

Evolução Histórica:

1. Perceptron (1958) → Redes Neurais Simples

Input → [Camada de neurônios] → Output
Limitação: Só funções lineares

2. Deep Learning (2010s) → CNNs, RNNs

CNNs: Boas para imagens (convolução espacial)
RNNs: Boas para sequências (memória temporal)
Limitação: RNNs não escalam (vanishing gradient)

3. Attention Mechanism (2017) → Transformers

"Attention is All You Need" (Vaswani et al)
Ideia: Focar em partes relevantes do input
Resultado: Escala para bilhões de parâmetros

Por que Transformers Dominam:

Paralelização: Processa texto todo de uma vez (vs RNN sequencial) ✅ Long-range dependencies: Conecta palavras distantes no texto ✅ Escalabilidade: Mais dados + mais parâmetros = melhor performance ✅ Transfer learning: Pré-treino geral + fine-tune específico


🔍 Arquitetura Transformer (Simplificada)

Componentes Principais:

INPUT: "O gato está no telhado"
   ↓
[1. TOKENIZAÇÃO]
   → ["O", "gato", "está", "no", "tel", "hado"]
   ↓
[2. EMBEDDING]
   → Cada token vira vetor de 768-12288 dimensões
   ↓
[3. POSITIONAL ENCODING]
   → Adiciona informação de ordem (palavra 1, 2, 3...)
   ↓
[4. SELF-ATTENTION] (🔑 Magia acontece aqui)
   → Cada palavra "olha" para todas as outras
   → Identifica relações: "gato" se relaciona com "telhado"
   ↓
[5. FEED-FORWARD]
   → Transformações não-lineares
   ↓
[6. REPETIR 4-5] (12-96 vezes, dependendo do modelo)
   ↓
[7. OUTPUT]
   → Probabilidades para próxima palavra
   → Ex: "O gato está no telhado [comendo: 0.3, dormindo: 0.5, ...]"

💡 Self-Attention: O Coração do Transformer

Como Funciona (Analogia):

Imagine uma sala de aula onde cada aluno (palavra) pode fazer perguntas para todos os outros:

Frase: “O professor explica IA para alunos interessados”

Self-Attention calcula:

  • “professor” deveria prestar atenção em: “explica” (0.8), “alunos” (0.6), “IA” (0.7)
  • “alunos” deveria prestar atenção em: “interessados” (0.9), “professor” (0.5)
  • “interessados” deveria prestar atenção em: “alunos” (0.95), “IA” (0.4)

Resultado: Modelo entende que “interessados” modifica “alunos”, não “professor”

Matematicamente (Conceitual):

Para cada palavra:
1. Query (Q): "O que eu estou procurando?"
2. Key (K): "O que eu tenho a oferecer?"
3. Value (V): "Qual informação eu carrego?"

Attention Score = Similarity(Q, K)
Output = Weighted sum of Values

Exemplo:
Palavra "gato" (Query) procura sujeitos de ação
Palavra "pulou" (Key) oferece "sou um verbo"
Score alto → "gato" presta atenção em "pulou"

Multi-Head Attention:

Ao invés de 1 mecanismo de atenção, usa 8-96 em paralelo:

  • Head 1: Foca em sintaxe (sujeito-verbo-objeto)
  • Head 2: Foca em semântica (significado)
  • Head 3: Foca em contexto longo
  • Head 4-8: Outros padrões aprendidos

Analogia: 8 especialistas analisando o mesmo texto de ângulos diferentes


📦 Tokenização: Quebrando Texto em Pedaços

O que são Tokens?

Não são palavras! São subunidades:

Exemplo (GPT-4):

Input: "Superprofessores"
Tokens: ["Super", "prof", "ess", "ores"]
4 tokens (não 1 palavra)

Input: "ChatGPT é incrível!"
Tokens: ["Chat", "G", "PT", " é", " in", "cr", "ível", "!"]
8 tokens

Por que Tokenizar?

Eficiência: Vocabulário fixo (50k-100k tokens vs milhões de palavras) ✅ Generalização: Palavras novas podem ser compostas de tokens conhecidos ✅ Multilíngue: Mesmos tokens funcionam em múltiplas línguas

Algoritmos Comuns:

1. Byte-Pair Encoding (BPE) - Usado por GPT

  • Começa com caracteres
  • Mescla pares frequentes
  • Ex: “a” + “b” → “ab” se aparecem juntos frequentemente

2. WordPiece - Usado por BERT

  • Similar a BPE, mas otimiza likelihood

3. SentencePiece - Usado por T5, LLaMA

  • Trata texto como sequência de bytes (Unicode-aware)

Implicações para Educadores:

⚠️ Limite de tokens ≠ Limite de palavras

  • GPT-4: 128k tokens ≈ 96k palavras (português)
  • Claude: 200k tokens ≈ 150k palavras

⚠️ Palavras longas custam mais

  • “a” = 1 token
  • “Institucionalização” = 5+ tokens

Ferramenta para Contar: https://platform.openai.com/tokenizer


🎨 Embeddings: Representando Significado em Vetores

Conceito:

Palavra → Vetor numérico de alta dimensão

Exemplo (simplificado para 3D):

"rei"      → [0.8, 0.3, 0.1]
"rainha"   → [0.8, 0.3, 0.9]
"homem"    → [0.5, 0.2, 0.1]
"mulher"   → [0.5, 0.2, 0.9]

Matemática vetorial:
rei - homem + mulher ≈ rainha
[0.8,0.3,0.1] - [0.5,0.2,0.1] + [0.5,0.2,0.9] = [0.8,0.3,0.9]

Propriedades Mágicas:

1. Similaridade Semântica Palavras similares têm vetores próximos:

  • “cachorro” e “cão” → Distância pequena
  • “cachorro” e “árvore” → Distância grande

2. Analogias

  • Paris : França :: Berlim : ? → Alemanha
  • Funcionam via aritmética vetorial!

3. Transferência de Contexto

  • “banco” (sentar) vs “banco” (financeiro)
  • Mesmo embedding muda significado por contexto

Embeddings em LLMs:

GPT-4: 12,288 dimensões (cada token = vetor de 12k números) Claude 3: Não revelado (estimado 8k-16k) Gemini: Não revelado

Visualização: t-SNE ou PCA reduzem para 2D/3D para plotar


🏗️ Escala: De GPT-2 a GPT-4

Evolução de Parâmetros:

Modelo Parâmetros Contexto Ano
GPT-2 1.5B 1k tokens 2019
GPT-3 175B 4k tokens 2020
GPT-3.5 175B 16k tokens 2022
GPT-4 ~1.7T* 128k tokens 2023
Claude 3 Opus ?** 200k tokens 2024
Gemini 1.5 ?** 1M tokens 2024

*Estimado, OpenAI não confirma **Não revelado

Lei de Escala (Scaling Laws):

Descoberta (Kaplan et al, 2020): Performance ∝ (Parâmetros)^α × (Dados)^β × (Computação)^γ

Implicação: Modelos maiores com mais dados são previsivelmente melhores

Mas… há limites:

  • 💰 Custo: GPT-4 custou ~$100M para treinar
  • ⚡ Energia: Equivalente a 1000 lares/ano
  • 🌍 Dados: Internet tem limite
  • 📐 Retorno diminui (modelo 10x maior ≠ 10x melhor)

🔬 Comparação de LLMs (Novembro 2025)

GPT-4 (OpenAI)

Pontos Fortes: ✅ Raciocínio lógico superior ✅ Código (especialmente Python) ✅ Seguir instruções complexas ✅ Integração com ferramentas (plugins)

Pontos Fracos: ❌ Contexto “apenas” 128k ❌ Vieses ocidentais ❌ Custo alto (API)

Melhor para: Tutoria 1-on-1, geração de código, raciocínio matemático


Claude 3 Opus (Anthropic)

Pontos Fortes: ✅ Contexto 200k (mais longo) ✅ Ética e segurança (Constitutional AI) ✅ Redação criativa e análise literária ✅ Menos alucinação

Pontos Fracos: ❌ Código inferior ao GPT-4 ❌ Mais “conservador” (recusa mais)

Melhor para: Análise de textos longos, feedback em redações, conteúdo sensível


Gemini 1.5 Pro (Google)

Pontos Fortes: ✅ Contexto 1M tokens (absurdo!) ✅ Multimodal nativo (texto+imagem+vídeo+áudio) ✅ Integração com Google Workspace ✅ Busca em tempo real

Pontos Fracos: ❌ Qualidade inconsistente ❌ Menos controle fino

Melhor para: Análise de materiais multimídia, pesquisa com fontes atuais


LLaMA 3 (Meta)

Pontos Fortes: ✅ Open-source (gratuito) ✅ Pode rodar localmente (com GPU) ✅ Customizável (fine-tune completo) ✅ Privacidade (dados não saem do servidor)

Pontos Fracos: ❌ Requer expertise técnico ❌ Infraestrutura própria ❌ Qualidade inferior aos comerciais

Melhor para: Instituições com dados sensíveis, projetos de pesquisa, budget limitado


⚠️ Limitações Técnicas

1. Limite de Contexto

O que é: Quantidade máxima de texto que modelo “lembra”

Implicação:

  • Conversa longa → Esquece início
  • Documento > contexto → Precisa resumir/cortar

Solução:

  • RAG (Retrieval Augmented Generation) - Módulo 2B.2
  • Summarização iterativa
  • Sliding window

2. Alucinações

O que é: Modelo inventa fatos que parecem verdade

Por que acontece:

  • Treinado para gerar texto plausível, não verdadeiro
  • Não tem “check de realidade”
  • Preenche lacunas com “invenções”

Exemplo:

Prompt: "Quem ganhou Nobel de Física em 2035?"
Modelo: "Dra. Maria Santos, por trabalho em fusão fria"
[FALSO: 2035 é futuro! Mas resposta parece legítima]

Mitigação:

  • Pedir fontes e verificar
  • RAG com base de conhecimento confiável
  • Fine-tune em dados verificados

3. Vieses

O que é: Modelo reflete preconceitos nos dados de treino

Exemplos Documentados:

  • Associação “CEO” → “homem” (mais frequente que “mulher”)
  • Descrições de profissões variam por gênero
  • Vieses raciais em geração de imagens

Mitigação:

  • Estar ciente e testar
  • Diversificar prompts
  • Usar modelos com RLHF (Reinforcement Learning from Human Feedback)

4. Raciocínio ≠ Compreensão

Modelos são pattern matchers, não “pensadores”:

O que fazem bem: ✅ Reconhecer padrões estatísticos ✅ Completar sequências ✅ Interpolar conhecimento

O que NÃO fazem: ❌ Raciocínio causal profundo ❌ Planejamento de longo prazo ❌ Compreensão física do mundo ❌ Teoria da mente (entender intenções)

Exemplo de Falha:

Prompt: "Tenho 3 laranjas. Como 2. Pego mais 5. Quantas tenho?"
GPT-3: "6" ✅ (certo)

Prompt: "Tenho 3 laranjas. Como 2. Pego mais 5. Planto 1. Quanto tempo até ter mais laranjas?"
GPT-3: "Cerca de 3 anos" (correto: 3-5 anos para laranjeira dar frutos)

Prompt: "Tenho 3 laranjas. Como 2. Pego mais 5. Planto 1. Quantas laranjas tenho agora?"
GPT-3: "6" ❌ (errado: 5, pois plantei 1)

Lição: Modelos falham em raciocínio multi-step com mudanças de estado


🛠️ Ferramentas para Explorar LLMs

1. Playgrounds Oficiais

OpenAI Playground: https://platform.openai.com/playground

  • Ajustar temperatura, top-p, frequência
  • Ver tokens e custos

Anthropic Console: https://console.anthropic.com

  • Testar Claude com controles finos

Google AI Studio: https://aistudio.google.com

  • Testar Gemini, incluir imagens/vídeos

2. Visualizações de Attention

BertViz: https://github.com/jessevig/bertviz

  • Visualizar o que cada attention head “olha”
  • Entender decisões do modelo

LLM Visualization: https://bbycroft.net/llm

  • Animação 3D de forward pass

3. Contadores de Tokens

OpenAI Tokenizer: https://platform.openai.com/tokenizer Hugging Face Tokenizer: https://huggingface.co/spaces/Xenova/the-tokenizer


4. Comparadores de Modelos

LMSYS Chatbot Arena: https://arena.lmsys.org

  • Compare respostas lado-a-lado
  • Vote no melhor (crowdsourced ranking)

Artificial Analysis: https://artificialanalysis.ai

  • Benchmarks de qualidade, velocidade, custo

📦 Recursos do Módulo

📹 Videoaulas (4h)

  • História: de RNNs a Transformers (40 min)
  • Arquitetura Transformer explicada (60 min)
  • Tokenização e Embeddings (45 min)
  • Comparação de LLMs (55 min)

💬 Práticas (9h)

  • Explorar Playgrounds (3h)
  • Visualizar attention (2h)
  • Comparar outputs de diferentes LLMs (2h)
  • Testar limites (contexto, alucinação) (2h)

✅ Avaliação (2h)

  • Quiz: 30 questões (conceitos técnicos)
  • Projeto: Relatório comparando 3 LLMs para caso de uso educacional

📚 Referências

  • Paper: “Attention is All You Need” (Vaswani et al, 2017)
  • Curso: Stanford CS224N (NLP with Deep Learning)
  • Livro: Speech and Language Processing (Jurafsky & Martin) - Cap. 10-11
  • Blog: Jay Alammar’s Illustrated Transformer (jalammar.github.io)

**© 2025 SuperProfessores Licença MIT**