MÓDULO 3.2

🌐 World Models e Simulação Preditiva

Robôs que imaginam o futuro antes de agir: modelos generativos como motor de previsão. Da JEPA ao Dreamer — aprenda como agentes simulam consequências na mente antes de tocarem o mundo real.

6
Tópicos
40
Minutos
Avançado
Nível
Teoria
Tipo
Observação câmera + sensores estado atual s_t World Model "E se eu fizer X?" rollout α → recompensa 0.82 rollout β → recompensa 0.54 rollout γ → recompensa 0.31 Ação Ótima a* = argmax R(s) rollout α selecionado nova observação após execução Mundo Real

Loop de simulação preditiva: o robô imagina múltiplos rollouts no World Model e executa apenas a ação com maior recompensa estimada.

1

🧠 O que são World Models

World Models são representações internas que um agente constrói do ambiente — uma espécie de "mapa mental do futuro". Em vez de agir por tentativa e erro no mundo real, o robô simula cenários mentalmente e escolhe a melhor trajetória antes de mover um único servo.

🔮 Definição Central

Um World Model é uma função f(s_t, a_t) → s_{t+1} que dado o estado atual e uma ação proposta, prediz o próximo estado. Encadeada k vezes, gera um rollout de k passos no futuro — o "sonho" do robô.

Latent Space Dynamics

O mundo é comprimido num espaço latente de baixa dimensão onde a dinâmica é mais fácil de aprender do que no espaço de pixels brutos.

Forward Model

Componente que prediz o próximo estado. Pode ser determinístico ou estocástico (modelando incerteza como distribuição sobre futuros possíveis).

JEPA

Joint Embedding Predictive Architecture (LeCun): prediz representações de estados futuros no espaço de features, sem reconstruir pixels — mais eficiente e robusto.

Planejamento por Rollout

Simular N trajetórias candidatas, avaliar cada uma com uma função de recompensa, executar apenas a ação da trajetória vencedora.

💡 Por que Yann LeCun aposta nisso

LeCun argumenta que World Models são a peça que falta para inteligência de nível humano: humanos passam a maior parte do tempo "imaginando", não agindo. A JEPA é a proposta dele para treinar esses modelos sem colapso representacional.

2

🎬 Modelos generativos de vídeo: Sora, UniSim, Genie2

Modelos como Sora (OpenAI), UniSim (Google) e Genie2 (DeepMind) geram vídeos realistas do futuro condicionados em ações. Na robótica, eles funcionam como world models visuais: dado o frame atual e uma ação proposta, geram os frames seguintes mostrando o resultado provável.

✓ Vantagens dos Video World Models

  • Geram simulações fotorrealistas de ambientes nunca vistos
  • Permitem treinar políticas sem simulador tradicional (Isaac Sim, MuJoCo)
  • Escalam com dados de vídeo da internet — trilhões de frames disponíveis
  • Capturam física implícita: objetos caem, líquidos fluem, sombras projetam

✗ Limitações atuais

  • Não garantem consistência física rigorosa (objetos podem teletransportar)
  • Geração é lenta demais para planejamento online em tempo real
  • Erros de conteúdo se acumulam em rollouts longos (>2–3 segundos)
  • Difícil de condicionar em ações no espaço de torques/joint angles
Comparativo: modelos generativos de vídeo
ModeloFocoStatus robótica
UniSim (Google) Simulador universal de ações Research · mais próximo de uso
Genie2 (DeepMind) Environment generator 3D Research · alta fidelidade visual
Sora (OpenAI) Vídeo de alta qualidade Comercial · física inconsistente

🎯 A aposta de longo prazo

Se video world models atingirem fidelidade física suficiente, substituem Isaac Sim e MuJoCo — simuladores tradicionais que exigem modelagem manual de física. O treinamento de robôs se torna tão escalável quanto o treinamento de LLMs com texto da web.

3

🔀 Previsão de consequências: "E se eu fizer X?"

O robô avalia múltiplas ações candidatas simulando suas consequências no world model. Para cada ação, gera uma trajetória de estados futuros e calcula uma função de recompensa sobre o resultado previsto. A ação com melhor outcome estimado é então executada no mundo real.

1

Action Sampling

Amostrar N ações candidatas do espaço de ações. Pode ser via CEM (Cross-Entropy Method), MPPI ou simplesmente ruído gaussiano sobre a ação atual.

2

Rollout Paralelo

Cada ação candidata é expandida k passos no World Model em paralelo na GPU. Produz N trajetórias de estados futuros simultaneamente.

3

Reward Prediction

Uma função de recompensa avalia cada trajetória. Pode ser uma rede neural separada, distância a um goal state, ou função de custo de engenharia.

4

Execução do Vencedor

A ação da trajetória com maior recompensa acumulada é executada. Depois, o ciclo recomeça com a nova observação — é o Model Predictive Control (MPC).

Por que isso importa

Este mecanismo de "look-ahead" é o que separa robôs reativos de robôs verdadeiramente inteligentes. Permite evitar ações irreversíveis — como derrubar um objeto frágil — ao prever a consequência antes de executar. O custo: latência de planejamento.

4

💭 Planejamento por imaginação (model-based RL)

Model-based reinforcement learning treina uma política usando experiências geradas pelo world model em vez de interações reais. Algoritmos como Dreamer e TD-MPC aprendem no "sonho" do modelo, depois transferem o comportamento para o robô físico — reduzindo custo e risco do treinamento em ordens de magnitude.

Model-Free RL ~10⁶ interações reais necessárias lento · caro · arriscado Model-Based RL (Dreamer) ⬛ real 🔵 imaginação (world model) ~10² interações reais · 10⁶ no sonho rápido · seguro · escalável

✓ Algoritmos consolidados

  • DreamerV3 — aprende em imaginação, funciona em 150+ tarefas sem ajuste
  • TD-MPC2 — combina MPC com TD learning; estado da arte em robótica contínua
  • MBPO — policy optimization com rollouts curtos no modelo (Janner et al.)

✗ Armadilhas comuns

  • Rollouts longos demais — erros do modelo se acumulam (model bias)
  • Política otimiza o modelo, não o mundo real (exploitation do model error)
  • Modelo muito simples — não captura multimodalidade do ambiente real
5

🏭 Treinamento com dados sintéticos do world model

Além de planejamento online, world models podem gerar datasets sintéticos massivos para pré-treinar políticas. O modelo gera milhões de trajetórias plausíveis com variações de objetos, iluminação e configurações — dados impossíveis de coletar manualmente em escala.

📊 O Data Bottleneck da Robótica

LLMs escalaram porque texto da internet forneceu trilhões de tokens. Robótica não tem esse luxo: dados de trajetória real são caros (~$10–100/hora de coleta) e escassos. World models são a proposta para fechar esse gap.

~10³
horas de dados reais disponíveis (Open X)
trajetórias sintéticas possíveis via world model
10–100×
redução de custo estimada com síntese
Domain Randomization

Gerar dados com iluminação, texturas e posições aleatorizadas — o world model faz isso com zero custo marginal vs. mover objetos reais.

Fidelidade vs Diversidade

Trade-off fundamental: dados mais fiéis à física real são mais úteis, mas limitar a fidelidade permite maior diversidade de cenários gerados.

Scaling Laws Robóticos

Pesquisadores investigam se performance de políticas robóticas escala previsivamente com volume de dados sintéticos — análogo à lei de escala dos LLMs.

Data Augmentation Implícita

World model como augmentador: gera variações de trajetórias reais com perturbações de estado — enriquece o dataset sem coleta adicional.

🔑 A aposta chave

Se world models se tornarem simuladores de física confiáveis, o "data bottleneck" da robótica deixa de existir. Empresas como 1X Technologies e Physical Intelligence já usam essa abordagem para escalar coleta de dados de forma sintética.

6

⚠️ Limitações: quando o modelo erra a previsão

World models não são perfeitos: erros de previsão se acumulam ao longo do horizonte temporal (compound error), objetos deformáveis são difíceis de modelar, e interações multi-corpo complexas frequentemente divergem da realidade. Confiar cegamente num world model é tão perigoso quanto não ter um.

✗ Modos de falha do World Model

  • Compound Error — pequenos erros por passo se somam: após 50 passos, o estado previsto pode ser completamente irreal
  • Objetos deformáveis — tecido, líquidos, massa mole: física intratável para redes neurais atuais
  • Interações novas — out-of-distribution: o modelo extrapola mal para situações não vistas no treino
  • Contatos precisos — encaixar uma peça, apertar parafuso: física de contato de alta precisão é crítica

✓ Estratégias de mitigação

  • Horizonte curto — limitar rollouts a 5–15 passos reduz acúmulo de erro
  • Uncertainty estimation — medir incerteza do modelo e parar de imaginar quando alta
  • Ensemble de modelos — usar disagreement entre modelos como proxy de incerteza
  • Real → Simulado alternado — voltar a observar o mundo real regularmente para corrigir deriva

🚨 O paradoxo da confiança

Um robô que confia demais no world model executa planos fantasiosos que falham no mundo real. Um robô que desconfia demais nunca age. O equilíbrio — saber quando imaginar e quando observar — é um problema aberto de calibração de incerteza.

📉
Compound Error
ε_t cresce com t; rollouts longos tornam-se não confiáveis
🎲
Uncertainty Estimation
ensemble disagreement ou modelo probabilístico como sinal de alerta
🔄
Reality Check
comparar previsão com observação real para detectar deriva do modelo

Resumo do Módulo

World Models como "imaginação" — representações internas que simulam f(s_t, a_t) → s_{t+1} para planejar sem interagir com o mundo real.
Modelos de vídeo como simuladores — Sora, UniSim, Genie2 mostram o potencial de substituir simuladores tradicionais com física aprendida.
Model-based RL é 100–1000× mais eficiente — DreamerV3 e TD-MPC2 treinam políticas em "sonho", reduzindo drasticamente interações reais necessárias.
Compound error é o inimigo — sistemas robustos limitam horizonte de rollout, estimam incerteza e voltam a observar o mundo real regularmente.

Próximo módulo

3.3 — Robótica Baseada em Dados: Open X-Embodiment e Datasets Massivos