🌐 World Models e Simulação Preditiva
Robôs que imaginam o futuro antes de agir: modelos generativos como motor de previsão. Da JEPA ao Dreamer — aprenda como agentes simulam consequências na mente antes de tocarem o mundo real.
Loop de simulação preditiva: o robô imagina múltiplos rollouts no World Model e executa apenas a ação com maior recompensa estimada.
🧠 O que são World Models
World Models são representações internas que um agente constrói do ambiente — uma espécie de "mapa mental do futuro". Em vez de agir por tentativa e erro no mundo real, o robô simula cenários mentalmente e escolhe a melhor trajetória antes de mover um único servo.
🔮 Definição Central
Um World Model é uma função f(s_t, a_t) → s_{t+1} que dado o estado atual e uma ação proposta, prediz o próximo estado. Encadeada k vezes, gera um rollout de k passos no futuro — o "sonho" do robô.
O mundo é comprimido num espaço latente de baixa dimensão onde a dinâmica é mais fácil de aprender do que no espaço de pixels brutos.
Componente que prediz o próximo estado. Pode ser determinístico ou estocástico (modelando incerteza como distribuição sobre futuros possíveis).
Joint Embedding Predictive Architecture (LeCun): prediz representações de estados futuros no espaço de features, sem reconstruir pixels — mais eficiente e robusto.
Simular N trajetórias candidatas, avaliar cada uma com uma função de recompensa, executar apenas a ação da trajetória vencedora.
💡 Por que Yann LeCun aposta nisso
LeCun argumenta que World Models são a peça que falta para inteligência de nível humano: humanos passam a maior parte do tempo "imaginando", não agindo. A JEPA é a proposta dele para treinar esses modelos sem colapso representacional.
🎬 Modelos generativos de vídeo: Sora, UniSim, Genie2
Modelos como Sora (OpenAI), UniSim (Google) e Genie2 (DeepMind) geram vídeos realistas do futuro condicionados em ações. Na robótica, eles funcionam como world models visuais: dado o frame atual e uma ação proposta, geram os frames seguintes mostrando o resultado provável.
✓ Vantagens dos Video World Models
- ✓ Geram simulações fotorrealistas de ambientes nunca vistos
- ✓ Permitem treinar políticas sem simulador tradicional (Isaac Sim, MuJoCo)
- ✓ Escalam com dados de vídeo da internet — trilhões de frames disponíveis
- ✓ Capturam física implícita: objetos caem, líquidos fluem, sombras projetam
✗ Limitações atuais
- ✗ Não garantem consistência física rigorosa (objetos podem teletransportar)
- ✗ Geração é lenta demais para planejamento online em tempo real
- ✗ Erros de conteúdo se acumulam em rollouts longos (>2–3 segundos)
- ✗ Difícil de condicionar em ações no espaço de torques/joint angles
🎯 A aposta de longo prazo
Se video world models atingirem fidelidade física suficiente, substituem Isaac Sim e MuJoCo — simuladores tradicionais que exigem modelagem manual de física. O treinamento de robôs se torna tão escalável quanto o treinamento de LLMs com texto da web.
🔀 Previsão de consequências: "E se eu fizer X?"
O robô avalia múltiplas ações candidatas simulando suas consequências no world model. Para cada ação, gera uma trajetória de estados futuros e calcula uma função de recompensa sobre o resultado previsto. A ação com melhor outcome estimado é então executada no mundo real.
Action Sampling
Amostrar N ações candidatas do espaço de ações. Pode ser via CEM (Cross-Entropy Method), MPPI ou simplesmente ruído gaussiano sobre a ação atual.
Rollout Paralelo
Cada ação candidata é expandida k passos no World Model em paralelo na GPU. Produz N trajetórias de estados futuros simultaneamente.
Reward Prediction
Uma função de recompensa avalia cada trajetória. Pode ser uma rede neural separada, distância a um goal state, ou função de custo de engenharia.
Execução do Vencedor
A ação da trajetória com maior recompensa acumulada é executada. Depois, o ciclo recomeça com a nova observação — é o Model Predictive Control (MPC).
⚡ Por que isso importa
Este mecanismo de "look-ahead" é o que separa robôs reativos de robôs verdadeiramente inteligentes. Permite evitar ações irreversíveis — como derrubar um objeto frágil — ao prever a consequência antes de executar. O custo: latência de planejamento.
💭 Planejamento por imaginação (model-based RL)
Model-based reinforcement learning treina uma política usando experiências geradas pelo world model em vez de interações reais. Algoritmos como Dreamer e TD-MPC aprendem no "sonho" do modelo, depois transferem o comportamento para o robô físico — reduzindo custo e risco do treinamento em ordens de magnitude.
✓ Algoritmos consolidados
- ✓DreamerV3 — aprende em imaginação, funciona em 150+ tarefas sem ajuste
- ✓TD-MPC2 — combina MPC com TD learning; estado da arte em robótica contínua
- ✓MBPO — policy optimization com rollouts curtos no modelo (Janner et al.)
✗ Armadilhas comuns
- ✗Rollouts longos demais — erros do modelo se acumulam (model bias)
- ✗Política otimiza o modelo, não o mundo real (exploitation do model error)
- ✗Modelo muito simples — não captura multimodalidade do ambiente real
🏭 Treinamento com dados sintéticos do world model
Além de planejamento online, world models podem gerar datasets sintéticos massivos para pré-treinar políticas. O modelo gera milhões de trajetórias plausíveis com variações de objetos, iluminação e configurações — dados impossíveis de coletar manualmente em escala.
📊 O Data Bottleneck da Robótica
LLMs escalaram porque texto da internet forneceu trilhões de tokens. Robótica não tem esse luxo: dados de trajetória real são caros (~$10–100/hora de coleta) e escassos. World models são a proposta para fechar esse gap.
Gerar dados com iluminação, texturas e posições aleatorizadas — o world model faz isso com zero custo marginal vs. mover objetos reais.
Trade-off fundamental: dados mais fiéis à física real são mais úteis, mas limitar a fidelidade permite maior diversidade de cenários gerados.
Pesquisadores investigam se performance de políticas robóticas escala previsivamente com volume de dados sintéticos — análogo à lei de escala dos LLMs.
World model como augmentador: gera variações de trajetórias reais com perturbações de estado — enriquece o dataset sem coleta adicional.
🔑 A aposta chave
Se world models se tornarem simuladores de física confiáveis, o "data bottleneck" da robótica deixa de existir. Empresas como 1X Technologies e Physical Intelligence já usam essa abordagem para escalar coleta de dados de forma sintética.
⚠️ Limitações: quando o modelo erra a previsão
World models não são perfeitos: erros de previsão se acumulam ao longo do horizonte temporal (compound error), objetos deformáveis são difíceis de modelar, e interações multi-corpo complexas frequentemente divergem da realidade. Confiar cegamente num world model é tão perigoso quanto não ter um.
✗ Modos de falha do World Model
- ✗Compound Error — pequenos erros por passo se somam: após 50 passos, o estado previsto pode ser completamente irreal
- ✗Objetos deformáveis — tecido, líquidos, massa mole: física intratável para redes neurais atuais
- ✗Interações novas — out-of-distribution: o modelo extrapola mal para situações não vistas no treino
- ✗Contatos precisos — encaixar uma peça, apertar parafuso: física de contato de alta precisão é crítica
✓ Estratégias de mitigação
- ✓Horizonte curto — limitar rollouts a 5–15 passos reduz acúmulo de erro
- ✓Uncertainty estimation — medir incerteza do modelo e parar de imaginar quando alta
- ✓Ensemble de modelos — usar disagreement entre modelos como proxy de incerteza
- ✓Real → Simulado alternado — voltar a observar o mundo real regularmente para corrigir deriva
🚨 O paradoxo da confiança
Um robô que confia demais no world model executa planos fantasiosos que falham no mundo real. Um robô que desconfia demais nunca age. O equilíbrio — saber quando imaginar e quando observar — é um problema aberto de calibração de incerteza.
✅ Resumo do Módulo
Próximo módulo
3.3 — Robótica Baseada em Dados: Open X-Embodiment e Datasets Massivos