Módulo 3.2 — World Models e Simulação Preditiva

1

🧠 O que são World Models

World Models são representações internas que um agente constrói do ambiente — uma espécie de "mapa mental do futuro". Em vez de agir por tentativa e erro no mundo real, o robô simula cenários mentalmente e escolhe a melhor trajetória antes de mover um único servo.

🔮 Definição Central

Um World Model é uma função f(s_t, a_t) → s_{t+1} que dado o estado atual e uma ação proposta, prediz o próximo estado. Encadeada k vezes, gera um rollout de k passos no futuro — o "sonho" do robô.

Latent Space Dynamics

O mundo é comprimido num espaço latente de baixa dimensão onde a dinâmica é mais fácil de aprender do que no espaço de pixels brutos.

Forward Model

Componente que prediz o próximo estado. Pode ser determinístico ou estocástico (modelando incerteza como distribuição sobre futuros possíveis).

JEPA

Joint Embedding Predictive Architecture (LeCun): prediz representações de estados futuros no espaço de features, sem reconstruir pixels — mais eficiente e robusto.

Planejamento por Rollout

Simular N trajetórias candidatas, avaliar cada uma com uma função de recompensa, executar apenas a ação da trajetória vencedora.

💡 Por que Yann LeCun aposta nisso

LeCun argumenta que World Models são a peça que falta para inteligência de nível humano: humanos passam a maior parte do tempo "imaginando", não agindo. A JEPA é a proposta dele para treinar esses modelos sem colapso representacional.

2

🎬 Modelos generativos de vídeo: Sora, UniSim, Genie2

Modelos como Sora (OpenAI), UniSim (Google) e Genie2 (DeepMind) geram vídeos realistas do futuro condicionados em ações. Na robótica, eles funcionam como world models visuais: dado o frame atual e uma ação proposta, geram os frames seguintes mostrando o resultado provável.

✓ Vantagens dos Video World Models

✓ Geram simulações fotorrealistas de ambientes nunca vistos
✓ Permitem treinar políticas sem simulador tradicional (Isaac Sim, MuJoCo)
✓ Escalam com dados de vídeo da internet — trilhões de frames disponíveis
✓ Capturam física implícita: objetos caem, líquidos fluem, sombras projetam

✗ Limitações atuais

✗ Não garantem consistência física rigorosa (objetos podem teletransportar)
✗ Geração é lenta demais para planejamento online em tempo real
✗ Erros de conteúdo se acumulam em rollouts longos (>2–3 segundos)
✗ Difícil de condicionar em ações no espaço de torques/joint angles

Comparativo: modelos generativos de vídeo

ModeloFocoStatus robótica

UniSim (Google) Simulador universal de ações Research · mais próximo de uso

Genie2 (DeepMind) Environment generator 3D Research · alta fidelidade visual

Sora (OpenAI) Vídeo de alta qualidade Comercial · física inconsistente

🎯 A aposta de longo prazo

Se video world models atingirem fidelidade física suficiente, substituem Isaac Sim e MuJoCo — simuladores tradicionais que exigem modelagem manual de física. O treinamento de robôs se torna tão escalável quanto o treinamento de LLMs com texto da web.

3

🔀 Previsão de consequências: "E se eu fizer X?"

O robô avalia múltiplas ações candidatas simulando suas consequências no world model. Para cada ação, gera uma trajetória de estados futuros e calcula uma função de recompensa sobre o resultado previsto. A ação com melhor outcome estimado é então executada no mundo real.

1

Action Sampling

Amostrar N ações candidatas do espaço de ações. Pode ser via CEM (Cross-Entropy Method), MPPI ou simplesmente ruído gaussiano sobre a ação atual.

2

Rollout Paralelo

Cada ação candidata é expandida k passos no World Model em paralelo na GPU. Produz N trajetórias de estados futuros simultaneamente.

3

Reward Prediction

Uma função de recompensa avalia cada trajetória. Pode ser uma rede neural separada, distância a um goal state, ou função de custo de engenharia.

4

Execução do Vencedor

A ação da trajetória com maior recompensa acumulada é executada. Depois, o ciclo recomeça com a nova observação — é o Model Predictive Control (MPC).

⚡ Por que isso importa

Este mecanismo de "look-ahead" é o que separa robôs reativos de robôs verdadeiramente inteligentes. Permite evitar ações irreversíveis — como derrubar um objeto frágil — ao prever a consequência antes de executar. O custo: latência de planejamento.

4

💭 Planejamento por imaginação (model-based RL)

Model-based reinforcement learning treina uma política usando experiências geradas pelo world model em vez de interações reais. Algoritmos como Dreamer e TD-MPC aprendem no "sonho" do modelo, depois transferem o comportamento para o robô físico — reduzindo custo e risco do treinamento em ordens de magnitude.

✓ Algoritmos consolidados

✓DreamerV3 — aprende em imaginação, funciona em 150+ tarefas sem ajuste
✓TD-MPC2 — combina MPC com TD learning; estado da arte em robótica contínua
✓MBPO — policy optimization com rollouts curtos no modelo (Janner et al.)

✗ Armadilhas comuns

✗Rollouts longos demais — erros do modelo se acumulam (model bias)
✗Política otimiza o modelo, não o mundo real (exploitation do model error)
✗Modelo muito simples — não captura multimodalidade do ambiente real

5

🏭 Treinamento com dados sintéticos do world model

Além de planejamento online, world models podem gerar datasets sintéticos massivos para pré-treinar políticas. O modelo gera milhões de trajetórias plausíveis com variações de objetos, iluminação e configurações — dados impossíveis de coletar manualmente em escala.

📊 O Data Bottleneck da Robótica

LLMs escalaram porque texto da internet forneceu trilhões de tokens. Robótica não tem esse luxo: dados de trajetória real são caros (~$10–100/hora de coleta) e escassos. World models são a proposta para fechar esse gap.

~10³

horas de dados reais disponíveis (Open X)

∞

trajetórias sintéticas possíveis via world model

10–100×

redução de custo estimada com síntese

Domain Randomization

Gerar dados com iluminação, texturas e posições aleatorizadas — o world model faz isso com zero custo marginal vs. mover objetos reais.

Fidelidade vs Diversidade

Trade-off fundamental: dados mais fiéis à física real são mais úteis, mas limitar a fidelidade permite maior diversidade de cenários gerados.

Scaling Laws Robóticos

Pesquisadores investigam se performance de políticas robóticas escala previsivamente com volume de dados sintéticos — análogo à lei de escala dos LLMs.

Data Augmentation Implícita

World model como augmentador: gera variações de trajetórias reais com perturbações de estado — enriquece o dataset sem coleta adicional.

🔑 A aposta chave

Se world models se tornarem simuladores de física confiáveis, o "data bottleneck" da robótica deixa de existir. Empresas como 1X Technologies e Physical Intelligence já usam essa abordagem para escalar coleta de dados de forma sintética.

6

⚠️ Limitações: quando o modelo erra a previsão

World models não são perfeitos: erros de previsão se acumulam ao longo do horizonte temporal (compound error), objetos deformáveis são difíceis de modelar, e interações multi-corpo complexas frequentemente divergem da realidade. Confiar cegamente num world model é tão perigoso quanto não ter um.

✗ Modos de falha do World Model

✗Compound Error — pequenos erros por passo se somam: após 50 passos, o estado previsto pode ser completamente irreal
✗Objetos deformáveis — tecido, líquidos, massa mole: física intratável para redes neurais atuais
✗Interações novas — out-of-distribution: o modelo extrapola mal para situações não vistas no treino
✗Contatos precisos — encaixar uma peça, apertar parafuso: física de contato de alta precisão é crítica

✓ Estratégias de mitigação

✓Horizonte curto — limitar rollouts a 5–15 passos reduz acúmulo de erro
✓Uncertainty estimation — medir incerteza do modelo e parar de imaginar quando alta
✓Ensemble de modelos — usar disagreement entre modelos como proxy de incerteza
✓Real → Simulado alternado — voltar a observar o mundo real regularmente para corrigir deriva

🚨 O paradoxo da confiança

Um robô que confia demais no world model executa planos fantasiosos que falham no mundo real. Um robô que desconfia demais nunca age. O equilíbrio — saber quando imaginar e quando observar — é um problema aberto de calibração de incerteza.

📉

Compound Error

ε_t cresce com t; rollouts longos tornam-se não confiáveis

🎲

Uncertainty Estimation

ensemble disagreement ou modelo probabilístico como sinal de alerta

🔄

Reality Check

comparar previsão com observação real para detectar deriva do modelo

✅ Resumo do Módulo

✓

World Models como "imaginação" — representações internas que simulam f(s_t, a_t) → s_{t+1} para planejar sem interagir com o mundo real.

✓

Modelos de vídeo como simuladores — Sora, UniSim, Genie2 mostram o potencial de substituir simuladores tradicionais com física aprendida.

✓

Model-based RL é 100–1000× mais eficiente — DreamerV3 e TD-MPC2 treinam políticas em "sonho", reduzindo drasticamente interações reais necessárias.

✓

Compound error é o inimigo — sistemas robustos limitam horizonte de rollout, estimam incerteza e voltam a observar o mundo real regularmente.

Próximo módulo

3.3 — Robótica Baseada em Dados: Open X-Embodiment e Datasets Massivos

← Voltar para a Trilha Próximo módulo →