Módulo 1.1 — O Grande Cenário

Conteúdo detalhado

🧠 A pilha da cognição: percepção → linguagem → ação

Todo agente incorporado executa o mesmo ciclo: perceber o mundo via sensores, raciocinar sobre objetivo e contexto, e agir emitindo comandos motores. Um LLM puro vive inteiramente na camada do meio — opera sobre tokens, não sobre o mundo. Ele não tem grounding sensório (não sabe onde o copo está em coordenadas métricas) nem canal de ação (não emite torque). O salto VLA é fechar esse loop: anexar percepção visual na entrada e uma cabeça de ação na saída do mesmo backbone que já raciocina.

O loop fecha: ação muda o mundo, que volta como nova percepção. LLMs cobrem só a faixa central.

📊 Por que a ação é o elo faltante

0% — fração da ação física que um LLM-texto consegue executar sem um canal motor.
~50Hz — taxa de controle típica de manipulação fina; texto autoregressivo não chega nem perto sem chunking.
3D métrico — o espaço de ação real, não o espaço de tokens.

Grounding

Ancorar símbolos no mundo físico.

Loop sensório-motor

Ação altera a próxima percepção.

Embodiment

Um corpo com sensores e atuadores.

Canal de ação

Saída motora além do texto.

🤖 Embodied AI e o paradoxo de Moravec

O paradoxo de Moravec (anos 1980) observa uma inversão contraintuitiva: tarefas que humanos acham "fáceis" — pegar um objeto, manter equilíbrio, perceber profundidade — exigem enorme computação sensório-motora, enquanto raciocínio "difícil" como xadrez ou integrais é relativamente barato para máquinas. A razão é evolutiva: bilhões de anos refinaram nossa motricidade, tornando-a inconsciente; a matemática formal tem só milênios. Por isso um modelo bate humanos em provas de matemática mas ainda erra ao dobrar uma toalha.

✓ O que torna VLA viável hoje

✓Reaproveitar priors visuais e semânticos de modelos web-scale.
✓Datasets cross-embodiment dão cobertura sensório-motora.
✓Action chunking amortiza a latência do controle fino.

✗ Por que manipulação ainda quebra

✗Dinâmica de contato é descontínua e difícil de modelar.
✗Objetos deformáveis e atrito variável fogem do treino.
✗Erro de milímetros falha a tarefa; texto tolera ambiguidade.

⚡ Dica prática

Ao avaliar um VLA, não confunda fluência de linguagem com competência motora. Um modelo que descreve perfeitamente "como" pegar o copo pode ainda assim falhar na execução. Meça success rate físico, não a qualidade da narração.

Paradoxo de Moravec

Sensório-motor > raciocínio em custo.

Dinâmica de contato

Forças não suaves no toque.

Dexterity gap

Distância até a mão humana.

Embodied AI

Inteligência situada num corpo.

🌍 Foundation models para robótica

A robótica clássica treinava uma política por tarefa por robô — N×M modelos frágeis. A tese de foundation model inverte isso: treinar um modelo grande em muitas tarefas e muitos corpos e colher generalização. A aposta é que dados diversos induzem representações compartilhadas — assim como um LLM aprende sintaxe de uma língua e transfere para outra, um VLA aprende "pegar" num braço e transfere para outro.

# Paradigma antigo            # Paradigma foundation
politica_pegar_braçoA()       modelo_vla(obs, instrução)
politica_empurrar_braçoA()      → ação  # qualquer tarefa
politica_pegar_braçoB()         # qualquer corpo
...  # N×M políticas frágeis   # 1 modelo, generaliza

💡 A tese de generalização em três eixos

Um bom VLA generaliza em objetos (pegar algo nunca visto), posições/cenas (mesa nova, iluminação nova) e instruções (comando reformulado). RT-2 mostrou que o terceiro eixo — linguagem — herda diretamente do pré-treino web.

Generalist policy

Uma política para muitas tarefas.

Cross-embodiment

Transferir entre corpos distintos.

Transferência positiva

Mais dados ajudam, não atrapalham.

Eixos de generalização

Objeto · cena · instrução.

🚀 O salto RT-1 → RT-2

RT-1 (Google, 2022) provou que um transformer podia mapear câmera+instrução para ações tokenizadas, treinado em ~130k demos. Mas seu conhecimento parava nas demos. RT-2 (2023) fez o salto: pegou um VLM já pré-treinado na web (PaLI-X / PaLM-E) e o co-fine-tunou com dados de robô, representando ações como tokens de texto. O resultado foi generalização semântica emergente — o robô conseguia "pegar o animal extinto" (o dinossauro de brinquedo) por herdar conceitos da web, sem nunca ter visto essa instrução em demos.

RT-1 — tokenização de ação

Transformer + FiLM, ações em bins discretos. Sólido, mas sem conhecimento além do dataset.

RT-2 — VLM como base

Ações viram tokens de texto num VLM web-scale; co-fine-tuning preserva o conhecimento da internet.

Emergência semântica

Raciocínio multi-passo e referências a conceitos nunca demonstrados aparecem "de graça".

Web→action transfer

Conhecimento web vira ação.

Co-fine-tuning

Mistura dados web + robô no treino.

Action-as-text

Ações como tokens do vocabulário.

Emergent skills

Capacidades não demonstradas.

🏢 O ecossistema 2023-2026

O campo se organizou em torno de poucos polos. Google DeepMind deu o pontapé acadêmico (RT-1/RT-2/RT-X). Physical Intelligence entregou os generalistas π0/π0.5 com flow matching. NVIDIA empurra a stack de humanoides com GR00T e simulação. Figure (Helix) e Tesla (Optimus) industrializam humanoides.

Google DeepMind

RT-1, RT-2, RT-X, Gemini Robotics. Pioneiros do paradigma VLA.

Physical Intelligence

π0/π0.5, FAST. Generalistas de manipulação com flow matching.

NVIDIA

GR00T N1/N1.5, Isaac Sim/Lab, Cosmos. Foundation + simulação.

Figure / Tesla

Helix (System 1/2) e Optimus. Humanoides em escala industrial.

⚡ Dica prática

Acompanhe quem é open (OpenVLA, Octo, LeRobot, GR00T parcial) versus fechado (RT-2, Optimus). Para aprender e prototipar, o ecossistema open é onde você efetivamente roda código.

GR00T

Foundation de humanoides da NVIDIA.

π0

Generalista da Physical Intelligence.

Helix

VLA dual-system da Figure.

Optimus

Humanoide da Tesla, pilha FSD.

⏰ Por que agora: dados, compute, arquitetura

VLAs não surgiram por uma única invenção, mas pela convergência de três curvas. Dados: Open X-Embodiment uniu 60+ datasets, 22 embodiments e 1M+ trajetórias. Compute: GPUs tornaram viável treinar modelos de 7B+ em vídeo robótico. Arquitetura: transformers e modelos de difusão/flow deram a forma certa para ingerir multimodalidade e gerar ações expressivas.

📊 As três curvas convergindo

1M+ trajetórias — Open X-Embodiment agregou demonstrações antes dispersas.
22 embodiments — diversidade de corpos que viabiliza transferência.
7B parâmetros — escala de OpenVLA, treinável em clusters acessíveis.

💡 O momento Pareto

Nenhuma das três curvas sozinha bastaria. É a interseção — dados unificados + compute acessível + arquitetura adequada — que coloca robótica generalista na fronteira de 2026. É o mesmo padrão que destravou os LLMs em 2020, com defasagem de anos por causa do custo de dados físicos.

Open X-Embodiment

Corpus unificado de robótica.

Scaling

Compute viabiliza 7B+ em vídeo.

Transformers/difusão

Arquiteturas para multimodal+ação.

Momento Pareto

Interseção das três curvas.

✅ Resumo do módulo

✓

A pilha cognitiva — LLMs vivem na camada de linguagem; VLAs fecham o loop com percepção e ação.

✓

Paradoxo de Moravec — manipulação é o gargalo, não o raciocínio.

✓

Foundation models — um modelo, N tarefas e corpos, generalizando em objeto/cena/instrução.

✓

RT-1→RT-2 e o ecossistema — VLM co-fine-tuned trouxe emergência semântica; players e a convergência de dados/compute/arquitetura explicam o "por que agora".

Próximo módulo

1.2 — Anatomia VLA: vamos abrir o modelo e ver vision encoder, backbone e action head por dentro.

← Voltar à trilha Próximo módulo →