Início / Fundamentos / Módulo 1.1
MÓDULO 1.1

🌍 De LLMs a Robôs que Agem: O Grande Cenário

A evolução da IA: de modelos que só escrevem texto a agentes que veem o mundo e manipulam objetos físicos. Este módulo monta o mapa mental que sustenta todo o resto do curso.

6
Tópicos
~45
Minutos
Básico
Nível
Teoria
Tipo
Evolução: Texto → Visão → Ação Física LLM Texto → Texto VLM Imagem+Texto → Texto VLA Imagem+Texto → Ação 2020–2022 2023–2024 2024–2026 GPT-3, LLaMA GPT-4V, LLaVA RT-2, OpenVLA, π0

Diagrama ilustrativo — cada salto adiciona uma modalidade: primeiro visão na entrada, depois ação na saída.

1

🧬 Da linguagem à ação: LLM → VLM → VLA

A progressão de modelos que processam apenas texto (LLMs) para modelos que também veem (VLMs) e, finalmente, para modelos que geram ações motoras no mundo real (VLAs). Cada salto adiciona uma modalidade — entender essa cadeia é o alicerce de tudo que vem depois no curso.

🔑 As três siglas que você nunca mais vai esquecer

  • LLMLarge Language Model. Processa sequências de tokens textuais. Entra texto, sai texto. Ex.: GPT-3, LLaMA.
  • VLMVision-Language Model. Acrescenta um encoder visual para processar imagens junto do texto. Ex.: GPT-4V, LLaVA.
  • VLAVision-Language-Action. Estende o VLM com um action head que decodifica tokens em comandos motores contínuos — posição (x,y,z) e rotação do gripper.

💡 Por que isso importa

Sem clareza sobre o que muda entre GPT-4V e RT-2, fica impossível avaliar arquiteturas VLA ou decidir qual modelo usar num projeto real. A diferença não é "mais um recurso" — é uma modalidade nova de saída: ação.

2

🪢 O gap entre entender e agir

Existe um abismo entre compreensão semântica (saber o que é um copo) e competência motora (pegar o copo sem derrubá-lo). VLMs entendem cenas com precisão, mas não traduzem esse entendimento em ações físicas coordenadas. É esse gap que os VLAs existem para fechar.

✓ O que um VLM já resolve

  • Reconhecer que há um copo na mesa
  • Descrever a cena em linguagem natural
  • Responder "onde está o copo?"

✗ O que ainda falta (e o VLA ataca)

  • Calcular a trajetória do braço até o copo
  • Ajustar a força do gripper em tempo real
  • Corrigir o movimento quando o copo escorrega

Três conceitos para nomear o gap

Grounding

Ancorar conceitos abstratos em percepções sensoriais concretas.

Sim-to-real gap

Diferença entre desempenho em simulação e no mundo real.

Closed-loop control

Ajustar ações continuamente com base no feedback sensorial.

3

🏗️ Foundation models para robótica

O paradigma de foundation models (pré-treino em larga escala + fine-tuning) aplicado à robótica. Em vez de treinar do zero para cada tarefa e robô, parte-se de um modelo base treinado em dados massivos de múltiplos robôs e ambientes — e depois adapta. É por isso que VLAs se tornaram viáveis.

📊 Por que o pré-treino transfere tão bem

  • Transfer learning — reaproveita conhecimento de domínios ricos em dados (internet) para domínios escassos (robótica).
  • Pré-treino multimodal — combina visão e linguagem numa representação unificada.
  • Cross-embodiment — um único modelo controla robôs com morfologias diferentes.

💡 Dica prática

Representações ricas vindas da internet transferem surpreendentemente bem para controle motor — mesmo com poucos dados de demonstração. Na prática: você raramente treina um VLA do zero; você faz fine-tuning de um modelo base.

4

🖐️ Affordances: o que o robô PODE fazer

Conceito da psicologia ecológica de J.J. Gibson adaptado à robótica: affordances são as possibilidades de ação que um objeto ou ambiente oferece. Um copo "aforda" ser agarrado; uma porta, ser aberta. Detectar affordances é identificar quais ações são fisicamente viáveis na cena atual.

"pegue o copo" cena visual filtro de viabilidade ✓ agarrar copo ✗ atravessar mesa

Diagrama ilustrativo — affordance detection separa o que é possível do que é apenas pedido.

Conceitos-chave

  • Visual affordances — mapeiam regiões da imagem para ações possíveis (superfícies agarráveis, áreas navegáveis).
  • SayCan (Google) — combina um LLM que propõe ações com um value function que filtra as fisicamente viáveis.
  • TAMP — Task and Motion Planning integra planejamento simbólico com planejamento de movimento contínuo.
5

🤖 Embodied AI vs IA desencarnada

A distinção entre IA que vive só no digital (chatbots, geradores de imagem) e IA incorporada em corpos físicos que interagem com o mundo real. Trabalhar com VLAs exige mudar a mentalidade: um erro não é uma resposta errada num chat — é uma colisão, uma queda de objeto, um risco de segurança.

IA desencarnada

  • Erro = resposta errada, reversível
  • Sem física, sem latência sensorial
  • Pode "tentar de novo" sem custo

Embodied AI

  • Erro = colisão, queda, dano — irreversível
  • Física newtoniana, desgaste mecânico
  • Consequências reais a cada ação

Conceitos-chave

Embodiment hypothesis

Inteligência verdadeira requer um corpo que interaja com o ambiente.

Sensorimotor contingencies

Regularidades entre ações e mudanças sensoriais que o agente aprende.

Reality gap

Descompasso entre simulação e mundo real que dificulta o deploy.

6

📅 Timeline: de GPT a humanoides autônomos

Em apenas 3 anos saímos de "LLMs não controlam robôs" para "VLAs generalistas controlam múltiplos embodiments". Conhecer a cronologia ajuda a calibrar expectativas e projetar onde estaremos em 2027–2028.

2020

GPT-3 e a era dos LLMs

Modelos de linguagem em larga escala mostram capacidades emergentes. Nasce a ideia de "foundation model".

2023

RT-2 (Google DeepMind)

Primeiro VLA de destaque: transfere conhecimento da web para controle robótico real. A ação vira "mais um token".

2024

OpenVLA, π0 e a Physical Intelligence

Open-source democratiza o acesso. Surge a Physical Intelligence (π0). LeRobot e Octo abrem o ecossistema.

2026

Humanoides autônomos

Figure 02, GR00T e a explosão de startups de robótica. VLAs generalistas controlam múltiplos embodiments.

💡 Conceitos para acompanhar a curva

Scaling laws investigam se mais dados/parâmetros melhoram o desempenho motor como melhoram linguagem. Emergent capabilities são habilidades que surgem com escala sem serem explicitamente treinadas. O ecossistema open-source democratiza o que antes exigia labs com milhões em hardware.

Resumo do Módulo

LLM → VLM → VLA — cada salto adiciona uma modalidade; o VLA adiciona a ação na saída.
O gap entender→agir — entender uma cena não é o mesmo que executar um movimento; é o problema central do VLA.
Foundation models — pré-treino massivo + fine-tuning é o que tornou VLAs viáveis.
Affordances e embodiment — agir no mundo físico tem consequências reais e exige avaliar viabilidade.

Próximo módulo

1.2 — Anatomia de um VLA: Visão + Linguagem + Ação