Módulo 1.3 — Evolução dos Modelos

Conteúdo detalhado

Cada degrau resolve o gargalo do anterior: conhecimento web, abertura, ação contínua e bases cada vez maiores.

🟢 RT-1 (2022): transformer + FiLM

RT-1 (Robotics Transformer 1) provou a fórmula básica: imagens passam por um EfficientNet condicionado por FiLM (modulação por feature da instrução), TokenLearner comprime tokens, e um transformer prevê ações discretizadas em 256 bins por dimensão. Treinado em ~130k demos de 700+ tarefas com 13 robôs ao longo de 17 meses, atingiu ~97% de sucesso em tarefas vistas e generalização modesta. Foi a prova de conceito de que tokenizar ação funciona em escala.

📊 RT-1 em números

~130k demonstrações de teleoperação.
700+ instruções distintas, 13 robôs.
256 bins por dimensão de ação · 35M parâmetros.

FiLM

Modular visão pela instrução.

TokenLearner

Compressão de tokens visuais.

Action binning

256 bins por dimensão.

Prova de conceito

Tokenizar ação em escala.

🔵 RT-2 (2023): VLM co-fine-tuned

RT-2 partiu de VLMs web-scale (PaLI-X até 55B, PaLM-E) e os co-fine-tunou com dados de robô, tratando ações como strings de texto no mesmo vocabulário. O co-fine-tuning (misturar dados web e robô) preserva o conhecimento da internet, gerando generalização semântica emergente: escolher "o objeto que não pertence" ou "a bandeira do país X". RT-2 também demonstrou chain-of-thought robótico, raciocinando em texto antes de agir.

✓ Ganhos do RT-2

✓Generalização semântica para objetos/instruções inéditos.
✓Raciocínio multi-passo via chain-of-thought.
✓Reaproveita a escala do pré-treino web.

✗ Limitações

✗Fechado: pesos e código não liberados.
✗Inferência cara (até 55B), difícil em tempo real.
✗Ação discreta limita controle fino e dinâmico.

Action-as-text

Ações como strings tokenizadas.

Co-fine-tuning

Web + robô no mesmo treino.

CoT robótico

Raciocinar antes de agir.

Emergência semântica

Habilidades não demonstradas.

🟡 Octo & OpenVLA (2024): open-source

2024 democratizou o paradigma. Octo (Berkeley) é um transformer pequeno (27M-93M) com cabeça de difusão, treinado no Open X-Embodiment e fácil de fine-tunar. OpenVLA-7B (Stanford/Berkeley) usa um Prismatic VLM (Llama 2-7B + SigLIP/DINOv2) treinado em ~970k trajetórias do OXE, batendo RT-2-X com 7× menos parâmetros. O ponto-chave: ambos permitem fine-tuning eficiente via LoRA e quantização, rodando em uma GPU.

# Fine-tunar OpenVLA com LoRA (esquema)
from transformers import AutoModelForVision2Seq
model = AutoModelForVision2Seq.from_pretrained(
    "openvla/openvla-7b", load_in_4bit=True)   # quantização
model = get_peft_model(model, LoraConfig(r=32))  # adapta poucos params
# treina em demos do seu robô → política especializada

⚡ Dica prática

Para a maioria dos projetos reais, comece de OpenVLA + LoRA sobre suas próprias demos. É o caminho mais curto de "tenho um braço" a "tenho uma política", sem treinar 7B do zero.

Prismatic VLM

Base do OpenVLA.

OXE

Open X-Embodiment de treino.

LoRA

Fine-tuning de poucos params.

Octo

Transformer leve com difusão.

🌊 π0 / π0.5 (Physical Intelligence)

π0 rompeu com a tokenização discreta. Sobre uma base PaliGemma, acopla um action expert treinado por flow matching que gera ações contínuas em chunks a até 50Hz — ideal para tarefas dexterosas como dobrar roupa. π0.5 avança na generalização open-world, treinando em dados heterogêneos (incl. web) para tarefas longas em casas nunca vistas. É o estado da arte aberto em manipulação generalista de 2025.

Base VLM + action expert

PaliGemma raciocina; um expert dedicado gera a ação contínua.

Flow matching a 50Hz

Geração fluida de chunks de ação para tarefas dexterosas.

π0.5: open-world

Generaliza para casas e tarefas longas inéditas.

Flow matching

Ação contínua via ODE.

Action expert

Módulo dedicado de geração.

Open-world

Generalização a cenas inéditas.

Dexterity

Tarefas finas como dobrar roupa.

🧠 Qwen-VLA e a família 2025

2025 trouxe VLAs construídos sobre VLMs cada vez maiores e mais capazes — famílias baseadas em Qwen2-VL e similares. A aposta: quanto melhor o raciocínio multimodal da base, mais o VLA acerta em tarefas que exigem entender cena, contagem e relações espaciais. Surge a noção de embodied reasoning — o modelo verbaliza um plano e o aterra em ação. Modelos como Gemini Robotics-ER e variantes Qwen-VLA exemplificam essa convergência entre raciocínio forte e controle.

📊 Tendências de 2025-2026

Bases maiores — VLMs de raciocínio (Qwen2-VL, Gemini) como núcleo.
Embodied reasoning — planejar em linguagem antes de agir.
Dual-system — separar raciocínio lento de controle rápido (ver Trilha 3).

💡 Por que escalar a base

A intuição é que o gargalo de tarefas complexas não é mais a cabeça de ação, e sim o entendimento da cena e do objetivo. Bases maiores carregam priors melhores — desde que haja dados de ação suficientes para aterrá-los.

Reasoning-VLA

Raciocínio + ação no mesmo modelo.

Base scaling

VLMs maiores como núcleo.

Embodied reasoning

Plano verbal aterrado em ação.

Gemini Robotics

VLA de fronteira do Google.

📊 Linha do tempo comparativa

Resumindo a linhagem em cinco dimensões — tamanho, dados, tokenização, licença e foco. A tendência é clara: bases maiores, ação cada vez mais contínua/expressiva, e uma divisão entre frontier fechado (RT-2, Gemini) e open prático (Octo, OpenVLA, π0).

Modelo     Ano   Params   Ação           Licença
RT-1       2022  35M      bins (256)     fechado
RT-2       2023  até 55B  tokens/texto   fechado
Octo       2024  27-93M   difusão        open
OpenVLA    2024  7B       tokens (bins)  open (Apache)
π0/π0.5    2024  ~3B      flow matching  open
Qwen-VLA   2025  XL       contínua/flow  varia

⚡ Dica prática

Ao escolher, pese licença + custo de inferência + tipo de ação. Tarefa lenta e demos limitadas? OpenVLA. Manipulação dexterosa e fluida? π0 com flow matching.

Benchmark

Comparar em LIBERO/SimplerEnv.

Licença

Open vs fechado define uso.

Params vs dados

Escala da base e do corpus.

Tipo de ação

Bins, difusão ou flow.

✅ Resumo do módulo

✓

RT-1 — provou tokenizar ação em escala.

✓

RT-2 — VLM co-fine-tuned trouxe emergência semântica.

✓

Octo / OpenVLA — abertura + LoRA tornaram VLA acessível.

✓

π0 e 2025 — flow matching contínuo e bases gigantes na fronteira.

Próximo módulo

1.4 — Aprendizado por imitação: como esses modelos aprendem de demos e por que BC quebra.

← Voltar à trilha Próximo módulo →