Conteúdo detalhado
Cada degrau resolve o gargalo do anterior: conhecimento web, abertura, ação contínua e bases cada vez maiores.
🟢 RT-1 (2022): transformer + FiLM
RT-1 (Robotics Transformer 1) provou a fórmula básica: imagens passam por um EfficientNet condicionado por FiLM (modulação por feature da instrução), TokenLearner comprime tokens, e um transformer prevê ações discretizadas em 256 bins por dimensão. Treinado em ~130k demos de 700+ tarefas com 13 robôs ao longo de 17 meses, atingiu ~97% de sucesso em tarefas vistas e generalização modesta. Foi a prova de conceito de que tokenizar ação funciona em escala.
📊 RT-1 em números
- ~130k demonstrações de teleoperação.
- 700+ instruções distintas, 13 robôs.
- 256 bins por dimensão de ação · 35M parâmetros.
FiLM
Modular visão pela instrução.
TokenLearner
Compressão de tokens visuais.
Action binning
256 bins por dimensão.
Prova de conceito
Tokenizar ação em escala.
🔵 RT-2 (2023): VLM co-fine-tuned
RT-2 partiu de VLMs web-scale (PaLI-X até 55B, PaLM-E) e os co-fine-tunou com dados de robô, tratando ações como strings de texto no mesmo vocabulário. O co-fine-tuning (misturar dados web e robô) preserva o conhecimento da internet, gerando generalização semântica emergente: escolher "o objeto que não pertence" ou "a bandeira do país X". RT-2 também demonstrou chain-of-thought robótico, raciocinando em texto antes de agir.
✓ Ganhos do RT-2
- ✓Generalização semântica para objetos/instruções inéditos.
- ✓Raciocínio multi-passo via chain-of-thought.
- ✓Reaproveita a escala do pré-treino web.
✗ Limitações
- ✗Fechado: pesos e código não liberados.
- ✗Inferência cara (até 55B), difícil em tempo real.
- ✗Ação discreta limita controle fino e dinâmico.
Action-as-text
Ações como strings tokenizadas.
Co-fine-tuning
Web + robô no mesmo treino.
CoT robótico
Raciocinar antes de agir.
Emergência semântica
Habilidades não demonstradas.
🟡 Octo & OpenVLA (2024): open-source
2024 democratizou o paradigma. Octo (Berkeley) é um transformer pequeno (27M-93M) com cabeça de difusão, treinado no Open X-Embodiment e fácil de fine-tunar. OpenVLA-7B (Stanford/Berkeley) usa um Prismatic VLM (Llama 2-7B + SigLIP/DINOv2) treinado em ~970k trajetórias do OXE, batendo RT-2-X com 7× menos parâmetros. O ponto-chave: ambos permitem fine-tuning eficiente via LoRA e quantização, rodando em uma GPU.
# Fine-tunar OpenVLA com LoRA (esquema)
from transformers import AutoModelForVision2Seq
model = AutoModelForVision2Seq.from_pretrained(
"openvla/openvla-7b", load_in_4bit=True) # quantização
model = get_peft_model(model, LoraConfig(r=32)) # adapta poucos params
# treina em demos do seu robô → política especializada
⚡ Dica prática
Para a maioria dos projetos reais, comece de OpenVLA + LoRA sobre suas próprias demos. É o caminho mais curto de "tenho um braço" a "tenho uma política", sem treinar 7B do zero.
Prismatic VLM
Base do OpenVLA.
OXE
Open X-Embodiment de treino.
LoRA
Fine-tuning de poucos params.
Octo
Transformer leve com difusão.
🌊 π0 / π0.5 (Physical Intelligence)
π0 rompeu com a tokenização discreta. Sobre uma base PaliGemma, acopla um action expert treinado por flow matching que gera ações contínuas em chunks a até 50Hz — ideal para tarefas dexterosas como dobrar roupa. π0.5 avança na generalização open-world, treinando em dados heterogêneos (incl. web) para tarefas longas em casas nunca vistas. É o estado da arte aberto em manipulação generalista de 2025.
Base VLM + action expert
PaliGemma raciocina; um expert dedicado gera a ação contínua.
Flow matching a 50Hz
Geração fluida de chunks de ação para tarefas dexterosas.
π0.5: open-world
Generaliza para casas e tarefas longas inéditas.
Flow matching
Ação contínua via ODE.
Action expert
Módulo dedicado de geração.
Open-world
Generalização a cenas inéditas.
Dexterity
Tarefas finas como dobrar roupa.
🧠 Qwen-VLA e a família 2025
2025 trouxe VLAs construídos sobre VLMs cada vez maiores e mais capazes — famílias baseadas em Qwen2-VL e similares. A aposta: quanto melhor o raciocínio multimodal da base, mais o VLA acerta em tarefas que exigem entender cena, contagem e relações espaciais. Surge a noção de embodied reasoning — o modelo verbaliza um plano e o aterra em ação. Modelos como Gemini Robotics-ER e variantes Qwen-VLA exemplificam essa convergência entre raciocínio forte e controle.
📊 Tendências de 2025-2026
- Bases maiores — VLMs de raciocínio (Qwen2-VL, Gemini) como núcleo.
- Embodied reasoning — planejar em linguagem antes de agir.
- Dual-system — separar raciocínio lento de controle rápido (ver Trilha 3).
💡 Por que escalar a base
A intuição é que o gargalo de tarefas complexas não é mais a cabeça de ação, e sim o entendimento da cena e do objetivo. Bases maiores carregam priors melhores — desde que haja dados de ação suficientes para aterrá-los.
Reasoning-VLA
Raciocínio + ação no mesmo modelo.
Base scaling
VLMs maiores como núcleo.
Embodied reasoning
Plano verbal aterrado em ação.
Gemini Robotics
VLA de fronteira do Google.
📊 Linha do tempo comparativa
Resumindo a linhagem em cinco dimensões — tamanho, dados, tokenização, licença e foco. A tendência é clara: bases maiores, ação cada vez mais contínua/expressiva, e uma divisão entre frontier fechado (RT-2, Gemini) e open prático (Octo, OpenVLA, π0).
Modelo Ano Params Ação Licença
RT-1 2022 35M bins (256) fechado
RT-2 2023 até 55B tokens/texto fechado
Octo 2024 27-93M difusão open
OpenVLA 2024 7B tokens (bins) open (Apache)
π0/π0.5 2024 ~3B flow matching open
Qwen-VLA 2025 XL contínua/flow varia
⚡ Dica prática
Ao escolher, pese licença + custo de inferência + tipo de ação. Tarefa lenta e demos limitadas? OpenVLA. Manipulação dexterosa e fluida? π0 com flow matching.
Benchmark
Comparar em LIBERO/SimplerEnv.
Licença
Open vs fechado define uso.
Params vs dados
Escala da base e do corpus.
Tipo de ação
Bins, difusão ou flow.
✅ Resumo do módulo
Próximo módulo
1.4 — Aprendizado por imitação: como esses modelos aprendem de demos e por que BC quebra.