Conteúdo detalhado
🔹 Open X-Embodiment: 1M+ trajetórias, 22 embodiments
O Open X-Embodiment (OXE, 2023) é o "ImageNet da robótica": uma colaboração de ~20 laboratórios que unificou 60+ datasets em 1M+ trajetórias através de 22 corpos de robô diferentes — de braços de mesa a bases móveis. Foi o que tornou viável treinar VLAs generalistas como OpenVLA e Octo.
📊 OXE em números
- 1M+ — trajetórias de demonstração reais.
- 22 — embodiments (tipos de robô) distintos.
- 60+ — datasets de fonte agregados.
- 527 — habilidades/skills cobertas (aprox.).
# OXE é distribuído via TFDS; cada fonte é um dataset RLDS
import tensorflow_datasets as tfds
b = tfds.builder_from_directory("gs://gresearch/robotics/fractal20220817_data/0.1.0")
ds = b.as_dataset(split="train")
# misturar várias fontes com pesos -> treino generalista
sources = ["fractal20220817_data", "bridge", "kuka", "taco_play"] # subset OXE
⚡ Dica prática
OXE inteiro são dezenas de TB. Na prática você seleciona um mix de fontes relevantes (a "OXE magic soup" do OpenVLA) em vez de baixar tudo — o que importa é cobertura de embodiments e tarefas, não volume bruto.
OXE
Corpus unificado.
Embodiment
Tipo de robô.
Escala
1M+ trajetórias.
Generalista
Base de OpenVLA/Octo.
🔹 RT-X e o co-treino cross-embodiment
O resultado central dos papers RT-X (RT-1-X, RT-2-X) foi a transferência positiva: treinar um único modelo em vários corpos melhora o desempenho em cada um, comparado a treinar isolado. Dados de um braço Franka ajudam a generalização num WidowX — o conhecimento "vaza" entre embodiments.
✓ Fazer
- ✓Co-treinar em múltiplos embodiments para generalizar.
- ✓Misturar dados grandes (OXE) com poucas demos do seu robô.
- ✓Ponderar (sampling weights) datasets por qualidade/tamanho.
✗ Evitar
- ✗Assumir transferência positiva sem normalizar action spaces.
- ✗Deixar um dataset gigante dominar o sampling.
- ✗Ignorar o viés de embodiment (mais dados ≠ mais diverso).
⚡ Dica prática
Transferência positiva não é automática: depende de representação compartilhada de ação e de mixing weights bem escolhidos. É a base empírica de por que VLAs generalistas funcionam.
RT-X
Co-treino cross-embodiment.
Transfer +
Conhecimento vaza.
Mixing weights
Balancear datasets.
Co-fine-tune
OXE + suas demos.
🔹 DROID: 76k demos, 564 cenas, in-the-wild
DROID (Distributed Robot Interaction Dataset, 2024) ataca a diversidade: ~76k trajetórias coletadas em 564 cenas e 86 tarefas, em 13 instituições, com setup padronizado (Franka + RealSense). É in-the-wild — escritórios, cozinhas, laboratórios reais — não uma mesa controlada.
📊 Por que diversidade importa
- 76k — trajetórias em hardware padronizado (Franka).
- 564 — cenas distintas; generalização visual robusta.
- 86 — tarefas; cobertura ampla de habilidades.
- in-the-wild — ambientes reais reduzem overfit a uma mesa.
⚡ Dica prática
Hardware padronizado (Franka + Robotiq + RealSense) é o segredo do DROID: o action space é consistente entre as 564 cenas, então toda a variância vai para o que importa — cenário e tarefa, não calibração de robô.
DROID
76k demos diversas.
564 cenas
Variedade visual.
Padronizado
Franka + RealSense.
In-the-wild
Ambientes reais.
🔹 LIBERO: benchmark de aprendizado contínuo
LIBERO é menos um dataset de treino e mais um benchmark de transferência: mede como uma policy aprende novas tarefas sem esquecer as antigas (lifelong learning). As quatro suites isolam dimensões — Spatial, Object, Goal e Long (horizonte longo).
📊 O que cada suite isola
- Spatial — mesma tarefa, layout espacial diferente.
- Object — mesmo layout, objetos diferentes.
- Goal — mesma cena, instrução/objetivo diferente.
- Long — horizonte longo, composição de subtarefas.
# suites do LIBERO (cada uma isola uma variação)
libero_spatial # mesma tarefa, layout espacial diferente
libero_object # mesmo layout, objetos diferentes
libero_goal # mesma cena, objetivo/instrução diferente
libero_long # tarefas de horizonte longo (10 subtarefas)
# métrica: success rate por suite -> robustez de transferência
⚡ Dica prática
LIBERO é o benchmark de fato para reportar fine-tuning de VLA. Um número alto só em spatial e baixo em long revela que a policy não compõe habilidades — sinal de fraqueza em horizonte longo.
LIBERO
Lifelong learning.
4 suites
Spatial/Object/Goal/Long.
Transferência
Sem catastrophic forgetting.
Horizonte longo
Composição de skills.
🔹 Formato e normalização: RLDS/TFDS, action spaces heterogêneos
Juntar 60 datasets exige um formato comum: RLDS (Reinforcement Learning Datasets) sobre TFDS. O desafio é a harmonização: cada robô tem action space próprio (juntas vs Δpose, gripper binário vs contínuo, frequências diferentes). Sem normalizar para uma representação compartilhada, o co-treino não transfere.
import tensorflow_datasets as tfds
# carregar uma fonte do OXE (formato RLDS)
ds = tfds.load("fractal20220817_data", split="train") # RT-1 dataset
for ep in ds.take(1):
for step in ep["steps"]:
step["observation"]["image"] # frame
step["action"] # action space do robô-fonte
step["language_instruction"] # instrução textual
# harmonizar: normalizar ações p/ representação comum (ex: EEF Δpose 7D)
📊 Eixos de heterogeneidade
- Action space — juntas vs Δpose EEF vs velocidade.
- Gripper — binário, contínuo, força.
- Frequência — 3 Hz a 50+ Hz entre datasets.
- Câmeras — número, resolução, ponto de vista.
RLDS
Formato RL padrão.
TFDS
Pipeline de dataset.
Harmonização
Action space comum.
Normalização
Escalas comparáveis.
🔹 Curadoria e licenças: qualidade, viés, como contribuir
Mais dado não é melhor dado. Curadoria — filtrar demos falhas, balancear cobertura — frequentemente bate aumentar o volume bruto. Atenção ao viés de embodiment (datasets dominados por um robô) e às licenças de cada fonte. Contribuir é simples: padronize no formato e publique no Hub.
Filtrar qualidade
Remover demos falhas/ruidosas; sub-ótimas confundem behavior cloning.
Checar viés/licença
Balancear embodiments; respeitar termos de cada dataset-fonte.
Contribuir
Padronizar (LeRobotDataset/RLDS) e publicar no Hub com dataset card.
⚡ Dica prática
As suas demos do SO-101 (M2.2) podem entrar nesse ecossistema. Padronizadas e publicadas, viram combustível para o próximo VLA — e fecham o ciclo entre ferramentas e dado.
Curadoria
Qualidade > volume.
Viés
Embodiment desbalanceado.
Licença
Termos por fonte.
Contribuir
Padronizar + publicar.
✓ Fazer
- ✓Filtrar demos falhas antes de treinar.
- ✓Balancear embodiments para reduzir viés.
- ✓Publicar com dataset card e licença clara.
✗ Evitar
- ✗Assumir que mais volume bruto = melhor modelo.
- ✗Misturar demos sub-ótimas sem rotular qualidade.
- ✗Ignorar termos de licença das fontes agregadas.
✅ Resumo do módulo
Próxima trilha
Trilha 3 — Avançado e Estratégico: sim-to-real, humanoides, arquiteturas híbridas e o mercado de $111B. Você já tem as ferramentas; agora a fronteira.