Datasets: Open X-Embodiment, DROID, LIBERO

Conteúdo detalhado

🔹 Open X-Embodiment: 1M+ trajetórias, 22 embodiments

O Open X-Embodiment (OXE, 2023) é o "ImageNet da robótica": uma colaboração de ~20 laboratórios que unificou 60+ datasets em 1M+ trajetórias através de 22 corpos de robô diferentes — de braços de mesa a bases móveis. Foi o que tornou viável treinar VLAs generalistas como OpenVLA e Octo.

📊 OXE em números

1M+ — trajetórias de demonstração reais.
22 — embodiments (tipos de robô) distintos.
60+ — datasets de fonte agregados.
527 — habilidades/skills cobertas (aprox.).

# OXE é distribuído via TFDS; cada fonte é um dataset RLDS
import tensorflow_datasets as tfds
b = tfds.builder_from_directory("gs://gresearch/robotics/fractal20220817_data/0.1.0")
ds = b.as_dataset(split="train")
# misturar várias fontes com pesos -> treino generalista
sources = ["fractal20220817_data", "bridge", "kuka", "taco_play"]  # subset OXE

⚡ Dica prática

OXE inteiro são dezenas de TB. Na prática você seleciona um mix de fontes relevantes (a "OXE magic soup" do OpenVLA) em vez de baixar tudo — o que importa é cobertura de embodiments e tarefas, não volume bruto.

OXE

Corpus unificado.

Embodiment

Tipo de robô.

Escala

1M+ trajetórias.

Generalista

Base de OpenVLA/Octo.

🔹 RT-X e o co-treino cross-embodiment

O resultado central dos papers RT-X (RT-1-X, RT-2-X) foi a transferência positiva: treinar um único modelo em vários corpos melhora o desempenho em cada um, comparado a treinar isolado. Dados de um braço Franka ajudam a generalização num WidowX — o conhecimento "vaza" entre embodiments.

✓ Fazer

✓Co-treinar em múltiplos embodiments para generalizar.
✓Misturar dados grandes (OXE) com poucas demos do seu robô.
✓Ponderar (sampling weights) datasets por qualidade/tamanho.

✗ Evitar

✗Assumir transferência positiva sem normalizar action spaces.
✗Deixar um dataset gigante dominar o sampling.
✗Ignorar o viés de embodiment (mais dados ≠ mais diverso).

⚡ Dica prática

Transferência positiva não é automática: depende de representação compartilhada de ação e de mixing weights bem escolhidos. É a base empírica de por que VLAs generalistas funcionam.

RT-X

Co-treino cross-embodiment.

Transfer +

Conhecimento vaza.

Mixing weights

Balancear datasets.

Co-fine-tune

OXE + suas demos.

🔹 DROID: 76k demos, 564 cenas, in-the-wild

DROID (Distributed Robot Interaction Dataset, 2024) ataca a diversidade: ~76k trajetórias coletadas em 564 cenas e 86 tarefas, em 13 instituições, com setup padronizado (Franka + RealSense). É in-the-wild — escritórios, cozinhas, laboratórios reais — não uma mesa controlada.

📊 Por que diversidade importa

76k — trajetórias em hardware padronizado (Franka).
564 — cenas distintas; generalização visual robusta.
86 — tarefas; cobertura ampla de habilidades.
in-the-wild — ambientes reais reduzem overfit a uma mesa.

⚡ Dica prática

Hardware padronizado (Franka + Robotiq + RealSense) é o segredo do DROID: o action space é consistente entre as 564 cenas, então toda a variância vai para o que importa — cenário e tarefa, não calibração de robô.

DROID

76k demos diversas.

564 cenas

Variedade visual.

Padronizado

Franka + RealSense.

In-the-wild

Ambientes reais.

🔹 LIBERO: benchmark de aprendizado contínuo

LIBERO é menos um dataset de treino e mais um benchmark de transferência: mede como uma policy aprende novas tarefas sem esquecer as antigas (lifelong learning). As quatro suites isolam dimensões — Spatial, Object, Goal e Long (horizonte longo).

📊 O que cada suite isola

Spatial — mesma tarefa, layout espacial diferente.
Object — mesmo layout, objetos diferentes.
Goal — mesma cena, instrução/objetivo diferente.
Long — horizonte longo, composição de subtarefas.

# suites do LIBERO (cada uma isola uma variação)
libero_spatial   # mesma tarefa, layout espacial diferente
libero_object    # mesmo layout, objetos diferentes
libero_goal      # mesma cena, objetivo/instrução diferente
libero_long      # tarefas de horizonte longo (10 subtarefas)
# métrica: success rate por suite -> robustez de transferência

⚡ Dica prática

LIBERO é o benchmark de fato para reportar fine-tuning de VLA. Um número alto só em spatial e baixo em long revela que a policy não compõe habilidades — sinal de fraqueza em horizonte longo.

LIBERO

Lifelong learning.

4 suites

Spatial/Object/Goal/Long.

Transferência

Sem catastrophic forgetting.

Horizonte longo

Composição de skills.

🔹 Formato e normalização: RLDS/TFDS, action spaces heterogêneos

Juntar 60 datasets exige um formato comum: RLDS (Reinforcement Learning Datasets) sobre TFDS. O desafio é a harmonização: cada robô tem action space próprio (juntas vs Δpose, gripper binário vs contínuo, frequências diferentes). Sem normalizar para uma representação compartilhada, o co-treino não transfere.

import tensorflow_datasets as tfds
# carregar uma fonte do OXE (formato RLDS)
ds = tfds.load("fractal20220817_data", split="train")  # RT-1 dataset

for ep in ds.take(1):
    for step in ep["steps"]:
        step["observation"]["image"]      # frame
        step["action"]                    # action space do robô-fonte
        step["language_instruction"]      # instrução textual
# harmonizar: normalizar ações p/ representação comum (ex: EEF Δpose 7D)

📊 Eixos de heterogeneidade

Action space — juntas vs Δpose EEF vs velocidade.
Gripper — binário, contínuo, força.
Frequência — 3 Hz a 50+ Hz entre datasets.
Câmeras — número, resolução, ponto de vista.

RLDS

Formato RL padrão.

TFDS

Pipeline de dataset.

Harmonização

Action space comum.

Normalização

Escalas comparáveis.

🔹 Curadoria e licenças: qualidade, viés, como contribuir

Mais dado não é melhor dado. Curadoria — filtrar demos falhas, balancear cobertura — frequentemente bate aumentar o volume bruto. Atenção ao viés de embodiment (datasets dominados por um robô) e às licenças de cada fonte. Contribuir é simples: padronize no formato e publique no Hub.

Filtrar qualidade

Remover demos falhas/ruidosas; sub-ótimas confundem behavior cloning.

Checar viés/licença

Balancear embodiments; respeitar termos de cada dataset-fonte.

Contribuir

Padronizar (LeRobotDataset/RLDS) e publicar no Hub com dataset card.

⚡ Dica prática

As suas demos do SO-101 (M2.2) podem entrar nesse ecossistema. Padronizadas e publicadas, viram combustível para o próximo VLA — e fecham o ciclo entre ferramentas e dado.

Curadoria

Qualidade > volume.

Viés

Embodiment desbalanceado.

Licença

Termos por fonte.

Contribuir

Padronizar + publicar.

✓ Fazer

✓Filtrar demos falhas antes de treinar.
✓Balancear embodiments para reduzir viés.
✓Publicar com dataset card e licença clara.

✗ Evitar

✗Assumir que mais volume bruto = melhor modelo.
✗Misturar demos sub-ótimas sem rotular qualidade.
✗Ignorar termos de licença das fontes agregadas.

✅ Resumo do módulo

✓

Open X-Embodiment — 1M+ trajetórias, 22 corpos; base dos generalistas.

✓

RT-X — co-treino cross-embodiment dá transferência positiva.

✓

DROID e LIBERO — diversidade in-the-wild e benchmark de transferência.

✓

RLDS + harmonização — action spaces heterogêneos precisam de representação comum.

✓

Curadoria > volume — qualidade, viés e licença definem o valor do dado.

Próxima trilha

Trilha 3 — Avançado e Estratégico: sim-to-real, humanoides, arquiteturas híbridas e o mercado de $111B. Você já tem as ferramentas; agora a fronteira.

← Voltar à trilha Ir para Trilha 3 →