MÓDULO 1.4

🗄️ Datasets: Open X-Embodiment e DROID

Os dados que alimentam VLAs — escala, diversidade e formato. De milhões de trajetórias robóticas ao pipeline RLDS que transforma coleta bruta em foundation models.

Tópicos

~35 min

Duração

Básico

Nível

Dados

Categoria

🌐 Open X-Embodiment: o dataset que mudou tudo

O Open X-Embodiment (OXE) é o maior esforço colaborativo de dados robóticos já realizado. Mais de 1 milhão de trajetórias coletadas por 21 instituições, cobrindo 22 embodiments diferentes — desde braços industriais até robôs bípedes. É a base que tornou VLAs generalistas possíveis.

Por que o OXE é um marco histórico

Embodiments

Franka, UR, Kuka, Spot, Hello Robot e mais — diversidade de corpos num só dataset.

Instituições

Google, Stanford, Berkeley, CMU e outros colaborando num dataset aberto.

1M+

Trajetórias

Cada trajetória é uma sequência de steps com observação, ação e metadados de linguagem.

✓ O que o OXE viabiliza

✓ Pré-treino cross-embodiment (RT-X, OpenVLA)
✓ Transfer learning entre robôs de famílias diferentes
✓ Pesquisa reprodutível com baseline comum
✓ Estudo de scaling laws para robótica

✗ Limitações reais do OXE

✗ Distribuição desigual: alguns robots têm 10x mais dados
✗ Ambientes laboratoriais controlados — pouco in-the-wild
✗ Qualidade variável entre contribuidores
✗ Anotações de linguagem inconsistentes entre instituições

Cross-embodiment learning

Treinar num dataset multi-robô permite que o modelo aprenda políticas transferíveis entre corpos diferentes.

RT-X

Família de modelos do Google treinados no OXE; demonstrou que dados colaborativos superam dados próprios isolados.

Trajetória robótica

Sequência episódica de (observação, ação, recompensa) que registra como um robô executou uma tarefa.

Data scaling law

Padrão empírico: mais trajetórias diversas → melhor generalização. Mas diversidade importa mais que volume bruto.

🏙️ DROID: diversidade in-the-wild

O DROID (Distributed Robot Interaction Dataset) traz algo que o OXE não tem: ambientes reais não controlados. Com 76 mil trajetórias em 564 cenas distintas — escritórios, cozinhas, banheiros — e um único hardware padronizado (braço Franka), o DROID é o maior dataset de manipulação in-the-wild disponível abertamente.

📊 Números do DROID

76k

Trajetórias

564

Cenas distintas

Tarefas

Hardware (Franka)

💡 Por que um único robô é uma vantagem

Usar apenas o Franka elimina a variância de hardware. O único fator de diversidade é o ambiente — exatamente o que queremos estudar. O modelo aprende a generalizar para novos espaços, não para novos corpos. É a abstração certa para pesquisa de robustez ambiental.

✓ DROID brilha em

✓ Robustez a variações de iluminação e layout
✓ Deploy em ambientes não laboratório
✓ Fine-tuning rápido para novos espaços

✗ Limitações do DROID

✗ Apenas 86 tarefas — baixa diversidade semântica
✗ Single-arm só — sem bimanual ou locomoção
✗ Não generaliza cross-embodiment sozinho

In-the-wild

Dados coletados em ambientes reais e não controlados, com objetos e cenários não preparados — oposto do setting de laboratório.

Distributed collection

Coleta coordenada entre múltiplos sites com o mesmo hardware e protocolo, garantindo consistência apesar da diversidade de ambientes.

🍳 BridgeData V2: manipulação em escala de cozinha

BridgeData V2 é o dataset que prova que coleta acessível e reprodutível funciona. Com mais de 60 mil trajetórias coletadas com um braço WidowX de baixo custo, focado em tarefas domésticas de cozinha, ele se tornou o benchmark padrão de fine-tuning e avaliação cruzada entre VLAs.

Como o BridgeData evoluiu:

BridgeData V1 (2022)

Primeiros ~7k trajetórias com WidowX. Mostra viabilidade de coleta de baixo custo para manipulação doméstica.

BridgeData V2 (2023)

Escala para 60k+ trajetórias, diversifica tarefas e ambientes de cozinha. Integrado ao OXE como sub-conjunto.

Hoje

Uso atual como benchmark

Padrão para avaliar transferência de VLAs, comparar políticas fine-tuned, e testar generalização de instruções de linguagem.

💡 O WidowX como prova de conceito

O WidowX custa ~$3.000 — uma fração de braços industriais. BridgeData prova que a barreira de coleta de dados não é o hardware caro, mas a consistência de protocolo e a variedade de tarefas. Isso democratizou a pesquisa em VLAs fora dos grandes labs.

Task diversity

Variedade de tarefas dentro de um mesmo ambiente fornece sinal rico de correspondência linguagem-ação.

Fine-tuning benchmark

BridgeData é o conjunto padrão para medir quão bem um VLA generalista se adapta a novos ambientes domésticos.

Low-cost collection

Hardware barato + protocolo consistente = coleta escalável. O custo do robô não determina a qualidade dos dados.

📦 Formato RLDS / TFDS

RLDS (Reinforcement Learning Datasets) é o padrão de fato para dados robóticos. Construído sobre TFDS (TensorFlow Datasets), organiza trajetórias como sequências de episódios com steps estruturados — permitindo streaming eficiente de datasets com milhões de trajetórias.

💡 Normalização de ação: o passo crítico

Cada dataset tem seu próprio espaço de ação: comandos de torque, velocidade de juntas, posição delta, coordenadas absolutas. Para combinar OXE + DROID + BridgeData num mesmo treino, é preciso normalizar todas as ações para o mesmo range. Esse passo único determina se o fine-tuning vai convergir ou divergir.

Episódio

Sequência completa de steps de uma tarefa: do estado inicial ao término (sucesso ou falha). Unidade básica de aprendizado por imitação.

Step

Um único timestep: observação atual → ação tomada → recompensa recebida → próximo estado. O granular do aprendizado.

TFDS streaming

Carrega dados sob demanda do disco sem precisar de tudo em RAM. Viabiliza treino com milhões de trajetórias em hardware limitado.

Chaves de observação

Padronizar nomes como image_primary, state, action é obrigatório para combinar datasets heterogêneos num único DataLoader.

🎮 Coleta via teleoperação

Quase todo dado de VLA vem de teleoperação humana: um operador controla o robô em tempo real enquanto as observações e ações são gravadas. A qualidade do operador, o setup de coleta e a densidade de demonstrações impactam diretamente a política aprendida.

Métodos de teleoperação comparados

Joystick / SpaceMouse

Setup mais simples. Operador controla via 6DoF mouse. Latência baixa, mas curva de aprendizado média. Usado no DROID e OXE.

Kinesthetic teaching

Operador guia fisicamente o braço do robô. Produz trajetórias naturais e suaves. Alto custo por demonstração. Bom para tarefas precisas.

Exoesqueleto / ALOHA

Operador usa um braço mestre que espelha o braço do robô. Intuitivo, captura nuances do movimento humano. Usado no ALOHA e ACT.

VR / mocap

Realidade virtual rastreia mãos do operador. Máxima naturalidade, mas requer hardware caro e configuração complexa.

✓ Boas práticas de coleta

✓ Demonstrações suaves, sem hesitação excessiva
✓ Variar posição inicial dos objetos entre episódios
✓ Incluir recuperações de falhas (recovery demos)
✓ Múltiplos operadores para cobrir estilos diferentes

✗ Erros comuns na coleta

✗ Hesitação repetida "contamina" a política com pauses
✗ Posição fixa → robô aprende posição, não tarefa
✗ Ignorar episódios de falha que poderiam ser informativos
✗ Operador único → enviesamento de estilo de movimento

💡 O efeito da hesitação na política

Se o operador hesita antes de agarrar um objeto, o modelo aprende que hesitação é parte da política. O robô vai pausar antes de cada grasping — mesmo quando não precisa. Dados de demonstração limpos e fluentes produzem políticas mais decisivas e robustas que dados abundantes mas com muita hesitação.

⚖️ Qualidade vs quantidade e scaling laws

Em NLP, mais dados = melhor modelo é quase sempre verdade. Em robótica, a relação é mais sutil: diversidade e qualidade superam volume bruto. Entender as scaling laws de dados robóticos é fundamental para não desperdiçar recursos de coleta.

📊 O que as scaling laws dizem sobre dados robóticos

→

Dobrar o volume de dados do mesmo ambiente traz ganhos marginais decrescentes depois de certo ponto.

→

Adicionar novos tipos de tarefa ou novos ambientes traz ganhos consistentes mesmo com poucas demos novas.

→

Dados de má qualidade (hesitação, colisões, trajetórias anômalas) prejudicam mais do que ajudam — filtrar é importante.

→

Modelos maiores exploram melhor datasets grandes — mas modelos pequenos podem saturar com apenas 10k demos de qualidade.

✓ Estratégia de dados eficiente

✓ Priorizar diversidade de tarefas sobre volume
✓ Filtrar episódios com anomalias (colisões, timeouts)
✓ Balancear datasets ao misturar fontes (OXE + DROID)
✓ Medir distribuição de ações antes de treinar

✗ Armadilhas de datasets grandes

✗ Assumir que mais demos sempre = política melhor
✗ Misturar datasets sem normalizar espaços de ação
✗ Ignorar desequilíbrio (90% agarrar, 10% soltar)
✗ Não verificar correlação entre linguagem e ação nos dados

💡 Emergent capabilities com escala

VLAs treinados no OXE completo mostram capacidades que não aparecem em subsets menores: composição de tarefas, generalização para objetos nunca vistos, seguir instruções ambíguas. Essas habilidades emergentes aparecem com escala — mas apenas se os dados de origem cobrirem diversidade semântica suficiente, não só volume.

Scaling laws em robótica

Relação empírica entre volume de dados, tamanho do modelo e desempenho. Em robótica, diversidade de tarefas escala melhor que volume puro.

Data balancing

Técnica de amostragem que garante que datasets menores (BridgeData) não sejam eclipsados por datasets maiores (OXE) durante o treino.

Emergent capabilities

Habilidades que surgem em modelos maiores treinados em mais dados sem serem explicitamente programadas — generalização zero-shot, composição de tarefas.

Filtragem de episódios

Processo de remover trajetórias anômalas, colisões e demonstrações de baixa qualidade antes do treino. Impacto desproporcional na qualidade da política final.

✅ Resumo do Módulo

✓

OXE e DROID são complementares — OXE traz escala cross-embodiment; DROID traz diversidade ambiental in-the-wild.

✓

RLDS é o formato padrão — episódios de steps estruturados + TFDS viabilizam treino eficiente em datasets de milhões de trajetórias.

✓

Teleoperação é a fonte principal — qualidade e fluidez das demonstrações humanas impactam diretamente a política aprendida.

✓

Diversidade > volume — scaling laws em robótica favorecem variedade de tarefas e ambientes sobre acumulação bruta de trajetórias.

Próximo módulo

1.5 — Hardware: Cobots, Humanoides e Plataformas

← Voltar para a Trilha Próximo módulo →