🗄️ Datasets: Open X-Embodiment e DROID
Os dados que alimentam VLAs — escala, diversidade e formato. De milhões de trajetórias robóticas ao pipeline RLDS que transforma coleta bruta em foundation models.
🌐 Open X-Embodiment: o dataset que mudou tudo
O Open X-Embodiment (OXE) é o maior esforço colaborativo de dados robóticos já realizado. Mais de 1 milhão de trajetórias coletadas por 21 instituições, cobrindo 22 embodiments diferentes — desde braços industriais até robôs bípedes. É a base que tornou VLAs generalistas possíveis.
Por que o OXE é um marco histórico
Franka, UR, Kuka, Spot, Hello Robot e mais — diversidade de corpos num só dataset.
Google, Stanford, Berkeley, CMU e outros colaborando num dataset aberto.
Cada trajetória é uma sequência de steps com observação, ação e metadados de linguagem.
✓ O que o OXE viabiliza
- ✓ Pré-treino cross-embodiment (RT-X, OpenVLA)
- ✓ Transfer learning entre robôs de famílias diferentes
- ✓ Pesquisa reprodutível com baseline comum
- ✓ Estudo de scaling laws para robótica
✗ Limitações reais do OXE
- ✗ Distribuição desigual: alguns robots têm 10x mais dados
- ✗ Ambientes laboratoriais controlados — pouco in-the-wild
- ✗ Qualidade variável entre contribuidores
- ✗ Anotações de linguagem inconsistentes entre instituições
Treinar num dataset multi-robô permite que o modelo aprenda políticas transferíveis entre corpos diferentes.
Família de modelos do Google treinados no OXE; demonstrou que dados colaborativos superam dados próprios isolados.
Sequência episódica de (observação, ação, recompensa) que registra como um robô executou uma tarefa.
Padrão empírico: mais trajetórias diversas → melhor generalização. Mas diversidade importa mais que volume bruto.
🏙️ DROID: diversidade in-the-wild
O DROID (Distributed Robot Interaction Dataset) traz algo que o OXE não tem: ambientes reais não controlados. Com 76 mil trajetórias em 564 cenas distintas — escritórios, cozinhas, banheiros — e um único hardware padronizado (braço Franka), o DROID é o maior dataset de manipulação in-the-wild disponível abertamente.
📊 Números do DROID
💡 Por que um único robô é uma vantagem
Usar apenas o Franka elimina a variância de hardware. O único fator de diversidade é o ambiente — exatamente o que queremos estudar. O modelo aprende a generalizar para novos espaços, não para novos corpos. É a abstração certa para pesquisa de robustez ambiental.
✓ DROID brilha em
- ✓ Robustez a variações de iluminação e layout
- ✓ Deploy em ambientes não laboratório
- ✓ Fine-tuning rápido para novos espaços
✗ Limitações do DROID
- ✗ Apenas 86 tarefas — baixa diversidade semântica
- ✗ Single-arm só — sem bimanual ou locomoção
- ✗ Não generaliza cross-embodiment sozinho
Dados coletados em ambientes reais e não controlados, com objetos e cenários não preparados — oposto do setting de laboratório.
Coleta coordenada entre múltiplos sites com o mesmo hardware e protocolo, garantindo consistência apesar da diversidade de ambientes.
🍳 BridgeData V2: manipulação em escala de cozinha
BridgeData V2 é o dataset que prova que coleta acessível e reprodutível funciona. Com mais de 60 mil trajetórias coletadas com um braço WidowX de baixo custo, focado em tarefas domésticas de cozinha, ele se tornou o benchmark padrão de fine-tuning e avaliação cruzada entre VLAs.
Como o BridgeData evoluiu:
BridgeData V1 (2022)
Primeiros ~7k trajetórias com WidowX. Mostra viabilidade de coleta de baixo custo para manipulação doméstica.
BridgeData V2 (2023)
Escala para 60k+ trajetórias, diversifica tarefas e ambientes de cozinha. Integrado ao OXE como sub-conjunto.
Uso atual como benchmark
Padrão para avaliar transferência de VLAs, comparar políticas fine-tuned, e testar generalização de instruções de linguagem.
💡 O WidowX como prova de conceito
O WidowX custa ~$3.000 — uma fração de braços industriais. BridgeData prova que a barreira de coleta de dados não é o hardware caro, mas a consistência de protocolo e a variedade de tarefas. Isso democratizou a pesquisa em VLAs fora dos grandes labs.
Variedade de tarefas dentro de um mesmo ambiente fornece sinal rico de correspondência linguagem-ação.
BridgeData é o conjunto padrão para medir quão bem um VLA generalista se adapta a novos ambientes domésticos.
Hardware barato + protocolo consistente = coleta escalável. O custo do robô não determina a qualidade dos dados.
📦 Formato RLDS / TFDS
RLDS (Reinforcement Learning Datasets) é o padrão de fato para dados robóticos. Construído sobre TFDS (TensorFlow Datasets), organiza trajetórias como sequências de episódios com steps estruturados — permitindo streaming eficiente de datasets com milhões de trajetórias.
💡 Normalização de ação: o passo crítico
Cada dataset tem seu próprio espaço de ação: comandos de torque, velocidade de juntas, posição delta, coordenadas absolutas. Para combinar OXE + DROID + BridgeData num mesmo treino, é preciso normalizar todas as ações para o mesmo range. Esse passo único determina se o fine-tuning vai convergir ou divergir.
Sequência completa de steps de uma tarefa: do estado inicial ao término (sucesso ou falha). Unidade básica de aprendizado por imitação.
Um único timestep: observação atual → ação tomada → recompensa recebida → próximo estado. O granular do aprendizado.
Carrega dados sob demanda do disco sem precisar de tudo em RAM. Viabiliza treino com milhões de trajetórias em hardware limitado.
Padronizar nomes como image_primary, state, action é obrigatório para combinar datasets heterogêneos num único DataLoader.
🎮 Coleta via teleoperação
Quase todo dado de VLA vem de teleoperação humana: um operador controla o robô em tempo real enquanto as observações e ações são gravadas. A qualidade do operador, o setup de coleta e a densidade de demonstrações impactam diretamente a política aprendida.
Métodos de teleoperação comparados
✓ Boas práticas de coleta
- ✓ Demonstrações suaves, sem hesitação excessiva
- ✓ Variar posição inicial dos objetos entre episódios
- ✓ Incluir recuperações de falhas (recovery demos)
- ✓ Múltiplos operadores para cobrir estilos diferentes
✗ Erros comuns na coleta
- ✗ Hesitação repetida "contamina" a política com pauses
- ✗ Posição fixa → robô aprende posição, não tarefa
- ✗ Ignorar episódios de falha que poderiam ser informativos
- ✗ Operador único → enviesamento de estilo de movimento
💡 O efeito da hesitação na política
Se o operador hesita antes de agarrar um objeto, o modelo aprende que hesitação é parte da política. O robô vai pausar antes de cada grasping — mesmo quando não precisa. Dados de demonstração limpos e fluentes produzem políticas mais decisivas e robustas que dados abundantes mas com muita hesitação.
⚖️ Qualidade vs quantidade e scaling laws
Em NLP, mais dados = melhor modelo é quase sempre verdade. Em robótica, a relação é mais sutil: diversidade e qualidade superam volume bruto. Entender as scaling laws de dados robóticos é fundamental para não desperdiçar recursos de coleta.
📊 O que as scaling laws dizem sobre dados robóticos
Dobrar o volume de dados do mesmo ambiente traz ganhos marginais decrescentes depois de certo ponto.
Adicionar novos tipos de tarefa ou novos ambientes traz ganhos consistentes mesmo com poucas demos novas.
Dados de má qualidade (hesitação, colisões, trajetórias anômalas) prejudicam mais do que ajudam — filtrar é importante.
Modelos maiores exploram melhor datasets grandes — mas modelos pequenos podem saturar com apenas 10k demos de qualidade.
✓ Estratégia de dados eficiente
- ✓ Priorizar diversidade de tarefas sobre volume
- ✓ Filtrar episódios com anomalias (colisões, timeouts)
- ✓ Balancear datasets ao misturar fontes (OXE + DROID)
- ✓ Medir distribuição de ações antes de treinar
✗ Armadilhas de datasets grandes
- ✗ Assumir que mais demos sempre = política melhor
- ✗ Misturar datasets sem normalizar espaços de ação
- ✗ Ignorar desequilíbrio (90% agarrar, 10% soltar)
- ✗ Não verificar correlação entre linguagem e ação nos dados
💡 Emergent capabilities com escala
VLAs treinados no OXE completo mostram capacidades que não aparecem em subsets menores: composição de tarefas, generalização para objetos nunca vistos, seguir instruções ambíguas. Essas habilidades emergentes aparecem com escala — mas apenas se os dados de origem cobrirem diversidade semântica suficiente, não só volume.
Relação empírica entre volume de dados, tamanho do modelo e desempenho. Em robótica, diversidade de tarefas escala melhor que volume puro.
Técnica de amostragem que garante que datasets menores (BridgeData) não sejam eclipsados por datasets maiores (OXE) durante o treino.
Habilidades que surgem em modelos maiores treinados em mais dados sem serem explicitamente programadas — generalização zero-shot, composição de tarefas.
Processo de remover trajetórias anômalas, colisões e demonstrações de baixa qualidade antes do treino. Impacto desproporcional na qualidade da política final.
✅ Resumo do Módulo
Próximo módulo
1.5 — Hardware: Cobots, Humanoides e Plataformas