MÓDULO 1.5

🤖 Hardware: Cobots, Humanoides e Plataformas

Dos braços colaborativos que dominam os datasets de pesquisa até os humanoides da fronteira — e as plataformas acessíveis que permitem praticar VLA de verdade. O hardware que você escolhe determina o espaço de ação, os sensores disponíveis e o compute necessário.

Tópicos

~45

Minutos

Básico

Nível

Hardware

Tipo

Diagrama ilustrativo — cobots, humanoides, plataformas e sensores todos alimentam uma política VLA.

🦾 Cobots industriais: Franka, UR, KUKA

Cobots (robôs colaborativos) são braços robóticos projetados para operar com segurança ao lado de humanos, sem gaiolas de proteção. O Franka Emika (7 DoF, sensível a torque), os Universal Robots (UR3/UR5/UR10) e o KUKA LBR iiwa dominam os laboratórios de pesquisa VLA e são a base da maioria dos grandes datasets.

🔑 Por que cobots dominam a pesquisa VLA

Franka7 DoF com torque sensing em cada junta. Evita singularidades e viabiliza controle de força. Domina o dataset DROID com mais de 76 mil episódios.
URUniversal Robots UR3/5/10 — simples, baratos, amplamente usados em automação industrial leve e em setups de coleta de dados.
KUKALBR iiwa com 7 eixos e sensibilidade de força/momento em todos os eixos. Referência em pesquisa de controle de impedância.

✓ Vantagens dos cobots em VLA

✓API aberta (ROS, libfranka) facilita integração com modelos
✓Sensores de torque viabilizam detecção de contato e controle fino
✓Datasets imensos com demonstrações prontas para fine-tuning

✗ Limitações a conhecer

✗Sem locomoção — fixos numa base, não se movem pelo ambiente
✗Workspace limitado ao alcance do braço (~800 mm de raio)
✗Custo entre $10k–$50k — inacessível sem suporte institucional

Conceitos-chave

Graus de liberdade (DoF)

Definem a mobilidade. 6 DoF para alcançar pose arbitrária; 7 DoF adicionam redundância e evitam singularidades.

Torque sensing

Sensor em cada junta mede força exercida — essencial para controle de impedância e segurança colaborativa.

libfranka / ROS

Interfaces de baixo nível que conectam o modelo de IA ao controlador em tempo real do braço.

🧍 Humanoides: Figure, Unitree, Optimus, 1X

Robôs humanoides bípedes projetados para operar em ambientes construídos para humanos. Figure 02, Unitree G1/H1, Tesla Optimus e os robôs da 1X combinam locomoção bípede, manipulação dexterous e, cada vez mais, controle por VLAs. São a fronteira mais ambiciosa e mais visível da robótica moderna.

Uni-
tree

Unitree G1/H1 — democratizando humanoides

O G1 custa ~$16k, derrubando a barreira de entrada para labs de pesquisa. Com 23 DoF e locomoção bípede estável, é hoje o humanoide mais acessível para quem quer experimentar controle por VLA.

Fig

Figure 02 — braços em fábricas da BMW

Já opera em ambiente industrial real. Usa VLA para interpretar instruções e manipular peças. Parceria com OpenAI para o módulo de linguagem. Referência de deploy VLA em produção.

Opt

Tesla Optimus — escala como alavanca

A Tesla planeja produção em massa, usando o mesmo pipeline de coleta de dados dos carros autônomos para treinar o Optimus. Scaling de dados de demonstração é a aposta central.

1X NEO — foco em whole-body fluency

A 1X apostou em robôs de forma mais orgânica (rodas + braços) antes de ir ao bípede. O NEO integra VLA de ponta a ponta com foco em movimentos fluidos e seguros perto de pessoas.

💡 Calibrando expectativas

Humanoides fazem vídeos impressionantes mas o whole-body control — coordenar locomoção e manipulação simultaneamente — ainda é muito difícil. A maioria dos VLAs atuais controla braços estacionários. Locomoção bípede em robôs reais costuma ser delegada a controladores separados.

✋ Grippers e end-effectors

O end-effector é a interface final do robô com o mundo físico — sua "mão". Vai de grippers paralelos simples (duas garras) a mãos dexterous antropomórficas com dezenas de DoF. A escolha do end-effector define diretamente o que o VLA precisa controlar na saída e quais tarefas são fisicamente viáveis.

✓ Gripper paralelo — simples e confiável

✓1 DoF (abrir/fechar) — action space mínimo no VLA
✓Robusto, barato, fácil de calibrar e substituir
✓Suficiente para pick-and-place, a tarefa mais comum em datasets

✗ Limitações do gripper simples

✗Não consegue manipular objetos deformáveis (tecido, fios)
✗Sem controle de orientação dos dedos — pose de grasping limitada
✗Tarefas dexterous (parafusos, teclados) exigem mãos complexas

📊 Espectro de end-effectors por complexidade

Paralelo (1 DoF)

Robotiq 2F-85. Padrão em Franka e UR. Action space: 1 número entre 0 e 1.

Multi-finger (5-15 DoF)

Robotiq 3-Finger, Allegro Hand. Permite orientação de objetos. Controle bem mais difícil.

Dexterous (20+ DoF)

Shadow Hand. Mão humana artificial. Altíssima complexidade — pesquisa de ponta.

💡 O end-effector define o action space

A saída do VLA é um vetor de ações. Um gripper paralelo adiciona 1 dimensão; uma mão dexterous adiciona 20+. Quanto mais DoF no end-effector, mais difícil o problema de aprendizado. Para começar, use gripper simples e conquiste tasks complexas com política inteligente.

👁️ Sensores: RGB-D, força/torque, tátil

Os sentidos do robô formam a entrada perceptual do VLA. Câmeras RGB-D fornecem cor e profundidade; sensores de força/torque no punho medem interação com objetos; sensores táteis capturam textura e contato na ponta dos dedos. A combinação dessas modalidades — e o que você deixa de fora — impacta diretamente o que a política consegue aprender.

Diagrama ilustrativo — a maioria dos VLAs atuais usa apenas RGB; força e tato são fronteiras de pesquisa.

Conceitos-chave por modalidade

RGB-D

Canal de profundidade (D) adiciona estimativa de pose 3D sem estrutura física extra. Intel RealSense D435 é o padrão em manipulação. Limitação: oclusão e superfícies reflexivas.

F/T sensing

Sensor no punho mede forças e momentos aplicados. Viabiliza controle de impedância (ceder à força) e detecção de contato — fundamental para inserção de peças e manipulação delicada.

Tátil

GelSight e DIGIT capturam imagens do contato na ponta dos dedos, revelando textura e slip. Ainda pouco integrados aos VLAs mainstream, mas área ativa de pesquisa multimodal.

🔓 Plataformas acessíveis: SO-100, Koch, ALOHA

Braços robóticos de baixo custo e código aberto criados para democratizar o aprendizado de VLA. O SO-100/SO-101 (projeto LeRobot da Hugging Face) custa algumas centenas de dólares; Koch e ALOHA usam configurações líder-seguidor para teleoperação acessível e coleta de dados. São o caminho realista para praticar VLA com hardware físico.

🔑 O stack SO-100 + LeRobot

SO-100Braço de 6 DoF impresso em 3D com servomotores acessíveis. Custo total <$500. O gêmeo líder permite teleoperação intuitiva para coletar demonstrações.
LeRobotBiblioteca da Hugging Face que une hardware, datasets e políticas treináveis (ACT, Diffusion Policy, SmolVLA) num único pipeline. Lançar uma política treinada em 1 dia é viável.
ALOHAConfiguração bimanual de baixo custo (dois braços) desenvolvida em Stanford. Usada para treinar ACT e Mobile ALOHA. Referência em manipulação dexterous com orçamento reduzido.

✓ Por que começar aqui

✓Hardware físico real — aprende problemas que simulação esconde
✓Coleta de dados própria — datasets personalizados para sua tarefa
✓Comunidade ativa no Discord do LeRobot com suporte e exemplos

✗ O que esperar (realismo)

✗Precisão mecânica inferior a cobots industriais — requer calibração frequente
✗Carga útil baixa (<500 g) — só para objetos leves de bancada
✗Sem sensores de torque — controle de força muito mais limitado

💡 A configuração líder-seguidor

No setup líder-seguidor, você move um braço gêmeo com a mão e o robô copia o movimento em tempo real, registrando cada frame como uma demonstração. Essa abordagem captura dados de qualidade sem habilidade de programação, tornando a coleta de 50–100 episódios factível num fim de semana.

⚡ Compute embarcado: Jetson e latência

O hardware de computação que executa o VLA, frequentemente embarcado no próprio robô. A linha NVIDIA Jetson (Orin Nano, AGX Orin) é o padrão para inferência on-device: GPU em formato compacto, baixo consumo, viável para deploy autônomo sem servidor externo. A escolha do compute determina se o VLA roda em tempo real ou se precisa de um datacenter remoto.

Comparativo: edge vs cloud

🟢 Edge (Jetson Orin)

• Latência <20 ms — compatível com 50 Hz de controle
• Autônomo — sem dependência de rede
• AGX Orin: 275 TOPS em 60W
• TensorRT + quantização INT8 necessários

☁️ Cloud (servidor remoto)

• Modelos maiores (7B+) sem restrição de memória
• Latência 50–200 ms via Wi-Fi — limite ~10 Hz
• Falha se a rede cair — risco em ambientes reais
• Bom para prototipagem, ruim para deploy final

✓ Técnicas de otimização para edge

✓Quantização INT8/INT4 — reduz memória e acelera inferência com pouca perda
✓TensorRT — compila o modelo para a GPU do Jetson com otimizações específicas
✓Modelos menores (SmolVLA, 450M) rodam confortavelmente no Orin

✗ Armadilhas comuns

✗Testar só em GPU de pesquisa e assumir que roda no Jetson — não roda
✗Ignorar latência de câmera — buffer de frames adiciona 30–80 ms extras
✗Modelo float32 no Jetson sem quantizar — VRAM insuficiente acima de 3B

Conceitos-chave

Período de controle

Frequência com que o robô lê sensores e envia novos comandos. 10 Hz = 100 ms máximos de pipeline end-to-end.

Quantização

Reduz precisão numérica dos pesos (float32 → INT8). Comprime o modelo 4×, acelera 2–4× no hardware dedicado.

Edge vs cloud

Opõe autonomia e latência garantida on-device contra maior capacidade com risco de delay e queda de rede.

✅ Resumo do Módulo

✓

Cobots dominam a pesquisa — Franka (7 DoF, torque sensing) é o hardware mais comum nos grandes datasets VLA, incluindo DROID.

✓

Humanoides são a fronteira ambiciosa — whole-body control é difícil; locomoção bípede costuma ser delegada a controladores separados do VLA.

✓

SO-100 + LeRobot é o caminho de entrada — hardware físico real por <$500, com coleta de dados líder-seguidor e políticas treináveis integradas.

✓

Latência determina o compute — Jetson Orin com TensorRT + INT8 para deploy autônomo; cloud para protótipos com <10 Hz de controle.

Próximo módulo

1.6 — Segurança e Normas: ISO 10218:2025

← Voltar para a Trilha Próximo módulo →