🤖 Hardware: Cobots, Humanoides e Plataformas
Dos braços colaborativos que dominam os datasets de pesquisa até os humanoides da fronteira — e as plataformas acessíveis que permitem praticar VLA de verdade. O hardware que você escolhe determina o espaço de ação, os sensores disponíveis e o compute necessário.
Diagrama ilustrativo — cobots, humanoides, plataformas e sensores todos alimentam uma política VLA.
🦾 Cobots industriais: Franka, UR, KUKA
Cobots (robôs colaborativos) são braços robóticos projetados para operar com segurança ao lado de humanos, sem gaiolas de proteção. O Franka Emika (7 DoF, sensível a torque), os Universal Robots (UR3/UR5/UR10) e o KUKA LBR iiwa dominam os laboratórios de pesquisa VLA e são a base da maioria dos grandes datasets.
🔑 Por que cobots dominam a pesquisa VLA
- Franka7 DoF com torque sensing em cada junta. Evita singularidades e viabiliza controle de força. Domina o dataset DROID com mais de 76 mil episódios.
- URUniversal Robots UR3/5/10 — simples, baratos, amplamente usados em automação industrial leve e em setups de coleta de dados.
- KUKALBR iiwa com 7 eixos e sensibilidade de força/momento em todos os eixos. Referência em pesquisa de controle de impedância.
✓ Vantagens dos cobots em VLA
- ✓API aberta (ROS, libfranka) facilita integração com modelos
- ✓Sensores de torque viabilizam detecção de contato e controle fino
- ✓Datasets imensos com demonstrações prontas para fine-tuning
✗ Limitações a conhecer
- ✗Sem locomoção — fixos numa base, não se movem pelo ambiente
- ✗Workspace limitado ao alcance do braço (~800 mm de raio)
- ✗Custo entre $10k–$50k — inacessível sem suporte institucional
Conceitos-chave
Definem a mobilidade. 6 DoF para alcançar pose arbitrária; 7 DoF adicionam redundância e evitam singularidades.
Sensor em cada junta mede força exercida — essencial para controle de impedância e segurança colaborativa.
Interfaces de baixo nível que conectam o modelo de IA ao controlador em tempo real do braço.
🧍 Humanoides: Figure, Unitree, Optimus, 1X
Robôs humanoides bípedes projetados para operar em ambientes construídos para humanos. Figure 02, Unitree G1/H1, Tesla Optimus e os robôs da 1X combinam locomoção bípede, manipulação dexterous e, cada vez mais, controle por VLAs. São a fronteira mais ambiciosa e mais visível da robótica moderna.
tree
Unitree G1/H1 — democratizando humanoides
O G1 custa ~$16k, derrubando a barreira de entrada para labs de pesquisa. Com 23 DoF e locomoção bípede estável, é hoje o humanoide mais acessível para quem quer experimentar controle por VLA.
Figure 02 — braços em fábricas da BMW
Já opera em ambiente industrial real. Usa VLA para interpretar instruções e manipular peças. Parceria com OpenAI para o módulo de linguagem. Referência de deploy VLA em produção.
Tesla Optimus — escala como alavanca
A Tesla planeja produção em massa, usando o mesmo pipeline de coleta de dados dos carros autônomos para treinar o Optimus. Scaling de dados de demonstração é a aposta central.
1X NEO — foco em whole-body fluency
A 1X apostou em robôs de forma mais orgânica (rodas + braços) antes de ir ao bípede. O NEO integra VLA de ponta a ponta com foco em movimentos fluidos e seguros perto de pessoas.
💡 Calibrando expectativas
Humanoides fazem vídeos impressionantes mas o whole-body control — coordenar locomoção e manipulação simultaneamente — ainda é muito difícil. A maioria dos VLAs atuais controla braços estacionários. Locomoção bípede em robôs reais costuma ser delegada a controladores separados.
✋ Grippers e end-effectors
O end-effector é a interface final do robô com o mundo físico — sua "mão". Vai de grippers paralelos simples (duas garras) a mãos dexterous antropomórficas com dezenas de DoF. A escolha do end-effector define diretamente o que o VLA precisa controlar na saída e quais tarefas são fisicamente viáveis.
✓ Gripper paralelo — simples e confiável
- ✓1 DoF (abrir/fechar) — action space mínimo no VLA
- ✓Robusto, barato, fácil de calibrar e substituir
- ✓Suficiente para pick-and-place, a tarefa mais comum em datasets
✗ Limitações do gripper simples
- ✗Não consegue manipular objetos deformáveis (tecido, fios)
- ✗Sem controle de orientação dos dedos — pose de grasping limitada
- ✗Tarefas dexterous (parafusos, teclados) exigem mãos complexas
📊 Espectro de end-effectors por complexidade
Robotiq 2F-85. Padrão em Franka e UR. Action space: 1 número entre 0 e 1.
Robotiq 3-Finger, Allegro Hand. Permite orientação de objetos. Controle bem mais difícil.
Shadow Hand. Mão humana artificial. Altíssima complexidade — pesquisa de ponta.
💡 O end-effector define o action space
A saída do VLA é um vetor de ações. Um gripper paralelo adiciona 1 dimensão; uma mão dexterous adiciona 20+. Quanto mais DoF no end-effector, mais difícil o problema de aprendizado. Para começar, use gripper simples e conquiste tasks complexas com política inteligente.
👁️ Sensores: RGB-D, força/torque, tátil
Os sentidos do robô formam a entrada perceptual do VLA. Câmeras RGB-D fornecem cor e profundidade; sensores de força/torque no punho medem interação com objetos; sensores táteis capturam textura e contato na ponta dos dedos. A combinação dessas modalidades — e o que você deixa de fora — impacta diretamente o que a política consegue aprender.
Diagrama ilustrativo — a maioria dos VLAs atuais usa apenas RGB; força e tato são fronteiras de pesquisa.
Conceitos-chave por modalidade
Canal de profundidade (D) adiciona estimativa de pose 3D sem estrutura física extra. Intel RealSense D435 é o padrão em manipulação. Limitação: oclusão e superfícies reflexivas.
Sensor no punho mede forças e momentos aplicados. Viabiliza controle de impedância (ceder à força) e detecção de contato — fundamental para inserção de peças e manipulação delicada.
GelSight e DIGIT capturam imagens do contato na ponta dos dedos, revelando textura e slip. Ainda pouco integrados aos VLAs mainstream, mas área ativa de pesquisa multimodal.
🔓 Plataformas acessíveis: SO-100, Koch, ALOHA
Braços robóticos de baixo custo e código aberto criados para democratizar o aprendizado de VLA. O SO-100/SO-101 (projeto LeRobot da Hugging Face) custa algumas centenas de dólares; Koch e ALOHA usam configurações líder-seguidor para teleoperação acessível e coleta de dados. São o caminho realista para praticar VLA com hardware físico.
🔑 O stack SO-100 + LeRobot
- SO-100Braço de 6 DoF impresso em 3D com servomotores acessíveis. Custo total <$500. O gêmeo líder permite teleoperação intuitiva para coletar demonstrações.
- LeRobotBiblioteca da Hugging Face que une hardware, datasets e políticas treináveis (ACT, Diffusion Policy, SmolVLA) num único pipeline. Lançar uma política treinada em 1 dia é viável.
- ALOHAConfiguração bimanual de baixo custo (dois braços) desenvolvida em Stanford. Usada para treinar ACT e Mobile ALOHA. Referência em manipulação dexterous com orçamento reduzido.
✓ Por que começar aqui
- ✓Hardware físico real — aprende problemas que simulação esconde
- ✓Coleta de dados própria — datasets personalizados para sua tarefa
- ✓Comunidade ativa no Discord do LeRobot com suporte e exemplos
✗ O que esperar (realismo)
- ✗Precisão mecânica inferior a cobots industriais — requer calibração frequente
- ✗Carga útil baixa (<500 g) — só para objetos leves de bancada
- ✗Sem sensores de torque — controle de força muito mais limitado
💡 A configuração líder-seguidor
No setup líder-seguidor, você move um braço gêmeo com a mão e o robô copia o movimento em tempo real, registrando cada frame como uma demonstração. Essa abordagem captura dados de qualidade sem habilidade de programação, tornando a coleta de 50–100 episódios factível num fim de semana.
⚡ Compute embarcado: Jetson e latência
O hardware de computação que executa o VLA, frequentemente embarcado no próprio robô. A linha NVIDIA Jetson (Orin Nano, AGX Orin) é o padrão para inferência on-device: GPU em formato compacto, baixo consumo, viável para deploy autônomo sem servidor externo. A escolha do compute determina se o VLA roda em tempo real ou se precisa de um datacenter remoto.
Comparativo: edge vs cloud
- • Latência <20 ms — compatível com 50 Hz de controle
- • Autônomo — sem dependência de rede
- • AGX Orin: 275 TOPS em 60W
- • TensorRT + quantização INT8 necessários
- • Modelos maiores (7B+) sem restrição de memória
- • Latência 50–200 ms via Wi-Fi — limite ~10 Hz
- • Falha se a rede cair — risco em ambientes reais
- • Bom para prototipagem, ruim para deploy final
✓ Técnicas de otimização para edge
- ✓Quantização INT8/INT4 — reduz memória e acelera inferência com pouca perda
- ✓TensorRT — compila o modelo para a GPU do Jetson com otimizações específicas
- ✓Modelos menores (SmolVLA, 450M) rodam confortavelmente no Orin
✗ Armadilhas comuns
- ✗Testar só em GPU de pesquisa e assumir que roda no Jetson — não roda
- ✗Ignorar latência de câmera — buffer de frames adiciona 30–80 ms extras
- ✗Modelo float32 no Jetson sem quantizar — VRAM insuficiente acima de 3B
Conceitos-chave
Frequência com que o robô lê sensores e envia novos comandos. 10 Hz = 100 ms máximos de pipeline end-to-end.
Reduz precisão numérica dos pesos (float32 → INT8). Comprime o modelo 4×, acelera 2–4× no hardware dedicado.
Opõe autonomia e latência garantida on-device contra maior capacidade com risco de delay e queda de rede.
✅ Resumo do Módulo
Próximo módulo
1.6 — Segurança e Normas: ISO 10218:2025