← Voltar à Trilha 2 MÓDULO 2.5

🦿 Hardware: Braços, Sensores, Edge Computing

A policy precisa de um corpo. Aqui você compara braços (SO-101, Franka, UR, xArm), garras e tátil, câmeras RGB-D, compute de borda Jetson Orin/Thor e montagens de teleoperação — do kit de $100 à plataforma de pesquisa.

6
Tópicos
40
Minutos
Inter.
Nível
T+P
Tipo

Conteúdo detalhado

Anatomia do robô manipulador base (6 DOF) garra + tátil RGB-DRealSense/ZED JetsonOrin / Thor VLA localquantizado
1

🔹 Braços manipuladores: SO-101, Franka, UR, xArm

Braços diferem em três eixos: DOF (graus de liberdade), payload e repetibilidade. O SO-101 é o ponto de entrada (~$100, servos Feetech); Franka Panda é o padrão de pesquisa com 7 DOF e controle de torque/força; UR e xArm são cobots industriais.

📊 Comparativo rápido

  • SO-101 — ~$100, 6 DOF, ideal para aprender e coletar demos.
  • Franka Panda — 7 DOF, controle de força, queridinho da academia.
  • UR5e / UR10e — cobot industrial, certificação de segurança.
  • xArm 7 — bom custo-benefício de pesquisa, payload médio.
# controlar um Franka via libfranka / franka_ros2 (controle de torque)
ros2 launch franka_bringup franka.launch.py robot_ip:=172.16.0.2
# enviar setpoints de junta a partir da policy VLA -> /joint_trajectory
# repetibilidade típica: Franka ±0.1mm · SO-101 ~mm (servos de hobby)

⚡ Dica prática

Controle por torque/admittance (Franka) permite contato seguro; braços só por posição precisam de muito cuidado em inserção. Para começar com VLA, o SO-101 cobre 90% do aprendizado a 1% do custo.

DOF

Graus de liberdade.

Payload

Carga máxima.

Repetibilidade

Precisão de retorno.

Controle de força

Contato seguro.

2

🔹 Garras e mãos: paralela, sucção, multi-dedo, tátil

O end-effector define o que o robô consegue agarrar. Garra paralela é simples e robusta; sucção domina bin-picking de superfícies planas; mãos multi-dedo (Allegro, Shadow) dão destreza ao custo de complexidade. Sensores táteis como GelSight trazem feedback de contato que a câmera não vê.

📊 Escolha do end-effector por tarefa

  • Pick-and-place — garra paralela resolve.
  • Bin-picking de caixas/placas — sucção.
  • Manipulação fina / in-hand — multi-dedo + tátil.
  • Inserção (peg-in-hole) — força/admittance + GelSight.

✓ Fazer

  • Começar com garra paralela: cobre a maioria das tarefas.
  • Adicionar tátil para inserção/manipulação fina e in-hand.
  • Casar o end-effector com a tarefa, não o contrário.

✗ Evitar

  • Mão de 20 DOF para um simples pick-and-place.
  • Sucção em objetos porosos ou irregulares.
  • Ignorar o estado do gripper nas observações do VLA.

⚡ Dica prática

Tátil é a fronteira: políticas vision-tactile (ex: integrando GelSight ao VLA) resolvem inserção e manipulação de objetos translúcidos/escorregadios que a câmera sozinha não enxerga. Mas adicione tátil só quando a tarefa pedir — sensor extra é mais um eixo para o modelo aprender.

Paralela

Simples e robusta.

Sucção

Bin-picking plano.

Multi-dedo

Destreza, in-hand.

GelSight

Tátil de alta resolução.

3

🔹 Sensores: RGB-D, wrist cam, IMU, encoders

Visão é a entrada dominante do VLA. RealSense (D435/D455) e ZED dão RGB-D acessível; a wrist cam (no punho) resolve oclusão e melhora manipulação fina. Encoders de junta fecham a proprioceptção e a IMU ajuda em bases móveis/humanoides.

# RealSense via SDK / ROS2
ros2 launch realsense2_camera rs_launch.py \
  enable_depth:=true align_depth.enable:=true rgb_camera.color_profile:=640x480x30

# múltiplas câmeras: top + wrist viram chaves no LeRobotDataset
# observation.images.top / observation.images.wrist

📊 Papel de cada sensor

  • Câmera top — visão global da cena, contexto da tarefa.
  • Wrist cam — detalhe local, anti-oclusão na garra.
  • Encoders — estado de junta (parte do observation.state).
  • F/T sensor — força no punho para contato controlado.

RGB-D

Cor + profundidade.

Wrist cam

Anti-oclusão.

Encoder

Estado de junta.

IMU

Aceleração/orientação.

4

🔹 Compute de borda: Jetson Orin/Thor, throughput vs consumo

Rodar o VLA on-board elimina latência de rede. A linha Jetson domina: Orin (AGX/NX) entrega dezenas a centenas de TOPS dentro de um envelope térmico de 15–60 W; Thor (Blackwell, 2025) eleva a barra para foundation models de robótica no edge. A chave é casar quantização com o envelope de potência.

1

Escolher o módulo

Orin Nano/NX para policies pequenas; AGX Orin/Thor para VLA 3-7B no edge.

2

Otimizar

TensorRT, INT8/FP8, fusão de kernels; cortar latência sem perder muito success rate.

3

Gerir térmica/energia

Power mode (nvpmodel), jetson_clocks e dissipação definem o throughput sustentado.

# fixar modo de potência máximo e clocks no Jetson
sudo nvpmodel -m 0          # MAXN
sudo jetson_clocks
tegrastats                  # monitorar GPU/CPU/EMC e temperatura

# compilar a policy com TensorRT (INT8) para inferência on-board
trtexec --onnx=policy.onnx --int8 --saveEngine=policy.engine

Jetson Orin

Edge, 15–60 W.

Jetson Thor

Blackwell p/ FMs.

TensorRT

INT8/FP8 no edge.

Envelope térmico

Throughput sustentado.

5

🔹 Teleoperação: leader-follower, VR, luvas, ergonomia

Toda imitação começa com teleoperação. Leader-follower (ALOHA, SO-101) é o mais direto: um braço espelha o outro. VR e luvas capturam mãos hábeis e mapeiam para o robô. A ergonomia importa: coleta cansativa gera demos ruins, e dado ruim entra direto no modelo.

📊 Modalidades de teleop

  • Leader-follower — barato, intuitivo, casa o espaço de ação do robô.
  • VR (Quest/Vision Pro) — captura 6-DOF da mão, bom para humanoides.
  • Luvas — mãos multi-dedo, dados de destreza.
  • Espelhamento cinemático — retarget de pose humana ao robô.

⚡ Dica prática

Garanta que o espaço de ação da teleop seja idêntico ao que a policy comanda (Δpose vs juntas). Discrepância aí cria viés sistemático que o VLA aprende como ruído.

Leader-follower

Espelhamento direto.

VR

Captura 6-DOF.

Luvas

Destreza multi-dedo.

Ergonomia

Conforto = dado bom.

✓ Fazer

  • Casar o espaço de ação da teleop com o que a policy comanda.
  • Sessões curtas e confortáveis para manter qualidade.
  • Variar posição do objeto de propósito (cobertura).

✗ Evitar

  • Discrepância de espaço de ação (Δpose vs juntas).
  • Coleta exaustiva que degrada a qualidade das demos.
  • Gravar 200 episódios idênticos sem variação.
6

🔹 Orçamento e montagem: de $100 à plataforma de pesquisa

O custo de entrada despencou. Um setup completo de aprendizado VLA — SO-101 leader + follower + 2 câmeras + Jetson — fica em centenas de dólares, contra dezenas de milhares de uma célula Franka. A barreira hoje é menos dinheiro e mais método.

📊 Faixas de orçamento

  • $100–300 — SO-100/SO-101 single, câmera USB, treina em laptop/cloud.
  • $500–1k — leader+follower, 2 câmeras, Jetson Orin Nano.
  • $10k+ — ALOHA bimanual, RealSense múltiplas, workstation.
  • $50k+ — Franka/UR com F/T, célula de pesquisa completa.

⚡ Dica prática

Comece barato, treine na cloud, faça inferência no edge depois. A montagem do SO-101 + LeRobot é o caminho mais curto entre zero e uma policy rodando num braço real.

Entrada

SO-101 ~$100.

Intermediário

Leader+follower+Jetson.

Pesquisa

ALOHA / Franka.

Método > verba

Dado bom importa mais.

✅ Resumo do módulo

Braço por DOF/payload/repetibilidade — SO-101 entra, Franka pesquisa.
End-effector segue a tarefa — paralela, sucção, multi-dedo, tátil.
Sensores — RGB-D + wrist cam + encoders alimentam o VLA.
Jetson + quantização — inferência on-board casando potência e throughput.
Custo despencou — VLA acessível; método importa mais que verba.

Próximo módulo

2.6 — Datasets: Open X-Embodiment, DROID e LIBERO, o combustível que treina tudo o que vimos.