Hardware: Braços, Sensores, Edge Computing

Conteúdo detalhado

🔹 Braços manipuladores: SO-101, Franka, UR, xArm

Braços diferem em três eixos: DOF (graus de liberdade), payload e repetibilidade. O SO-101 é o ponto de entrada (~$100, servos Feetech); Franka Panda é o padrão de pesquisa com 7 DOF e controle de torque/força; UR e xArm são cobots industriais.

📊 Comparativo rápido

SO-101 — ~$100, 6 DOF, ideal para aprender e coletar demos.
Franka Panda — 7 DOF, controle de força, queridinho da academia.
UR5e / UR10e — cobot industrial, certificação de segurança.
xArm 7 — bom custo-benefício de pesquisa, payload médio.

# controlar um Franka via libfranka / franka_ros2 (controle de torque)
ros2 launch franka_bringup franka.launch.py robot_ip:=172.16.0.2
# enviar setpoints de junta a partir da policy VLA -> /joint_trajectory
# repetibilidade típica: Franka ±0.1mm · SO-101 ~mm (servos de hobby)

⚡ Dica prática

Controle por torque/admittance (Franka) permite contato seguro; braços só por posição precisam de muito cuidado em inserção. Para começar com VLA, o SO-101 cobre 90% do aprendizado a 1% do custo.

DOF

Graus de liberdade.

Payload

Carga máxima.

Repetibilidade

Precisão de retorno.

Controle de força

Contato seguro.

🔹 Garras e mãos: paralela, sucção, multi-dedo, tátil

O end-effector define o que o robô consegue agarrar. Garra paralela é simples e robusta; sucção domina bin-picking de superfícies planas; mãos multi-dedo (Allegro, Shadow) dão destreza ao custo de complexidade. Sensores táteis como GelSight trazem feedback de contato que a câmera não vê.

📊 Escolha do end-effector por tarefa

Pick-and-place — garra paralela resolve.
Bin-picking de caixas/placas — sucção.
Manipulação fina / in-hand — multi-dedo + tátil.
Inserção (peg-in-hole) — força/admittance + GelSight.

✓ Fazer

✓Começar com garra paralela: cobre a maioria das tarefas.
✓Adicionar tátil para inserção/manipulação fina e in-hand.
✓Casar o end-effector com a tarefa, não o contrário.

✗ Evitar

✗Mão de 20 DOF para um simples pick-and-place.
✗Sucção em objetos porosos ou irregulares.
✗Ignorar o estado do gripper nas observações do VLA.

⚡ Dica prática

Tátil é a fronteira: políticas vision-tactile (ex: integrando GelSight ao VLA) resolvem inserção e manipulação de objetos translúcidos/escorregadios que a câmera sozinha não enxerga. Mas adicione tátil só quando a tarefa pedir — sensor extra é mais um eixo para o modelo aprender.

Paralela

Simples e robusta.

Sucção

Bin-picking plano.

Multi-dedo

Destreza, in-hand.

GelSight

Tátil de alta resolução.

🔹 Sensores: RGB-D, wrist cam, IMU, encoders

Visão é a entrada dominante do VLA. RealSense (D435/D455) e ZED dão RGB-D acessível; a wrist cam (no punho) resolve oclusão e melhora manipulação fina. Encoders de junta fecham a proprioceptção e a IMU ajuda em bases móveis/humanoides.

# RealSense via SDK / ROS2
ros2 launch realsense2_camera rs_launch.py \
  enable_depth:=true align_depth.enable:=true rgb_camera.color_profile:=640x480x30

# múltiplas câmeras: top + wrist viram chaves no LeRobotDataset
# observation.images.top / observation.images.wrist

📊 Papel de cada sensor

Câmera top — visão global da cena, contexto da tarefa.
Wrist cam — detalhe local, anti-oclusão na garra.
Encoders — estado de junta (parte do observation.state).
F/T sensor — força no punho para contato controlado.

RGB-D

Cor + profundidade.

Wrist cam

Anti-oclusão.

Encoder

Estado de junta.

IMU

Aceleração/orientação.

🔹 Compute de borda: Jetson Orin/Thor, throughput vs consumo

Rodar o VLA on-board elimina latência de rede. A linha Jetson domina: Orin (AGX/NX) entrega dezenas a centenas de TOPS dentro de um envelope térmico de 15–60 W; Thor (Blackwell, 2025) eleva a barra para foundation models de robótica no edge. A chave é casar quantização com o envelope de potência.

Escolher o módulo

Orin Nano/NX para policies pequenas; AGX Orin/Thor para VLA 3-7B no edge.

Otimizar

TensorRT, INT8/FP8, fusão de kernels; cortar latência sem perder muito success rate.

Gerir térmica/energia

Power mode (nvpmodel), jetson_clocks e dissipação definem o throughput sustentado.

# fixar modo de potência máximo e clocks no Jetson
sudo nvpmodel -m 0          # MAXN
sudo jetson_clocks
tegrastats                  # monitorar GPU/CPU/EMC e temperatura

# compilar a policy com TensorRT (INT8) para inferência on-board
trtexec --onnx=policy.onnx --int8 --saveEngine=policy.engine

Jetson Orin

Edge, 15–60 W.

Jetson Thor

Blackwell p/ FMs.

TensorRT

INT8/FP8 no edge.

Envelope térmico

Throughput sustentado.

🔹 Teleoperação: leader-follower, VR, luvas, ergonomia

Toda imitação começa com teleoperação. Leader-follower (ALOHA, SO-101) é o mais direto: um braço espelha o outro. VR e luvas capturam mãos hábeis e mapeiam para o robô. A ergonomia importa: coleta cansativa gera demos ruins, e dado ruim entra direto no modelo.

📊 Modalidades de teleop

Leader-follower — barato, intuitivo, casa o espaço de ação do robô.
VR (Quest/Vision Pro) — captura 6-DOF da mão, bom para humanoides.
Luvas — mãos multi-dedo, dados de destreza.
Espelhamento cinemático — retarget de pose humana ao robô.

⚡ Dica prática

Garanta que o espaço de ação da teleop seja idêntico ao que a policy comanda (Δpose vs juntas). Discrepância aí cria viés sistemático que o VLA aprende como ruído.

Leader-follower

Espelhamento direto.

Captura 6-DOF.

Luvas

Destreza multi-dedo.

Ergonomia

Conforto = dado bom.

✓ Fazer

✓Casar o espaço de ação da teleop com o que a policy comanda.
✓Sessões curtas e confortáveis para manter qualidade.
✓Variar posição do objeto de propósito (cobertura).

✗ Evitar

✗Discrepância de espaço de ação (Δpose vs juntas).
✗Coleta exaustiva que degrada a qualidade das demos.
✗Gravar 200 episódios idênticos sem variação.

🔹 Orçamento e montagem: de $100 à plataforma de pesquisa

O custo de entrada despencou. Um setup completo de aprendizado VLA — SO-101 leader + follower + 2 câmeras + Jetson — fica em centenas de dólares, contra dezenas de milhares de uma célula Franka. A barreira hoje é menos dinheiro e mais método.

📊 Faixas de orçamento

$100–300 — SO-100/SO-101 single, câmera USB, treina em laptop/cloud.
$500–1k — leader+follower, 2 câmeras, Jetson Orin Nano.
$10k+ — ALOHA bimanual, RealSense múltiplas, workstation.
$50k+ — Franka/UR com F/T, célula de pesquisa completa.

⚡ Dica prática

Comece barato, treine na cloud, faça inferência no edge depois. A montagem do SO-101 + LeRobot é o caminho mais curto entre zero e uma policy rodando num braço real.

Entrada

SO-101 ~$100.

Intermediário

Leader+follower+Jetson.

Pesquisa

ALOHA / Franka.

Método > verba

Dado bom importa mais.

✅ Resumo do módulo

✓

Braço por DOF/payload/repetibilidade — SO-101 entra, Franka pesquisa.

✓

End-effector segue a tarefa — paralela, sucção, multi-dedo, tátil.

✓

Sensores — RGB-D + wrist cam + encoders alimentam o VLA.

✓

Jetson + quantização — inferência on-board casando potência e throughput.

✓

Custo despencou — VLA acessível; método importa mais que verba.

Próximo módulo

2.6 — Datasets: Open X-Embodiment, DROID e LIBERO, o combustível que treina tudo o que vimos.

← Voltar à trilha Próximo módulo →