Conteúdo detalhado
🔹 Braços manipuladores: SO-101, Franka, UR, xArm
Braços diferem em três eixos: DOF (graus de liberdade), payload e repetibilidade. O SO-101 é o ponto de entrada (~$100, servos Feetech); Franka Panda é o padrão de pesquisa com 7 DOF e controle de torque/força; UR e xArm são cobots industriais.
📊 Comparativo rápido
- SO-101 — ~$100, 6 DOF, ideal para aprender e coletar demos.
- Franka Panda — 7 DOF, controle de força, queridinho da academia.
- UR5e / UR10e — cobot industrial, certificação de segurança.
- xArm 7 — bom custo-benefício de pesquisa, payload médio.
# controlar um Franka via libfranka / franka_ros2 (controle de torque)
ros2 launch franka_bringup franka.launch.py robot_ip:=172.16.0.2
# enviar setpoints de junta a partir da policy VLA -> /joint_trajectory
# repetibilidade típica: Franka ±0.1mm · SO-101 ~mm (servos de hobby)
⚡ Dica prática
Controle por torque/admittance (Franka) permite contato seguro; braços só por posição precisam de muito cuidado em inserção. Para começar com VLA, o SO-101 cobre 90% do aprendizado a 1% do custo.
DOF
Graus de liberdade.
Payload
Carga máxima.
Repetibilidade
Precisão de retorno.
Controle de força
Contato seguro.
🔹 Garras e mãos: paralela, sucção, multi-dedo, tátil
O end-effector define o que o robô consegue agarrar. Garra paralela é simples e robusta; sucção domina bin-picking de superfícies planas; mãos multi-dedo (Allegro, Shadow) dão destreza ao custo de complexidade. Sensores táteis como GelSight trazem feedback de contato que a câmera não vê.
📊 Escolha do end-effector por tarefa
- Pick-and-place — garra paralela resolve.
- Bin-picking de caixas/placas — sucção.
- Manipulação fina / in-hand — multi-dedo + tátil.
- Inserção (peg-in-hole) — força/admittance + GelSight.
✓ Fazer
- ✓Começar com garra paralela: cobre a maioria das tarefas.
- ✓Adicionar tátil para inserção/manipulação fina e in-hand.
- ✓Casar o end-effector com a tarefa, não o contrário.
✗ Evitar
- ✗Mão de 20 DOF para um simples pick-and-place.
- ✗Sucção em objetos porosos ou irregulares.
- ✗Ignorar o estado do gripper nas observações do VLA.
⚡ Dica prática
Tátil é a fronteira: políticas vision-tactile (ex: integrando GelSight ao VLA) resolvem inserção e manipulação de objetos translúcidos/escorregadios que a câmera sozinha não enxerga. Mas adicione tátil só quando a tarefa pedir — sensor extra é mais um eixo para o modelo aprender.
Paralela
Simples e robusta.
Sucção
Bin-picking plano.
Multi-dedo
Destreza, in-hand.
GelSight
Tátil de alta resolução.
🔹 Sensores: RGB-D, wrist cam, IMU, encoders
Visão é a entrada dominante do VLA. RealSense (D435/D455) e ZED dão RGB-D acessível; a wrist cam (no punho) resolve oclusão e melhora manipulação fina. Encoders de junta fecham a proprioceptção e a IMU ajuda em bases móveis/humanoides.
# RealSense via SDK / ROS2
ros2 launch realsense2_camera rs_launch.py \
enable_depth:=true align_depth.enable:=true rgb_camera.color_profile:=640x480x30
# múltiplas câmeras: top + wrist viram chaves no LeRobotDataset
# observation.images.top / observation.images.wrist
📊 Papel de cada sensor
- Câmera top — visão global da cena, contexto da tarefa.
- Wrist cam — detalhe local, anti-oclusão na garra.
- Encoders — estado de junta (parte do
observation.state). - F/T sensor — força no punho para contato controlado.
RGB-D
Cor + profundidade.
Wrist cam
Anti-oclusão.
Encoder
Estado de junta.
IMU
Aceleração/orientação.
🔹 Compute de borda: Jetson Orin/Thor, throughput vs consumo
Rodar o VLA on-board elimina latência de rede. A linha Jetson domina: Orin (AGX/NX) entrega dezenas a centenas de TOPS dentro de um envelope térmico de 15–60 W; Thor (Blackwell, 2025) eleva a barra para foundation models de robótica no edge. A chave é casar quantização com o envelope de potência.
Escolher o módulo
Orin Nano/NX para policies pequenas; AGX Orin/Thor para VLA 3-7B no edge.
Otimizar
TensorRT, INT8/FP8, fusão de kernels; cortar latência sem perder muito success rate.
Gerir térmica/energia
Power mode (nvpmodel), jetson_clocks e dissipação definem o throughput sustentado.
# fixar modo de potência máximo e clocks no Jetson
sudo nvpmodel -m 0 # MAXN
sudo jetson_clocks
tegrastats # monitorar GPU/CPU/EMC e temperatura
# compilar a policy com TensorRT (INT8) para inferência on-board
trtexec --onnx=policy.onnx --int8 --saveEngine=policy.engine
Jetson Orin
Edge, 15–60 W.
Jetson Thor
Blackwell p/ FMs.
TensorRT
INT8/FP8 no edge.
Envelope térmico
Throughput sustentado.
🔹 Teleoperação: leader-follower, VR, luvas, ergonomia
Toda imitação começa com teleoperação. Leader-follower (ALOHA, SO-101) é o mais direto: um braço espelha o outro. VR e luvas capturam mãos hábeis e mapeiam para o robô. A ergonomia importa: coleta cansativa gera demos ruins, e dado ruim entra direto no modelo.
📊 Modalidades de teleop
- Leader-follower — barato, intuitivo, casa o espaço de ação do robô.
- VR (Quest/Vision Pro) — captura 6-DOF da mão, bom para humanoides.
- Luvas — mãos multi-dedo, dados de destreza.
- Espelhamento cinemático — retarget de pose humana ao robô.
⚡ Dica prática
Garanta que o espaço de ação da teleop seja idêntico ao que a policy comanda (Δpose vs juntas). Discrepância aí cria viés sistemático que o VLA aprende como ruído.
Leader-follower
Espelhamento direto.
VR
Captura 6-DOF.
Luvas
Destreza multi-dedo.
Ergonomia
Conforto = dado bom.
✓ Fazer
- ✓Casar o espaço de ação da teleop com o que a policy comanda.
- ✓Sessões curtas e confortáveis para manter qualidade.
- ✓Variar posição do objeto de propósito (cobertura).
✗ Evitar
- ✗Discrepância de espaço de ação (Δpose vs juntas).
- ✗Coleta exaustiva que degrada a qualidade das demos.
- ✗Gravar 200 episódios idênticos sem variação.
🔹 Orçamento e montagem: de $100 à plataforma de pesquisa
O custo de entrada despencou. Um setup completo de aprendizado VLA — SO-101 leader + follower + 2 câmeras + Jetson — fica em centenas de dólares, contra dezenas de milhares de uma célula Franka. A barreira hoje é menos dinheiro e mais método.
📊 Faixas de orçamento
- $100–300 — SO-100/SO-101 single, câmera USB, treina em laptop/cloud.
- $500–1k — leader+follower, 2 câmeras, Jetson Orin Nano.
- $10k+ — ALOHA bimanual, RealSense múltiplas, workstation.
- $50k+ — Franka/UR com F/T, célula de pesquisa completa.
⚡ Dica prática
Comece barato, treine na cloud, faça inferência no edge depois. A montagem do SO-101 + LeRobot é o caminho mais curto entre zero e uma policy rodando num braço real.
Entrada
SO-101 ~$100.
Intermediário
Leader+follower+Jetson.
Pesquisa
ALOHA / Franka.
Método > verba
Dado bom importa mais.
✅ Resumo do módulo
Próximo módulo
2.6 — Datasets: Open X-Embodiment, DROID e LIBERO, o combustível que treina tudo o que vimos.