Mapa da trilha
🐍 Python + PyTorch
A stack onde todo VLA nasce, treina e serve.
🤗 LeRobot
Gravar, treinar e deployar num único repo open.
🌐 Simuladores
Milhares de mundos por noite, sem quebrar nada.
🔗 ROS2
A cola entre policy e torque, em tempo real.
🦿 Hardware
Braços, garras, sensores e Jetson no edge.
📦 Datasets
1M+ trajetórias: o combustível do generalista.
Conteúdo detalhado
🐍 Python + PyTorch: Stack Dominante para VLA
O que é: execução eager, autograd e ecossistema HF.
Por que importa: iteração rápida em arquiteturas que mudam toda semana.
Conceitos: define-by-run, CUDA/MPS, portabilidade.
O que é: bf16/fp16 e orçamento de memória de 7B.
Por que importa: define qual GPU treina o modelo.
Conceitos: autocast, Adam states, ativações.
O que é: carregar VLMs e treinar adaptadores QLoRA.
Por que importa: fine-tune de 7B em 24 GB.
Conceitos: PEFT, NF4, target_modules.
O que é: Dataset/DataLoader e normalização de ações.
Por que importa: normalização errada quebra a action head.
Conceitos: stats com ckpt, augmentation, workers.
O que é: sharding de estado entre GPUs.
Por que importa: viabiliza treinar VLA grande.
Conceitos: all-gather, reduce-scatter, recompute.
O que é: torch.compile e action chunking.
Por que importa: latência fecha o loop de controle.
Conceitos: inference_mode, CUDA graphs, export.
🤗 LeRobot: Framework End-to-End
O que é: datasets, políticas, sim e hardware num repo.
Por que importa: democratiza a robótica como o transformers fez com NLP.
Conceitos: record, train, eval; Hub.
O que é: estado em parquet, imagens em mp4.
Por que importa: formato único reproduzível.
Conceitos: features, episode_index, delta_timestamps.
O que é: classes de policy com mesma interface.
Por que importa: trocar de método com uma flag.
Conceitos: chunking, flow matching, checkpoints.
O que é: braços baratos e teleop leader-follower.
Por que importa: coletar demos por ~$100.
Conceitos: calibração, gravação, consistência.
O que é: três comandos + loop de inferência.
Por que importa: ciclo completo num braço de mesa.
Conceitos: eval rollout, success rate, malha fechada.
O que é: datasets e checkpoints versionados no Hub.
Por que importa: reproduz papers e contribui demos.
Conceitos: push_to_hub, dataset card, visualize.
🌐 Simuladores: MuJoCo, Isaac, Habitat
O que é: dados baratos, seguros, paralelos.
Por que importa: RL precisa de muitas interações.
Conceitos: reset infinito, ground-truth, randomização.
O que é: contato preciso, física diferenciável em JAX.
Por que importa: manipulação de contato fino.
Conceitos: MJCF, vmap, menagerie.
O que é: GPU sim com RTX e RL massivo.
Por que importa: milhares de envs sem gargalo CPU.
Conceitos: PhysX 5, OpenUSD, fotorrealismo.
O que é: navegação e embodied QA em cenas reais.
Por que importa: percepção espacial e exploração.
Conceitos: HM3D, EQA, SAPIEN/Genesis.
O que é: física, sensores e aparência divergem.
Por que importa: 95% em sim pode ser 30% no real.
Conceitos: reality gap, deformáveis, eval honesto.
O que é: suites padronizadas de avaliação.
Por que importa: comparar policies entre papers.
Conceitos: success rate, RoboSuite, generalização.
🔗 ROS2: Middleware para Robótica Real
O que é: middleware descentralizado sobre DDS.
Por que importa: tempo real e segurança.
Conceitos: nós, tópicos, serviços, ações.
O que é: percepção, planejamento e controle como nós.
Por que importa: trocar a policy sem mexer no driver.
Conceitos: rqt_graph, topic hz, modularidade.
O que é: nó rclpy que assina câmera+estado.
Por que importa: obs do mesmo instante; QoS certa.
Conceitos: message_filters, BEST_EFFORT, callback group.
O que é: árvore de frames temporizada.
Por que importa: converter frame da câmera ao base.
Conceitos: mão-olho, REP-103, timestamp.
O que é: planejamento, colisão, IK/FK, limites.
Por que importa: approach seguro e execução de trajetória.
Conceitos: ros2_control, e-stop, time parameterization.
O que é: orçamento frame→torque e jitter.
Por que importa: jitter desestabiliza o controle.
Conceitos: PREEMPT_RT, watchdog, chunking.
🦿 Hardware: Braços, Sensores, Edge
O que é: DOF, payload e repetibilidade.
Por que importa: escolher o braço pela tarefa/verba.
Conceitos: controle de força, cobot, ~$100.
O que é: paralela, sucção, multi-dedo, GelSight.
Por que importa: end-effector define o que se agarra.
Conceitos: destreza, in-hand, feedback de contato.
O que é: RealSense/ZED, wrist cam, encoders.
Por que importa: visão é a entrada dominante.
Conceitos: anti-oclusão, observation.state, F/T.
O que é: compute on-board, throughput vs consumo.
Por que importa: elimina latência de rede.
Conceitos: TensorRT, INT8, envelope térmico.
O que é: leader-follower, VR, luvas.
Por que importa: dado bom começa em teleop boa.
Conceitos: espaço de ação, retarget, ergonomia.
O que é: de $100 à célula de pesquisa.
Por que importa: custo despencou; método importa mais.
Conceitos: kit acessível, cloud + edge.
📦 Datasets: Open X-Embodiment, DROID
O que é: 1M+ trajetórias, 22 embodiments.
Por que importa: o "ImageNet da robótica".
Conceitos: 60+ datasets, generalistas, corpus unificado.
O que é: co-treino em vários corpos.
Por que importa: transferência positiva entre robôs.
Conceitos: mixing weights, co-fine-tune.
O que é: 76k demos, 564 cenas, Franka.
Por que importa: diversidade contra overfit.
Conceitos: padronizado, 86 tarefas, ambientes reais.
O que é: benchmark de transferência, 4 suites.
Por que importa: medir aprender sem esquecer.
Conceitos: Spatial/Object/Goal/Long, composição.
O que é: formato comum + action spaces heterogêneos.
Por que importa: sem normalizar, não há transferência.
Conceitos: TFDS, Δpose EEF, frequência.
O que é: filtrar qualidade e balancear cobertura.
Por que importa: qualidade bate volume bruto.
Conceitos: viés de embodiment, licença, contribuir.