← Mapa do curso TRILHA 2

🛠️ Ferramentas e Aplicação Técnica

A ponte entre teoria e robô. PyTorch, LeRobot, simuladores, ROS2, hardware e datasets — a stack completa para levar um VLA da pesquisa ao braço que pega o objeto.

6
Módulos
36
Tópicos
~4h
Duração
Inter.
Nível
Do código ao robô real PyTorchtreino LeRobotframework SimMuJoCo/Isaac ROS2middleware 🦾 RobôSO-101 datasets (Open X-Embodiment · DROID · LIBERO) alimentam toda a cadeia

Mapa da trilha

2.1~40 min

🐍 Python + PyTorch

A stack onde todo VLA nasce, treina e serve.

2.2~45 min

🤗 LeRobot

Gravar, treinar e deployar num único repo open.

2.3~45 min

🌐 Simuladores

Milhares de mundos por noite, sem quebrar nada.

2.4~40 min

🔗 ROS2

A cola entre policy e torque, em tempo real.

2.5~40 min

🦿 Hardware

Braços, garras, sensores e Jetson no edge.

2.6~40 min

📦 Datasets

1M+ trajetórias: o combustível do generalista.

Conteúdo detalhado

MÓDULO 2.1

🐍 Python + PyTorch: Stack Dominante para VLA

O que é: execução eager, autograd e ecossistema HF.

Por que importa: iteração rápida em arquiteturas que mudam toda semana.

Conceitos: define-by-run, CUDA/MPS, portabilidade.

O que é: bf16/fp16 e orçamento de memória de 7B.

Por que importa: define qual GPU treina o modelo.

Conceitos: autocast, Adam states, ativações.

O que é: carregar VLMs e treinar adaptadores QLoRA.

Por que importa: fine-tune de 7B em 24 GB.

Conceitos: PEFT, NF4, target_modules.

O que é: Dataset/DataLoader e normalização de ações.

Por que importa: normalização errada quebra a action head.

Conceitos: stats com ckpt, augmentation, workers.

O que é: sharding de estado entre GPUs.

Por que importa: viabiliza treinar VLA grande.

Conceitos: all-gather, reduce-scatter, recompute.

O que é: torch.compile e action chunking.

Por que importa: latência fecha o loop de controle.

Conceitos: inference_mode, CUDA graphs, export.

Ver Completo →
MÓDULO 2.2

🤗 LeRobot: Framework End-to-End

O que é: datasets, políticas, sim e hardware num repo.

Por que importa: democratiza a robótica como o transformers fez com NLP.

Conceitos: record, train, eval; Hub.

O que é: estado em parquet, imagens em mp4.

Por que importa: formato único reproduzível.

Conceitos: features, episode_index, delta_timestamps.

O que é: classes de policy com mesma interface.

Por que importa: trocar de método com uma flag.

Conceitos: chunking, flow matching, checkpoints.

O que é: braços baratos e teleop leader-follower.

Por que importa: coletar demos por ~$100.

Conceitos: calibração, gravação, consistência.

O que é: três comandos + loop de inferência.

Por que importa: ciclo completo num braço de mesa.

Conceitos: eval rollout, success rate, malha fechada.

O que é: datasets e checkpoints versionados no Hub.

Por que importa: reproduz papers e contribui demos.

Conceitos: push_to_hub, dataset card, visualize.

Ver Completo →
MÓDULO 2.3

🌐 Simuladores: MuJoCo, Isaac, Habitat

O que é: dados baratos, seguros, paralelos.

Por que importa: RL precisa de muitas interações.

Conceitos: reset infinito, ground-truth, randomização.

O que é: contato preciso, física diferenciável em JAX.

Por que importa: manipulação de contato fino.

Conceitos: MJCF, vmap, menagerie.

O que é: GPU sim com RTX e RL massivo.

Por que importa: milhares de envs sem gargalo CPU.

Conceitos: PhysX 5, OpenUSD, fotorrealismo.

O que é: navegação e embodied QA em cenas reais.

Por que importa: percepção espacial e exploração.

Conceitos: HM3D, EQA, SAPIEN/Genesis.

O que é: física, sensores e aparência divergem.

Por que importa: 95% em sim pode ser 30% no real.

Conceitos: reality gap, deformáveis, eval honesto.

O que é: suites padronizadas de avaliação.

Por que importa: comparar policies entre papers.

Conceitos: success rate, RoboSuite, generalização.

Ver Completo →
MÓDULO 2.4

🔗 ROS2: Middleware para Robótica Real

O que é: middleware descentralizado sobre DDS.

Por que importa: tempo real e segurança.

Conceitos: nós, tópicos, serviços, ações.

O que é: percepção, planejamento e controle como nós.

Por que importa: trocar a policy sem mexer no driver.

Conceitos: rqt_graph, topic hz, modularidade.

O que é: nó rclpy que assina câmera+estado.

Por que importa: obs do mesmo instante; QoS certa.

Conceitos: message_filters, BEST_EFFORT, callback group.

O que é: árvore de frames temporizada.

Por que importa: converter frame da câmera ao base.

Conceitos: mão-olho, REP-103, timestamp.

O que é: planejamento, colisão, IK/FK, limites.

Por que importa: approach seguro e execução de trajetória.

Conceitos: ros2_control, e-stop, time parameterization.

O que é: orçamento frame→torque e jitter.

Por que importa: jitter desestabiliza o controle.

Conceitos: PREEMPT_RT, watchdog, chunking.

Ver Completo →
MÓDULO 2.5

🦿 Hardware: Braços, Sensores, Edge

O que é: DOF, payload e repetibilidade.

Por que importa: escolher o braço pela tarefa/verba.

Conceitos: controle de força, cobot, ~$100.

O que é: paralela, sucção, multi-dedo, GelSight.

Por que importa: end-effector define o que se agarra.

Conceitos: destreza, in-hand, feedback de contato.

O que é: RealSense/ZED, wrist cam, encoders.

Por que importa: visão é a entrada dominante.

Conceitos: anti-oclusão, observation.state, F/T.

O que é: compute on-board, throughput vs consumo.

Por que importa: elimina latência de rede.

Conceitos: TensorRT, INT8, envelope térmico.

O que é: leader-follower, VR, luvas.

Por que importa: dado bom começa em teleop boa.

Conceitos: espaço de ação, retarget, ergonomia.

O que é: de $100 à célula de pesquisa.

Por que importa: custo despencou; método importa mais.

Conceitos: kit acessível, cloud + edge.

Ver Completo →
MÓDULO 2.6

📦 Datasets: Open X-Embodiment, DROID

O que é: 1M+ trajetórias, 22 embodiments.

Por que importa: o "ImageNet da robótica".

Conceitos: 60+ datasets, generalistas, corpus unificado.

O que é: co-treino em vários corpos.

Por que importa: transferência positiva entre robôs.

Conceitos: mixing weights, co-fine-tune.

O que é: 76k demos, 564 cenas, Franka.

Por que importa: diversidade contra overfit.

Conceitos: padronizado, 86 tarefas, ambientes reais.

O que é: benchmark de transferência, 4 suites.

Por que importa: medir aprender sem esquecer.

Conceitos: Spatial/Object/Goal/Long, composição.

O que é: formato comum + action spaces heterogêneos.

Por que importa: sem normalizar, não há transferência.

Conceitos: TFDS, Δpose EEF, frequência.

O que é: filtrar qualidade e balancear cobertura.

Por que importa: qualidade bate volume bruto.

Conceitos: viés de embodiment, licença, contribuir.

Ver Completo →

← Trilha anterior

Trilha 1 — Fundamentos

A base de IA incorporada: anatomia VLA, modelos e políticas.

Próxima trilha →

Trilha 3 — Avançado

Sim-to-real, humanoides, arquiteturas híbridas e mercado.