Trilha 1 — Fundamentos

MÓDULO 1.1

De LLMs a Robôs que Agem: O Grande Cenário

A evolução da IA: de modelos de texto para agentes que manipulam o mundo físico.

1 Da linguagem à ação: LLM → VLM → VLA

O que é

A progressão de modelos que processam apenas texto (LLMs) para modelos que também veem (VLMs) e, finalmente, para modelos que geram ações motoras no mundo real (VLAs). Cada salto adiciona uma modalidade: primeiro visão como entrada, depois controle motor como saída.

Por que aprender

Entender essa progressão é o alicerce de tudo que vem depois no curso. Sem clareza sobre o que mudou entre GPT-4V e RT-2, fica impossível avaliar arquiteturas VLA ou decidir qual modelo usar num projeto real.

Conceitos-chave

LLM (Large Language Model) processa sequências de tokens textuais. VLM (Vision-Language Model) adiciona um encoder visual para processar imagens junto com texto. VLA (Vision-Language-Action) estende o VLM com um action head que decodifica tokens em comandos motores contínuos como posição (x,y,z) e rotação do gripper.

2 O gap entre entender e agir

O que é

O abismo fundamental entre compreensão semântica (saber o que é um copo) e competência motora (conseguir pegar o copo sem derrubá-lo). VLMs entendem cenas visuais com precisão, mas não conseguem traduzir esse entendimento em ações físicas coordenadas.

Por que aprender

Esse gap define o problema central que VLAs tentam resolver. Reconhecê-lo ajuda a entender por que simplesmente conectar um ChatGPT a um braço robótico não funciona, e quais técnicas de treinamento são necessárias para fechar essa lacuna.

Conceitos-chave

Grounding é o processo de ancorar conceitos abstratos em percepções sensoriais concretas. O sim-to-real gap refere-se à diferença entre desempenho em simulação e no mundo real. Closed-loop control é a capacidade do sistema de ajustar ações continuamente com base no feedback sensorial.

3 Foundation models para robótica

O que é

A aplicação do paradigma de foundation models (pré-treino em larga escala + fine-tuning) ao domínio robótico. Em vez de treinar um modelo do zero para cada tarefa e robô, usa-se um modelo base treinado em dados massivos de múltiplos robôs e ambientes, que depois é adaptado.

Por que aprender

Foundation models são o motivo pelo qual VLAs se tornaram viáveis. O pré-treino em dados diversos de internet (visão, linguagem) fornece representações ricas que transferem surpreendentemente bem para controle robótico, mesmo com poucos dados de demonstração.

Conceitos-chave

Transfer learning permite reaproveitar conhecimento de domínios ricos em dados (internet) para domínios escassos (robótica). Pré-treino multimodal combina visão e linguagem numa representação unificada. Cross-embodiment generalização permite que um único modelo controle robôs com morfologias diferentes.

4 Affordances: o que o robô PODE fazer

O que é

Conceito da psicologia ecológica de J.J. Gibson adaptado para robótica: affordances são as possibilidades de ação que um objeto ou ambiente oferece a um agente específico. Um copo "affords" ser agarrado; uma porta "affords" ser aberta. Para um VLA, detectar affordances significa identificar quais ações são fisicamente viáveis na cena atual.

Por que aprender

VLAs precisam não apenas entender instruções em linguagem natural, mas também avaliar se a ação solicitada é possível dado o estado atual do mundo. Affordance detection é o que separa um robô que tenta cegamente de um que planeja ações viáveis.

Conceitos-chave

Visual affordances mapeiam regiões da imagem para ações possíveis (superfícies agarráveis, áreas navegáveis). SayCan do Google combina um LLM que propõe ações com um value function que filtra ações fisicamente viáveis. Task and Motion Planning (TAMP) integra planejamento simbólico com planejamento de movimento contínuo.

5 Embodied AI vs IA desencarnada

O que é

A distinção entre IA que existe apenas no espaço digital (chatbots, geradores de imagem) e IA incorporada em corpos físicos que interagem com o mundo real. Embodied AI enfrenta desafios ausentes na IA tradicional: física newtoniana, latência sensorial, desgaste mecânico e consequências irreversíveis de erros.

Por que aprender

Trabalhar com VLAs exige uma mudança de mentalidade em relação à IA convencional. Erros não são apenas respostas erradas num chat; são colisões, quedas de objetos ou riscos de segurança. Entender essa diferença fundamental é pré-requisito para projetar sistemas robóticos responsáveis.

Conceitos-chave

Embodiment hypothesis postula que inteligência verdadeira requer um corpo físico que interaja com o ambiente. Sensorimotor contingencies são as regularidades entre ações e mudanças sensoriais que um agente incorporado aprende. Reality gap é o descompasso entre simulação e mundo real que torna o deploy de IA incorporada muito mais difícil.

6 Timeline: de GPT a humanoides autônomos

O que é

A cronologia dos marcos que levaram dos primeiros LLMs modernos (GPT-3, 2020) aos humanoides autônomos atuais (Figure 02, GR00T, 2025-2026). Inclui o lançamento do RT-2 (2023), a formação da Physical Intelligence (2024), o OpenVLA (2024) e a explosão de startups de robótica em 2025.

Por que aprender

A velocidade da evolução é crucial para calibrar expectativas. Em apenas 3 anos, saímos de "LLMs não conseguem controlar robôs" para "VLAs generalistas controlam múltiplos embodiments". Conhecer a timeline ajuda a projetar onde estaremos em 2027-2028.

Conceitos-chave

Scaling laws para robótica investigam se mais dados e parâmetros melhoram desempenho motor como melhoram linguagem. Emergent capabilities em VLAs referem-se a habilidades que surgem com escala sem serem explicitamente treinadas. O ecossistema open-source (LeRobot, OpenVLA, Octo) democratiza acesso que antes era restrito a labs com milhões em hardware.

MÓDULO 1.2

Anatomia de um VLA: Visão + Linguagem + Ação

Desmontando a arquitetura: encoder visual, backbone de linguagem e decodificador de ações.

1 Encoder visual: SigLIP, DINOv2, ViT

O que é

O componente que converte imagens da câmera em representações vetoriais (visual tokens) que o LLM backbone consegue processar. SigLIP usa contrastive learning com sigmoid loss, DINOv2 usa self-supervised learning sem labels, e ViT (Vision Transformer) divide a imagem em patches de 14x14 ou 16x16 pixels.

Por que aprender

A qualidade do encoder visual determina o que o VLA "enxerga". Um encoder fraco perde detalhes cruciais como bordas de objetos ou texturas que indicam fragilidade. A escolha entre SigLIP e DINOv2 impacta diretamente a performance em tarefas de manipulação fina.

Conceitos-chave

Patch embeddings dividem a imagem em blocos e projetam cada um num vetor denso. Contrastive learning (SigLIP) alinha imagens e textos no mesmo espaço vetorial. Self-supervised features (DINOv2) capturam estruturas geométricas sem supervisão humana, sendo especialmente boas para estimar profundidade e segmentar objetos.

2 Backbone LLM: Llama, Gemma, Qwen

O que é

O cérebro central do VLA, um LLM pré-treinado que funde visual tokens com text tokens num espaço de representação unificado. Modelos como Llama 3 (Meta), Gemma 2 (Google) e Qwen 2.5 (Alibaba) servem de backbone por já possuírem reasoning e world knowledge de bilhões de tokens de texto.

Por que aprender

O backbone LLM é o que dá ao VLA a capacidade de entender instruções complexas em linguagem natural e raciocinar sobre cenas. A escolha do backbone define o trade-off entre capacidade (7B, 13B, 72B parâmetros) e latência de inferência, que é crítica para controle em tempo real.

Conceitos-chave

Projection layer mapeia visual tokens para o espaço de embedding do LLM (tipicamente uma MLP simples). Instruction tuning adapta o backbone para seguir comandos robóticos. LoRA (Low-Rank Adaptation) permite fine-tuning eficiente do backbone sem retreinar todos os 7B+ parâmetros.

3 Action head: tokenização de ações contínuas

O que é

O componente final que converte a representação interna do LLM em comandos motores executáveis. As ações de um robô são contínuas (posição x=0.342m, torque=1.7Nm), mas LLMs operam com tokens discretos. O action head resolve essa incompatibilidade via discretização ou modelos generativos.

Por que aprender

O action head é onde VLA diverge radicalmente de um VLM comum. É a inovação arquitetural que permite gerar ações físicas. Diferentes designs (MLP, diffusion, flow matching) produzem comportamentos qualitativamente diferentes em termos de suavidade, multimodalidade e precisão.

Conceitos-chave

Discretization bins dividem o espaço contínuo de ações em N bins (tipicamente 256) e tratam cada ação como um token categórico. Diffusion action head usa um processo de denoising iterativo para gerar ações suaves e multimodais. Flow matching (usado no pi0) aprende um campo vetorial que transforma ruído em ações via uma ODE.

4 Tokenização de trajetórias: bin discreto vs contínuo

O que é

Duas abordagens fundamentais para representar trajetórias robóticas como sequências processáveis. Na discretização por bins, cada dimensão da ação (x, y, z, rotações, gripper) é quantizada em buckets. Na abordagem contínua, o modelo gera diretamente vetores reais via regressão ou modelos generativos.

Por que aprender

Essa escolha impacta diretamente a precisão do controle. Bins discretos são simples e compatíveis com o vocabulário do LLM, mas perdem resolução. Abordagens contínuas são mais precisas, mas exigem arquiteturas especializadas. Entender o trade-off é essencial para avaliar modelos VLA.

Conceitos-chave

Action tokenization com 256 bins por dimensão dá resolução de ~0.4mm num workspace de 10cm, suficiente para maioria das tarefas. Action chunking prediz múltiplas ações futuras de uma vez (tipicamente 4-16 steps), melhorando consistência temporal. De-tokenization converte os tokens preditos de volta em comandos contínuos para o controlador do robô.

5 Co-fine-tuning: visão + linguagem juntos

O que é

O processo de treinar simultaneamente os componentes visuais e linguísticos do VLA em dados de demonstração robótica. Em vez de congelar o encoder visual e treinar apenas o action head, co-fine-tuning atualiza todos os componentes juntos para que aprendam representações otimizadas para controle motor.

Por que aprender

Co-fine-tuning é o que faz VLAs superarem pipelines modulares (percepção separada de controle). O OpenVLA demonstrou que treinar visão e linguagem juntos melhora a performance em até 16.5% comparado a fine-tuning apenas do action head, justificando o custo computacional extra.

Conceitos-chave

End-to-end training propaga gradientes da loss de ação de volta até o encoder visual, adaptando as features visuais para a tarefa. Catastrophic forgetting é o risco de perder capacidades linguísticas originais durante fine-tuning, mitigado por regularização e learning rate baixo. Multi-task fine-tuning treina em múltiplas tarefas simultâneas para manter generalidade.

6 Latência e throughput: budget de tokens

O que é

As restrições de tempo real que VLAs enfrentam: um robô precisa decidir ações a 5-50 Hz, mas um LLM de 7B parâmetros pode levar centenas de milissegundos por token. O budget de tokens define quantos visual tokens e action tokens o sistema pode processar dentro do tempo de controle disponível.

Por que aprender

Latência é o gargalo prático mais crítico em VLAs reais. Um modelo brilhante que leva 500ms por ação é inútil para manipulação dinâmica. Entender o budget de tokens ajuda a escolher entre modelos maiores (melhores, porém lentos) e modelos compactos (rápidos, porém limitados).

Conceitos-chave

Control frequency determina quantas vezes por segundo o modelo precisa gerar ações (5 Hz para tarefas lentas, 50 Hz para dexterous manipulation). KV-cache permite reusar computações de tokens anteriores, acelerando inferência. Quantização (INT8, INT4) reduz o tamanho do modelo em 2-4x com perda mínima de performance, viabilizando deploy em GPUs embarcadas como Jetson Orin.

MÓDULO 1.3

Panorama dos Modelos: RT-2, OpenVLA, π0, Qwen-VLA

O ecossistema de modelos VLA, de pioneiros fechados a open-source.

1 RT-2 e RT-X: os pioneiros do Google DeepMind

O que é

RT-2 (Robotics Transformer 2) foi o primeiro VLA a co-treinar dados robóticos com dados web em larga escala, demonstrando que conhecimento da internet transfere para controle motor. RT-X estendeu a ideia treinando sobre o dataset Open X-Embodiment com múltiplos robôs, criando um modelo generalista cross-embodiment.

Por que aprender

RT-2 definiu o paradigma que praticamente todos os VLAs seguem hoje. Entender suas escolhas de design e limitações (modelo fechado, 55B parâmetros, inferência lenta) contextualiza por que a comunidade buscou alternativas abertas e eficientes como OpenVLA e Octo.

Conceitos-chave

Web-scale knowledge transfer reaproveita o conhecimento semântico de VLMs treinados na internet para reconhecer objetos nunca vistos em demonstrações. Co-fine-tuning mistura batches de dados web e robóticos no mesmo treino. RT-2 representa ações como tokens de texto, reutilizando o vocabulário do LLM para emitir comandos.

2 OpenVLA: o padrão open-source da Stanford

O que é

OpenVLA é um modelo VLA de 7B parâmetros totalmente open-source, treinado sobre 970 mil trajetórias do Open X-Embodiment. Combina dois encoders visuais (SigLIP e DINOv2) com o backbone Llama 2, alcançando performance competitiva com RT-2-X usando uma fração dos parâmetros.

Por que aprender

OpenVLA é provavelmente o modelo que você usará na prática para experimentar e fazer fine-tuning. Por ser aberto, com pesos e código disponíveis, tornou-se a baseline de referência para pesquisa acadêmica e o ponto de partida natural para projetos reais com orçamento limitado.

Conceitos-chave

O dual visual encoder (SigLIP + DINOv2) combina features semânticas e geométricas, melhorando manipulação fina. Llama 2 7B serve de backbone de raciocínio. Fine-tuning eficiente via LoRA roda em uma única GPU de consumo, e a quantização permite inferência a ~6 Hz.

3 π0 (pi0): flow matching da Physical Intelligence

O que é

π0 é o VLA flagship da Physical Intelligence, construído sobre o backbone PaliGemma e usando flow matching para gerar ações contínuas de alta frequência (até 50 Hz). É projetado para manipulação dexterous complexa, como dobrar roupas e montar caixas, em múltiplos embodiments.

Por que aprender

π0 representa o estado da arte em suavidade e frequência de controle, áreas onde modelos baseados em tokenização discreta falham. Estudá-lo mostra como técnicas generativas modernas (flow matching) destravam manipulação fina que antes era inviável com VLAs.

Conceitos-chave

Flow matching aprende um campo vetorial que transporta ruído gaussiano para a distribuição de ações via uma ODE, gerando trajetórias suaves. Action experts são sub-redes dedicadas à geração de ação acopladas ao backbone VLM. Controle a 50 Hz viabiliza tarefas de alta destreza com feedback em tempo quase contínuo.

4 Octo: o transformer generalista de Berkeley

O que é

Octo é um modelo generalista compacto (27M a 93M parâmetros) baseado em transformer, treinado sobre 800 mil trajetórias do Open X-Embodiment. Diferente dos VLAs gigantes, foi projetado com modularidade: novos sensores e action heads podem ser adicionados sem retreinar tudo.

Por que aprender

Octo prova que nem todo VLA precisa de bilhões de parâmetros. Sua arquitetura flexível e leve é ideal para pesquisa rápida e deploy em hardware modesto, sendo uma alternativa prática quando OpenVLA é grande demais para o orçamento de compute.

Conceitos-chave

A arquitetura usa um transformer com blocos de atenção sobre tokens de observação e tarefa. Modular design permite plugar novos input heads (câmeras, proprioceptivo) e output heads sem reescrever o core. Diffusion action head gera ações multimodais suaves, e o modelo suporta condicionamento por linguagem ou por imagem-objetivo.

5 Qwen-VLA, SmolVLA e modelos compactos

O que é

Uma nova geração de VLAs compactos otimizados para rodar em hardware embarcado e de baixo custo. SmolVLA (da Hugging Face/LeRobot) tem menos de 500M parâmetros e roda em CPU; Qwen-VLA aproveita os backbones Qwen-VL eficientes da Alibaba para equilibrar capacidade e latência em modelos de 1-3B.

Por que aprender

Modelos compactos democratizam VLA: você pode treinar e rodar em uma única GPU de consumo ou até num Jetson. Para quem está aprendendo ou prototipando com plataformas acessíveis como SO-100, esses modelos são o ponto de entrada mais realista, sem renunciar a capacidades fundamentais.

Conceitos-chave

Knowledge distillation transfere capacidade de modelos grandes para pequenos. SmolVLA usa async inference para separar percepção e ação, melhorando throughput. Quantização agressiva (INT4) e backbones eficientes (Qwen2-VL) viabilizam inferência on-device a frequências úteis para controle.

6 Comparativo: tamanho, licença, embodiments, performance

O que é

Uma análise comparativa das dimensões que importam ao escolher um VLA: número de parâmetros, tipo de licença (fechada vs aberta vs permissiva), quais embodiments suporta, frequência de controle e taxa de sucesso em benchmarks. Não existe melhor modelo absoluto; existe o melhor para cada restrição.

Por que aprender

A escolha do modelo é uma das decisões de maior impacto num projeto VLA. Saber comparar trade-offs entre RT-2 (poderoso, fechado), OpenVLA (equilibrado, aberto), π0 (alta destreza) e compactos (baratos, limitados) evita escolhas custosas e retrabalho.

Conceitos-chave

Benchmarks como LIBERO, SimplerEnv e avaliações em robôs reais medem success rate em tarefas padronizadas. Licenças variam de proprietária (RT-2) a Apache 2.0 (OpenVLA, Octo). A cobertura de embodiments determina se o modelo transfere para o seu robô específico sem fine-tuning extenso.

MÓDULO 1.4

Datasets: Open X-Embodiment e DROID

Os dados que alimentam VLAs — escala, diversidade e formato.

1 Open X-Embodiment: o dataset que mudou tudo

O que é

O Open X-Embodiment (OXE) é um esforço colaborativo que reúne mais de 1 milhão de trajetórias robóticas de 22 embodiments diferentes, coletadas por 21 instituições ao redor do mundo. É o maior dataset aberto de manipulação robótica e a base de treino de modelos como RT-X e OpenVLA.

Por que aprender

OXE é o dataset que viabilizou VLAs generalistas. Sem ele, cada lab treinaria modelos isolados em dados próprios e pequenos. Entender sua estrutura e diversidade é essencial para saber o que um VLA pré-treinado já "sabe" e onde ele provavelmente falhará.

Conceitos-chave

Cross-embodiment significa misturar dados de robôs com morfologias distintas (braços de 6 e 7 DoF, grippers variados) num único treino. A heterogeneidade de câmeras, frequências e espaços de ação exige normalização. A escala diversa é o que gera generalização, mas também introduz ruído e desbalanceamento entre fontes.

2 DROID: diversidade in-the-wild

O que é

DROID (Distributed Robot Interaction Dataset) reúne cerca de 76 mil trajetórias coletadas em 564 cenas e 86 tarefas, em ambientes do mundo real altamente diversos (escritórios, cozinhas, banheiros). Todas usam o mesmo setup padronizado de braço Franka, facilitando consistência apesar da diversidade de cenas.

Por que aprender

DROID complementa o OXE com ênfase em diversidade de ambiente, não de robô. Essa variedade de cenas é exatamente o que falta para que VLAs generalizem para lugares novos. Entender DROID ajuda a avaliar a robustez de um modelo fora do laboratório.

Conceitos-chave

In-the-wild collection captura variação de iluminação, fundo e distratores que ambientes de lab não têm. O hardware padronizado (Franka + câmeras fixas) reduz variáveis confundidoras. A diversidade de cenas melhora generalização espacial, enquanto o número moderado de tarefas limita generalização semântica.

3 BridgeData V2: manipulação em escala de cozinha

O que é

BridgeData V2 é um dataset com mais de 60 mil trajetórias de manipulação coletadas com um braço WidowX de baixo custo, focado em tarefas domésticas de cozinha (mover objetos, abrir gavetas, empilhar). É amplamente usado como benchmark de transferência e fine-tuning de VLAs.

Por que aprender

BridgeData mostra que dados valiosos não exigem hardware caro. Por usar um braço acessível e tarefas realistas, é uma referência frequente em papers e um excelente alvo para experimentos de fine-tuning quando você não tem milhões de trajetórias próprias.

Conceitos-chave

Task diversity em ambiente doméstico fornece sinal rico de linguagem-ação. O braço WidowX de baixo custo demonstra coleta acessível e reprodutível. BridgeData faz parte do OXE, mas também é usado isoladamente como benchmark de avaliação cruzada entre modelos.

4 Formato RLDS / TFDS

O que é

RLDS (Reinforcement Learning Datasets) é o formato padronizado para armazenar trajetórias robóticas como sequências de episódios, cada um contendo steps com observação, ação, recompensa e metadados. É construído sobre TFDS (TensorFlow Datasets), permitindo streaming eficiente de datasets enormes.

Por que aprender

Para treinar ou fazer fine-tuning de qualquer VLA moderno, você precisará ler e escrever dados em RLDS. É o formato que une OXE, DROID e BridgeData sob uma interface comum, e dominá-lo é pré-requisito prático para qualquer trabalho hands-on com dados.

Conceitos-chave

A estrutura episódio → steps organiza dados sequenciais de forma natural para aprendizado por imitação. TFDS oferece pipelines de leitura com shuffling, prefetch e paralelismo. A normalização de espaços de ação e a padronização de chaves de observação são etapas críticas para combinar datasets heterogêneos.

5 Coleta via teleoperação

O que é

A principal forma de gerar dados de demonstração robótica: um operador humano controla o robô remotamente (via joystick, braço líder-seguidor ou VR) enquanto o sistema grava observações e ações sincronizadas. Cada demonstração teleoperada vira uma trajetória rotulada para aprendizado por imitação.

Por que aprender

A teleoperação é o gargalo de custo e tempo na construção de datasets VLA. Entender suas modalidades e limitações revela por que dados robóticos são tão mais escassos que dados de texto, e por que técnicas de eficiência de dados são tão valorizadas na área.

Conceitos-chave

Leader-follower (mestre-escravo), como no ALOHA, replica os movimentos de um braço líder operado à mão num braço seguidor. Teleoperação por VR mapeia a mão do operador para o end-effector. A qualidade da demonstração (suavidade, ausência de hesitação) impacta diretamente a política aprendida.

6 Qualidade vs quantidade e scaling laws

O que é

O debate sobre se VLAs melhoram mais com mais dados (quantidade) ou com dados melhor curados (qualidade), e como o desempenho escala com o tamanho do dataset. Para robótica, ainda não está claro se valem as mesmas leis de escala observadas em linguagem e visão.

Por que aprender

Essa questão define onde investir recursos: coletar mais trajetórias, filtrar as existentes ou diversificar fontes. Para um projeto real com orçamento limitado, saber que qualidade muitas vezes supera quantidade pode economizar meses de teleoperação.

Conceitos-chave

Data scaling laws relacionam tamanho do dataset à taxa de sucesso, com retornos decrescentes. Data curation filtra demonstrações de baixa qualidade e rebalanceia fontes super-representadas. A diversidade (de tarefas, objetos e cenas) frequentemente importa mais que o volume bruto para generalização.

MÓDULO 1.5

Hardware: Cobots, Humanoides e Plataformas

Dos braços colaborativos aos humanoides — e plataformas acessíveis para aprender.

1 Cobots industriais: Franka, UR, KUKA

O que é

Cobots (robôs colaborativos) são braços projetados para operar com segurança ao lado de humanos, sem gaiolas de proteção. Franka Emika (7 DoF, sensível a torque), Universal Robots (UR3/UR5/UR10) e KUKA (LBR iiwa) são as plataformas mais usadas em pesquisa e indústria leve.

Por que aprender

Cobots são o hardware mais comum em datasets e pesquisa VLA (o Franka domina o DROID). Conhecer suas capacidades, limites de carga e interfaces de controle é essencial para entender como as demonstrações foram coletadas e como fazer deploy de uma política.

Conceitos-chave

Graus de liberdade (DoF) definem a mobilidade do braço; 7 DoF permitem evitar singularidades. Torque sensing em cada junta viabiliza controle de força e segurança por colisão. Interfaces como ROS, libfranka e o protocolo de controle em tempo real conectam o braço ao modelo de IA.

2 Humanoides: Figure, Unitree, Optimus, 1X

O que é

Robôs humanoides bípedes projetados para operar em ambientes feitos para humanos. Figure 02, Unitree G1/H1, Tesla Optimus e os robôs da 1X são as plataformas comerciais mais avançadas, combinando locomoção bípede, manipulação com mãos e, cada vez mais, controle por VLAs.

Por que aprender

Humanoides são a fronteira mais visível e ambiciosa da robótica VLA. Entender seus desafios (equilíbrio, whole-body control, custo) ajuda a separar hype de capacidade real e a calibrar expectativas sobre o que VLAs conseguem controlar hoje versus em poucos anos.

Conceitos-chave

Whole-body control coordena locomoção e manipulação simultaneamente. Locomoção bípede exige controle de equilíbrio dinâmico em tempo real, tipicamente delegado a controladores separados do VLA. O Unitree G1 baixou drasticamente o custo de entrada, tornando humanoides acessíveis a labs de pesquisa.

3 Grippers e end-effectors

O que é

O end-effector é a "mão" do robô, a interface final com o mundo. Vão de grippers paralelos simples (duas garras que abrem e fecham) a mãos dexterous antropomórficas com múltiplos dedos e dezenas de graus de liberdade, passando por ventosas e ferramentas especializadas.

Por que aprender

O end-effector define quais tarefas são fisicamente possíveis. Um gripper paralelo basta para pick-and-place, mas tarefas dexterous (manipular tecido, usar ferramentas) exigem mãos complexas. A escolha impacta diretamente o espaço de ação que o VLA precisa controlar.

Conceitos-chave

Grippers paralelos têm 1 DoF (abrir/fechar) e são robustos e baratos. Dexterous hands (como a Shadow Hand) têm 20+ DoF, permitindo manipulação fina mas com controle muito mais difícil. A dimensionalidade do end-effector determina o tamanho do action space na saída do VLA.

4 Sensores: RGB-D, force/torque, tátil

O que é

Os sentidos do robô. Câmeras RGB-D (como Intel RealSense) fornecem cor e profundidade; sensores de força/torque no punho medem interação com objetos; sensores táteis (GelSight, DIGIT) capturam textura e contato na ponta dos dedos. Juntos formam a entrada perceptual do VLA.

Por que aprender

A maioria dos VLAs atuais usa apenas RGB, mas tarefas de contato fino (inserir conector, manusear objeto frágil) dependem de força e tato. Conhecer os sensores disponíveis revela tanto as limitações dos modelos atuais quanto as direções de pesquisa multimodal.

Conceitos-chave

RGB-D adiciona um canal de profundidade que ajuda na estimativa de pose 3D. Force/torque sensing permite controle de impedância e detecção de contato. Sensores táteis dão feedback local de alta resolução, crucial para manipulação dexterous, mas ainda pouco integrados aos VLAs mainstream.

5 Plataformas acessíveis: SO-100, Koch, ALOHA

O que é

Braços robóticos de baixo custo e código aberto criados para democratizar o aprendizado de robótica. SO-100/SO-101 (do projeto LeRobot da Hugging Face) custam algumas centenas de dólares; Koch e ALOHA usam configurações líder-seguidor para teleoperação acessível e coleta de dados.

Por que aprender

Essas plataformas são o caminho realista para a maioria das pessoas começar a praticar VLA de verdade, com hardware físico, e não só em simulação. SO-100 + LeRobot é hoje o setup de entrada recomendado, integrado a modelos e datasets prontos para uso.

Conceitos-chave

LeRobot é a biblioteca da Hugging Face que une hardware barato, datasets e políticas treináveis. A configuração líder-seguidor permite teleoperar movendo um braço gêmeo à mão. O baixo custo viabiliza coleta de dados própria e fine-tuning local sem investimento industrial.

6 Compute embarcado: Jetson e latência

O que é

O hardware de computação que roda o VLA, frequentemente embarcado no próprio robô. A linha NVIDIA Jetson (Orin Nano, AGX Orin) é o padrão para inferência on-device, oferecendo GPU em formato compacto e baixo consumo, viável para deploy autônomo sem servidor externo.

Por que aprender

A escolha do compute determina se o VLA roda em tempo real no robô. Um modelo que exige uma GPU de datacenter não pode ir num humanoide autônomo. Entender os requisitos de latência e memória do Jetson é decisivo para projetar sistemas realmente deployáveis.

Conceitos-chave

Latência de inferência precisa caber no período de controle (ex.: <100 ms para 10 Hz). Quantização (INT8/INT4) e TensorRT otimizam o modelo para o Jetson. O trade-off edge vs cloud opõe autonomia e baixa latência on-device contra a maior capacidade de servidores remotos com risco de delay de rede.

MÓDULO 1.6

Segurança e Normas: ISO 10218:2025

Safety-by-design e as normas que governam a colaboração humano-robô.

1 ISO 10218:2025: a norma de robôs industriais

O que é

A ISO 10218:2025 é a norma internacional que define requisitos de segurança para robôs industriais e suas integrações. A revisão de 2025 unificou e atualizou as partes 1 (robô) e 2 (integração de sistema/célula), incorporando explicitamente operação colaborativa e cenários modernos de interação humano-robô.

Por que aprender

Qualquer deploy real de robô em ambiente produtivo precisa estar em conformidade com essa norma. Para quem trabalha com VLAs, ela define o envelope de segurança dentro do qual o modelo pode operar, sendo pré-requisito legal e ético antes de colocar um robô perto de pessoas.

Conceitos-chave

A norma especifica requisitos de projeto, parada protetora e funções de segurança com nível de desempenho (PL) definido por ISO 13849. Distingue robô (parte 1) de célula integrada (parte 2). A edição 2025 alinha-se com a evolução dos cobots e da operação colaborativa contínua.

2 ISO/TS 15066: limites de força e pressão

O que é

A ISO/TS 15066 é a especificação técnica que complementa a ISO 10218 com foco específico em robôs colaborativos. Define limites biomecânicos de força e pressão por região do corpo humano, garantindo que um contato robô-humano não cause lesão.

Por que aprender

É a norma que torna a colaboração humano-robô fisicamente segura. Qualquer VLA que controle um cobot operando perto de pessoas precisa respeitar esses limites, que na prática restringem velocidade e força máximas das ações que o modelo pode emitir.

Conceitos-chave

Os limites biomecânicos são tabelados por parte do corpo (ex.: pressão máxima na mão vs no rosto). Define os quatro modos de colaboração, incluindo power-and-force limiting (PFL) e speed-and-separation monitoring (SSM). É uma technical specification (TS), de natureza orientativa, mas referenciada pela ISO 10218.

3 Safety-by-design para VLA

O que é

A filosofia de incorporar segurança desde a concepção do sistema, em vez de adicioná-la como remendo posterior. Para VLAs, significa projetar a arquitetura, o espaço de ação e os limites do modelo de modo que comportamentos perigosos sejam estruturalmente difíceis ou impossíveis.

Por que aprender

VLAs são modelos generativos imprevisíveis; não basta confiar que "vão se comportar bem". Safety-by-design é o que permite usar modelos probabilísticos em sistemas físicos sem expor humanos a risco, sendo uma competência central para qualquer engenheiro de robótica responsável.

Conceitos-chave

Action clamping limita fisicamente a saída do modelo a faixas seguras de velocidade e força. Camadas de segurança independentes do modelo (safety controllers determinísticos) atuam como rede de proteção. O princípio de defense-in-depth combina múltiplas barreiras redundantes para que nenhuma falha isolada cause dano.

4 Parada de emergência e zonas: SSM e PFL

O que é

Os mecanismos físicos e lógicos que interrompem ou modulam o movimento do robô na presença de humanos. Inclui botões de parada de emergência (e-stop), zonas de segurança monitoradas e os dois modos colaborativos principais: SSM (monitoramento de velocidade e separação) e PFL (limitação de potência e força).

Por que aprender

São as salvaguardas de última instância que protegem pessoas independentemente do que o VLA decida fazer. Entender como SSM e PFL funcionam revela onde o modelo de IA termina e o sistema de segurança determinístico assume o controle.

Conceitos-chave

Speed-and-separation monitoring (SSM) reduz a velocidade conforme um humano se aproxima, parando antes do contato. Power-and-force limiting (PFL) permite contato, mas dentro dos limites biomecânicos da TS 15066. A parada de emergência categoria 0/1 corta energia de forma segura e independente do software de controle.

5 Análise e mitigação de risco

O que é

O processo sistemático de identificar perigos potenciais de um sistema robótico, estimar a gravidade e probabilidade de cada um, e definir medidas para reduzi-los a níveis aceitáveis. É uma etapa obrigatória, exigida pelas normas, antes de qualquer deploy.

Por que aprender

Toda integração robótica em conformidade começa por uma análise de risco. Para sistemas com VLA, ela precisa considerar a imprevisibilidade do modelo, ampliando o escopo de perigos a avaliar. Saber conduzi-la é pré-requisito para qualquer projeto sério.

Conceitos-chave

A hierarquia de mitigação prioriza eliminação do perigo, depois proteções de engenharia, depois avisos e EPI. Métodos como HAZOP e FMEA estruturam a identificação de falhas. A redução de risco é iterativa: avalia-se, mitiga-se e reavalia-se até o risco residual ser aceitável.

6 Guardrails, fail-safe e validação de VLAs

O que é

O conjunto de salvaguardas específicas para modelos generativos em controle físico: guardrails que filtram ou bloqueiam ações inseguras propostas pelo VLA, comportamentos fail-safe que levam o robô a um estado seguro em caso de falha, e processos de verificação e validação (V&V) que comprovam o comportamento do sistema.

Por que aprender

É a fronteira entre VLA experimental e VLA deployável. Como modelos generativos podem alucinar ações, guardrails e fail-safes são o que permite confiar neles em produção. Sem V&V robusta, nenhum sistema VLA deveria operar perto de humanos.

Conceitos-chave

Guardrails validam cada ação contra restrições de segurança antes da execução, rejeitando comandos fora do envelope. Fail-safe behaviors definem o estado seguro padrão (parar, soltar carga suavemente) quando algo dá errado. Verificação e validação combinam testes em simulação, runtime monitoring e avaliação estatística de comportamento em larga escala.

Fundamentos

Mapa da trilha

🌍 O Grande Cenário

🔬 Anatomia de um VLA

🗺️ Panorama dos Modelos

📦 Datasets

🤖 Hardware

🛡️ Segurança e Normas

Conteúdo detalhado

De LLMs a Robôs que Agem: O Grande Cenário

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

Anatomia de um VLA: Visão + Linguagem + Ação

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

Panorama dos Modelos: RT-2, OpenVLA, π0, Qwen-VLA

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

Datasets: Open X-Embodiment e DROID

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é

Por que aprender

Conceitos-chave

O que é