A tese central da Trilha 1: um único modelo VLA generaliza percepção, linguagem e ação para muitos corpos robóticos.
Mapa da trilha
Seis módulos, do panorama estratégico à matemática da geração de ações.
O Grande Cenário
De LLMs a robôs que agem
Anatomia VLA
Vision, language e action por dentro
Evolução dos Modelos
RT-1 até π0 e Qwen-VLA
Imitation & BC
Clonar comportamento, vencer o drift
Diffusion & Flow
Gerar ação a partir do ruído
Tokenização de Ações
Discreto, contínuo e FAST
Conteúdo detalhado
🌐 O Grande Cenário: De LLMs a Robôs que Agem
Por que LLMs sozinhos não tocam o mundo, o que é IA incorporada e por que 2026 é o momento dos foundation models para robótica.
O que é: a cadeia que transforma pixels e instruções em torque motor. LLMs dominam a etapa de linguagem mas não fecham o loop com o mundo físico.
Por que aprender: entender onde o gargalo da "ação" mora é o que separa um chatbot de um robô.
Conceitos-chave: grounding, embodiment, loop sensório-motor.
O que é: raciocínio abstrato é fácil para máquinas; sensório-motricidade é difícil. Manipulação destrava o gargalo mais antigo da IA.
Por que aprender: explica por que "pegar um copo" é mais difícil que jogar xadrez.
Conceitos-chave: paradoxo de Moravec, contato, dexterity gap.
O que é: a tese de generalização — um modelo treinado em muitas tarefas e corpos supera N políticas especializadas.
Por que aprender: é a aposta que move Google, PI e NVIDIA.
Conceitos-chave: generalist policy, cross-embodiment, transferência positiva.
O que é: co-fine-tuning de um VLM web-scale transfere conhecimento semântico para a ação (generalização para objetos nunca vistos em demos).
Por que aprender: é o nascimento do paradigma VLA moderno.
Conceitos-chave: web→action transfer, semantic generalization, emergent skills.
O que é: Google DeepMind, Physical Intelligence, NVIDIA, Figure e Tesla — quem faz o quê e por quê.
Por que aprender: mapear os players orienta carreira e leitura de papers.
Conceitos-chave: GR00T, π0, Helix, Optimus.
O que é: a convergência de Open X-Embodiment, GPUs e transformers/difusão tornou os VLAs viáveis.
Por que aprender: entender o "porquê 2026" antecipa a próxima onda.
Conceitos-chave: Open X-Embodiment, scaling, momento Pareto.
🧬 Anatomia VLA: Vision + Language + Action
Os blocos internos de um VLA: encoder de visão, backbone de linguagem, fusão multimodal, action head, propriocepção e o loop de controle.
O que é: patches de imagem viram tokens visuais; DINOv2 traz features espaciais, SigLIP alinha visão e texto.
Por que aprender: a escolha do encoder define o que o robô "enxerga".
Conceitos-chave: patch embedding, dual encoder, frozen backbone.
O que é: um LLM pré-treinado vira o núcleo de raciocínio que integra instrução, contexto e visão.
Por que aprender: é onde mora a generalização semântica.
Conceitos-chave: PaliGemma, Prismatic, transformer decoder.
O que é: como tokens de imagem e texto entram no mesmo contexto — concatenados (early) ou via atenção cruzada.
Por que aprender: define eficiência e capacidade de grounding.
Conceitos-chave: early fusion, cross-attention, token budget.
O que é: converte o estado latente do backbone em comandos motores — Δpose do efetuador e gripper.
Por que aprender: é o ponto onde difusão, tokens e regressão competem.
Conceitos-chave: action expert, detokenizer, end-effector delta.
O que é: juntas, força e histórico temporal entram como observação adicional além da câmera.
Por que aprender: sem estado, o robô "esquece" onde está.
Conceitos-chave: proprioception, observation history, state token.
O que é: frequência de inferência, latência e a predição de blocos de ações (chunks) com receding horizon.
Por que aprender: latência mal resolvida mata a tarefa real.
Conceitos-chave: action chunking, horizonte de predição, control rate.
📈 Evolução dos Modelos: RT-1, RT-2, OpenVLA, π0, Qwen-VLA
A linhagem dos VLAs de 2022 a 2026, com tamanhos, dados, tokenização, licenças e os saltos arquiteturais de cada geração.
O que é: transformer com condicionamento FiLM, ações discretizadas em bins, treinado em ~130k demos.
Por que aprender: é a fundação que provou tokenizar ações.
Conceitos-chave: FiLM, action binning, EfficientNet tokens.
O que é: ações viram tokens de texto num VLM (PaLI-X/PaLM-E), com co-fine-tuning web+robô.
Por que aprender: inaugurou a generalização semântica emergente.
Conceitos-chave: action-as-text, co-fine-tuning, chain-of-thought robótico.
O que é: OpenVLA-7B (Prismatic VLM + OXE) e Octo abrem o paradigma com fine-tuning eficiente via LoRA.
Por que aprender: são os modelos que você consegue rodar de fato.
Conceitos-chave: Prismatic, OXE, LoRA, quantização.
O que é: VLA generalista com action expert via flow matching, ação contínua a 50Hz, PaliGemma como base.
Por que aprender: é o estado da arte em manipulação fluida.
Conceitos-chave: flow matching, action expert, open-world.
O que é: VLMs grandes (Qwen2-VL e afins) como base de VLAs que unem raciocínio e ação.
Por que aprender: mostra a tendência de bases cada vez maiores.
Conceitos-chave: reasoning-VLA, base scaling, embodied reasoning.
O que é: tabela tamanho × dados × tokenização × licença × desempenho dos principais VLAs.
Por que aprender: escolher modelo exige comparar trade-offs.
Conceitos-chave: benchmark, licença, parâmetros vs dados.
🎯 Aprendizado por Imitação e Behavior Cloning
Como robôs aprendem com demonstrações humanas, por que behavior cloning quebra com o tempo e o que fazer a respeito.
O que é: regressão supervisionada estado→ação que copia o demonstrador.
Por que aprender: 90% dos VLAs treinam por BC.
Conceitos-chave: supervised policy, π(a|s), maximum likelihood.
O que é: pequenos erros tiram o robô da distribuição de treino, e o erro se acumula quadraticamente no horizonte.
Por que aprender: é a falha número um do BC ingênuo.
Conceitos-chave: covariate shift, compounding error, O(T²).
O que é: DAgger coleta correções nos estados visitados pela política; teleoperação gera as demos humanas.
Por que aprender: qualidade da coleta define o teto da política.
Conceitos-chave: DAgger, on-policy correction, leader-follower.
O que é: múltiplas ações válidas para um mesmo estado; a média (MSE) cai no vão entre elas.
Por que aprender: justifica difusão e políticas expressivas.
Conceitos-chave: multimodal actions, mode averaging, expressive policy.
O que é: diversidade de objetos, posições e demonstrações ótimas vs sub-ótimas importam mais que volume bruto.
Por que aprender: dado ruim limita qualquer arquitetura.
Conceitos-chave: coverage, diversity, demo quality.
O que é: success rate é o norte, mas generalização para objetos/posições/instruções novas é o teste real.
Por que aprender: métrica errada engana.
Conceitos-chave: success rate, OOD eval, generalization axes.
🌫️ Diffusion Policy e Flow Matching
A matemática que gera ações multimodais a partir do ruído: DDPM condicionado, score matching, flow matching e o custo de inferência.
O que é: difusão captura distribuições multimodais fazendo denoising de trajetórias inteiras.
Por que aprender: resolve o mode averaging do MSE.
Conceitos-chave: denoising, multimodal, trajectory generation.
O que é: DDPM condicionado na observação, com action chunking e receding horizon.
Por que aprender: virou o baseline de manipulação fina.
Conceitos-chave: DDPM, receding horizon, U-Net/transformer policy.
O que é: aprender o gradiente da densidade (score) para reverter o ruído; conditioning via FiLM/cross-attention.
Por que aprender: é a engrenagem matemática da difusão.
Conceitos-chave: score function, reverse process, conditioning.
O que é: aprender um campo vetorial que transporta ruído→ação por uma ODE; treino mais simples e estável.
Por que aprender: é o que faz o π0 fluir a 50Hz.
Conceitos-chave: flow matching, ODE, conditional vector field.
O que é: número de passos de denoising vira latência; consistency models e destilação cortam para poucos passos.
Por que aprender: tempo real exige poucos NFEs.
Conceitos-chave: NFE, consistency model, distillation.
O que é: trade-off entre a expressividade da difusão e a simplicidade/latência dos tokens autoregressivos.
Por que aprender: dita a escolha de action head.
Conceitos-chave: expressividade × latência, AR vs diffusion.
🔢 Tokenização de Ações: Discreto vs Contínuo vs FAST
Como representar ações para o modelo: regressão contínua, binning discreto e o esquema FAST baseado em DCT que comprime no domínio da frequência.
O que é: a cabeça emite floats diretamente; simples, mas pobre em multimodalidade se usada com MSE.
Por que aprender: é o baseline contra o qual se mede o resto.
Conceitos-chave: regressão, L1/L2, unimodalidade.
O que é: cada dimensão é dividida em bins e tratada como classe; ganha multimodalidade, perde resolução e correlação entre dimensões.
Por que aprender: foi o esquema dominante por anos.
Conceitos-chave: uniform binning, quantização, cross-entropy.
O que é: a 50Hz, tokens por timestep ficam quase idênticos e redundantes, criando sequências longuíssimas.
Por que aprender: é a dor que o FAST resolve.
Conceitos-chave: redundância temporal, sequência longa, controle dinâmico.
O que é: aplica DCT na trajetória, quantiza coeficientes e comprime com BPE — tokens curtos no domínio da frequência (PI, 2025).
Por que aprender: destrava treino autoregressivo rápido e fiel.
Conceitos-chave: DCT, BPE, frequency-domain compression.
O que é: menos tokens treinam mais rápido mas podem perder fidelidade; FAST move a fronteira de Pareto.
Por que aprender: é a decisão de engenharia central.
Conceitos-chave: Pareto, sequence length, training speed.
O que é: tarefa lenta tolera binning; tarefa dinâmica pede FAST ou difusão. A escolha molda toda a cabeça de ação.
Por que aprender: fecha a Trilha 1 conectando representação e arquitetura.
Conceitos-chave: task dynamics, head design, decisão de representação.
Pronto para a Trilha 2
Com a base teórica firme, é hora de colocar a mão na massa: PyTorch, LeRobot, simuladores, ROS2, hardware e datasets.