← Mapa do curso TRILHA 1

🦾 Fundamentos da IA Incorporada

O mapa conceitual completo dos modelos Vision-Language-Action: da pilha cognitiva percepção→linguagem→ação até a anatomia interna de um VLA, a evolução RT-1→π0, imitation learning, diffusion policy, flow matching e tokenização de ações. A base teórica que sustenta tudo que vem depois.

6
Módulos
36
Tópicos
~4h
Duração
B→A
Básico→Avançado
👁 Percepção pixels → tokens visuais 💬 Linguagem instrução → raciocínio 🦾 Ação Δpose · gripper · torque Modelo VLA Vision · Language · Action um cérebro, N corpos 🤖 Braço fixo 🦿 Humanoide 🚗 Móvel/manip.

A tese central da Trilha 1: um único modelo VLA generaliza percepção, linguagem e ação para muitos corpos robóticos.

Mapa da trilha

Seis módulos, do panorama estratégico à matemática da geração de ações.

1.1~35 min
🌐

O Grande Cenário

De LLMs a robôs que agem

1.2~40 min
🧬

Anatomia VLA

Vision, language e action por dentro

1.3~45 min
📈

Evolução dos Modelos

RT-1 até π0 e Qwen-VLA

1.4~40 min
🎯

Imitation & BC

Clonar comportamento, vencer o drift

1.5~50 min
🌫️

Diffusion & Flow

Gerar ação a partir do ruído

1.6~45 min
🔢

Tokenização de Ações

Discreto, contínuo e FAST

Conteúdo detalhado

Módulo 1.1 ~35 min · Básico

🌐 O Grande Cenário: De LLMs a Robôs que Agem

Por que LLMs sozinhos não tocam o mundo, o que é IA incorporada e por que 2026 é o momento dos foundation models para robótica.

O que é: a cadeia que transforma pixels e instruções em torque motor. LLMs dominam a etapa de linguagem mas não fecham o loop com o mundo físico.

Por que aprender: entender onde o gargalo da "ação" mora é o que separa um chatbot de um robô.

Conceitos-chave: grounding, embodiment, loop sensório-motor.

O que é: raciocínio abstrato é fácil para máquinas; sensório-motricidade é difícil. Manipulação destrava o gargalo mais antigo da IA.

Por que aprender: explica por que "pegar um copo" é mais difícil que jogar xadrez.

Conceitos-chave: paradoxo de Moravec, contato, dexterity gap.

O que é: a tese de generalização — um modelo treinado em muitas tarefas e corpos supera N políticas especializadas.

Por que aprender: é a aposta que move Google, PI e NVIDIA.

Conceitos-chave: generalist policy, cross-embodiment, transferência positiva.

O que é: co-fine-tuning de um VLM web-scale transfere conhecimento semântico para a ação (generalização para objetos nunca vistos em demos).

Por que aprender: é o nascimento do paradigma VLA moderno.

Conceitos-chave: web→action transfer, semantic generalization, emergent skills.

O que é: Google DeepMind, Physical Intelligence, NVIDIA, Figure e Tesla — quem faz o quê e por quê.

Por que aprender: mapear os players orienta carreira e leitura de papers.

Conceitos-chave: GR00T, π0, Helix, Optimus.

O que é: a convergência de Open X-Embodiment, GPUs e transformers/difusão tornou os VLAs viáveis.

Por que aprender: entender o "porquê 2026" antecipa a próxima onda.

Conceitos-chave: Open X-Embodiment, scaling, momento Pareto.

Ver Completo →
Módulo 1.2 ~40 min · Básico

🧬 Anatomia VLA: Vision + Language + Action

Os blocos internos de um VLA: encoder de visão, backbone de linguagem, fusão multimodal, action head, propriocepção e o loop de controle.

O que é: patches de imagem viram tokens visuais; DINOv2 traz features espaciais, SigLIP alinha visão e texto.

Por que aprender: a escolha do encoder define o que o robô "enxerga".

Conceitos-chave: patch embedding, dual encoder, frozen backbone.

O que é: um LLM pré-treinado vira o núcleo de raciocínio que integra instrução, contexto e visão.

Por que aprender: é onde mora a generalização semântica.

Conceitos-chave: PaliGemma, Prismatic, transformer decoder.

O que é: como tokens de imagem e texto entram no mesmo contexto — concatenados (early) ou via atenção cruzada.

Por que aprender: define eficiência e capacidade de grounding.

Conceitos-chave: early fusion, cross-attention, token budget.

O que é: converte o estado latente do backbone em comandos motores — Δpose do efetuador e gripper.

Por que aprender: é o ponto onde difusão, tokens e regressão competem.

Conceitos-chave: action expert, detokenizer, end-effector delta.

O que é: juntas, força e histórico temporal entram como observação adicional além da câmera.

Por que aprender: sem estado, o robô "esquece" onde está.

Conceitos-chave: proprioception, observation history, state token.

O que é: frequência de inferência, latência e a predição de blocos de ações (chunks) com receding horizon.

Por que aprender: latência mal resolvida mata a tarefa real.

Conceitos-chave: action chunking, horizonte de predição, control rate.

Ver Completo →
Módulo 1.3 ~45 min · Intermediário

📈 Evolução dos Modelos: RT-1, RT-2, OpenVLA, π0, Qwen-VLA

A linhagem dos VLAs de 2022 a 2026, com tamanhos, dados, tokenização, licenças e os saltos arquiteturais de cada geração.

O que é: transformer com condicionamento FiLM, ações discretizadas em bins, treinado em ~130k demos.

Por que aprender: é a fundação que provou tokenizar ações.

Conceitos-chave: FiLM, action binning, EfficientNet tokens.

O que é: ações viram tokens de texto num VLM (PaLI-X/PaLM-E), com co-fine-tuning web+robô.

Por que aprender: inaugurou a generalização semântica emergente.

Conceitos-chave: action-as-text, co-fine-tuning, chain-of-thought robótico.

O que é: OpenVLA-7B (Prismatic VLM + OXE) e Octo abrem o paradigma com fine-tuning eficiente via LoRA.

Por que aprender: são os modelos que você consegue rodar de fato.

Conceitos-chave: Prismatic, OXE, LoRA, quantização.

O que é: VLA generalista com action expert via flow matching, ação contínua a 50Hz, PaliGemma como base.

Por que aprender: é o estado da arte em manipulação fluida.

Conceitos-chave: flow matching, action expert, open-world.

O que é: VLMs grandes (Qwen2-VL e afins) como base de VLAs que unem raciocínio e ação.

Por que aprender: mostra a tendência de bases cada vez maiores.

Conceitos-chave: reasoning-VLA, base scaling, embodied reasoning.

O que é: tabela tamanho × dados × tokenização × licença × desempenho dos principais VLAs.

Por que aprender: escolher modelo exige comparar trade-offs.

Conceitos-chave: benchmark, licença, parâmetros vs dados.

Ver Completo →
Módulo 1.4 ~40 min · Intermediário

🎯 Aprendizado por Imitação e Behavior Cloning

Como robôs aprendem com demonstrações humanas, por que behavior cloning quebra com o tempo e o que fazer a respeito.

O que é: regressão supervisionada estado→ação que copia o demonstrador.

Por que aprender: 90% dos VLAs treinam por BC.

Conceitos-chave: supervised policy, π(a|s), maximum likelihood.

O que é: pequenos erros tiram o robô da distribuição de treino, e o erro se acumula quadraticamente no horizonte.

Por que aprender: é a falha número um do BC ingênuo.

Conceitos-chave: covariate shift, compounding error, O(T²).

O que é: DAgger coleta correções nos estados visitados pela política; teleoperação gera as demos humanas.

Por que aprender: qualidade da coleta define o teto da política.

Conceitos-chave: DAgger, on-policy correction, leader-follower.

O que é: múltiplas ações válidas para um mesmo estado; a média (MSE) cai no vão entre elas.

Por que aprender: justifica difusão e políticas expressivas.

Conceitos-chave: multimodal actions, mode averaging, expressive policy.

O que é: diversidade de objetos, posições e demonstrações ótimas vs sub-ótimas importam mais que volume bruto.

Por que aprender: dado ruim limita qualquer arquitetura.

Conceitos-chave: coverage, diversity, demo quality.

O que é: success rate é o norte, mas generalização para objetos/posições/instruções novas é o teste real.

Por que aprender: métrica errada engana.

Conceitos-chave: success rate, OOD eval, generalization axes.

Ver Completo →
Módulo 1.5 ~50 min · Avançado

🌫️ Diffusion Policy e Flow Matching

A matemática que gera ações multimodais a partir do ruído: DDPM condicionado, score matching, flow matching e o custo de inferência.

O que é: difusão captura distribuições multimodais fazendo denoising de trajetórias inteiras.

Por que aprender: resolve o mode averaging do MSE.

Conceitos-chave: denoising, multimodal, trajectory generation.

O que é: DDPM condicionado na observação, com action chunking e receding horizon.

Por que aprender: virou o baseline de manipulação fina.

Conceitos-chave: DDPM, receding horizon, U-Net/transformer policy.

O que é: aprender o gradiente da densidade (score) para reverter o ruído; conditioning via FiLM/cross-attention.

Por que aprender: é a engrenagem matemática da difusão.

Conceitos-chave: score function, reverse process, conditioning.

O que é: aprender um campo vetorial que transporta ruído→ação por uma ODE; treino mais simples e estável.

Por que aprender: é o que faz o π0 fluir a 50Hz.

Conceitos-chave: flow matching, ODE, conditional vector field.

O que é: número de passos de denoising vira latência; consistency models e destilação cortam para poucos passos.

Por que aprender: tempo real exige poucos NFEs.

Conceitos-chave: NFE, consistency model, distillation.

O que é: trade-off entre a expressividade da difusão e a simplicidade/latência dos tokens autoregressivos.

Por que aprender: dita a escolha de action head.

Conceitos-chave: expressividade × latência, AR vs diffusion.

Ver Completo →
Módulo 1.6 ~45 min · Avançado

🔢 Tokenização de Ações: Discreto vs Contínuo vs FAST

Como representar ações para o modelo: regressão contínua, binning discreto e o esquema FAST baseado em DCT que comprime no domínio da frequência.

O que é: a cabeça emite floats diretamente; simples, mas pobre em multimodalidade se usada com MSE.

Por que aprender: é o baseline contra o qual se mede o resto.

Conceitos-chave: regressão, L1/L2, unimodalidade.

O que é: cada dimensão é dividida em bins e tratada como classe; ganha multimodalidade, perde resolução e correlação entre dimensões.

Por que aprender: foi o esquema dominante por anos.

Conceitos-chave: uniform binning, quantização, cross-entropy.

O que é: a 50Hz, tokens por timestep ficam quase idênticos e redundantes, criando sequências longuíssimas.

Por que aprender: é a dor que o FAST resolve.

Conceitos-chave: redundância temporal, sequência longa, controle dinâmico.

O que é: aplica DCT na trajetória, quantiza coeficientes e comprime com BPE — tokens curtos no domínio da frequência (PI, 2025).

Por que aprender: destrava treino autoregressivo rápido e fiel.

Conceitos-chave: DCT, BPE, frequency-domain compression.

O que é: menos tokens treinam mais rápido mas podem perder fidelidade; FAST move a fronteira de Pareto.

Por que aprender: é a decisão de engenharia central.

Conceitos-chave: Pareto, sequence length, training speed.

O que é: tarefa lenta tolera binning; tarefa dinâmica pede FAST ou difusão. A escolha molda toda a cabeça de ação.

Por que aprender: fecha a Trilha 1 conectando representação e arquitetura.

Conceitos-chave: task dynamics, head design, decisão de representação.

Ver Completo →

Pronto para a Trilha 2

Com a base teórica firme, é hora de colocar a mão na massa: PyTorch, LeRobot, simuladores, ROS2, hardware e datasets.