Conteúdo detalhado
🚶 Por que humanoides: mundo feito para humanos
A tese do humanoide é simples e poderosa: o mundo já foi construído para a forma humana. Maçanetas, escadas, ferramentas, bancadas e veículos pressupõem duas mãos, dois pés e altura de pessoa. Um robô humanoide opera nesse estoque mundial de infraestrutura — brownfield — sem reformá-lo, ao contrário de braços fixos que exigem células dedicadas.
💡 A aposta de fundo
Generalidade de forma (humanoide) × generalidade de cérebro (foundation model VLA) = um único produto endereçando incontáveis tarefas. É a convergência que move dezenas de bilhões em capital para o setor desde 2024.
📊 Por que a forma humana é difícil — e vale a pena
- ~30-50 DOF — um humanoide tem ordem de magnitude mais graus de liberdade que um braço, exigindo whole-body control.
- Equilíbrio dinâmico — bípede é instável por natureza; manipular caminhando é o teste real de utilidade.
- TAM gigantesco — o argumento econômico é endereçar trabalho físico genérico, não uma estação só.
Generalidade de forma
1 corpo, N ambientes.
Brownfield
Opera infra existente.
Dexterity
Mãos hábeis multi-dedo.
DOF
Graus de liberdade altos.
🟢 NVIDIA GR00T (N1/N1.5): foundation model dual
GR00T é o foundation model aberto da NVIDIA para humanoides. O N1 inaugurou um modelo de fundação cross-embodiment com sistema dual — um módulo de raciocínio lento (System 2, baseado em VLM) e um módulo de ação rápido (System 1, baseado em difusão). O N1.5 refinou seguimento de instrução e generalização. A NVIDIA acopla a isso o pipeline Isaac GR00T + Cosmos para gerar dados sintéticos e neural-trajectories em massa.
GR00T N1 — pilha de dados (pirâmide)
topo: poucas demos reais (teleoperação) ← fidelidade
meio: dados sintéticos (Isaac/Cosmos) ← escala física
base: vídeo humano web + neural trajectories ← semântica / amplitude
=> cross-embodiment: 1 modelo treinado para muitos corpos
⚡ Por que importa estrategicamente
A NVIDIA não fabrica humanoides — fornece o cérebro + a fábrica de dados + o silício. Vários OEMs (1X, Agility, Boston Dynamics, Unitree e outros) adotam GR00T/Isaac, posicionando a NVIDIA como a camada horizontal do ecossistema, análoga ao que CUDA foi para deep learning.
GR00T N1/N1.5
Foundation aberto p/ humanoide.
Sistema dual
Raciocínio + ação.
Cosmos / Isaac
Dados sintéticos em massa.
Cross-embodiment
1 modelo, muitos corpos.
🔵 Figure Helix: VLA hierárquico (System 1/2)
Helix, da Figure, é um VLA hierárquico que rodou onboard num humanoide. O System 2 (VLM de internet, ~7-9 Hz) entende cena e instrução e emite um vetor latente; o System 1 (política visuomotora, ~200 Hz) decodifica esse latente em controle contínuo de torso, cabeça e mãos hábeis. Foi um dos primeiros a controlar o tronco superior completo de um humanoide com um único VLA — e a rodar dois robôs colaborando com um mesmo modelo.
System 2 — pensar (lento)
VLM generalista interpreta "guarde a louça"; produz intenção latente sem precisar rodar a 200 Hz.
System 1 — agir (rápido)
Transformer visuomotor consome o latente e gera comandos de alta frequência para mãos e torso.
💡 O conflito que o dual-system resolve
Um VLM grande é esperto mas lento; um controlador rápido é ágil mas burro. Separar os dois e conectá-los por um vetor latente dá o melhor dos dois: raciocínio generalista + malha de controle de alta frequência. É a arquitetura convergente dos humanoides de ponta.
Helix
VLA hierárquico da Figure.
System 1/2
Rápido + lento acoplados.
Latent vector
Ponte entre os sistemas.
Whole-upper-body
Torso + mãos por 1 VLA.
🔴 Tesla Optimus: integração com pilha de visão/FSD
Optimus é a aposta da Tesla em um humanoide reusando a infraestrutura de IA do FSD: redes de visão end-to-end, compute proprietário e cultura de coleta de dados em escala. A estratégia é começar pela manufatura interna (mover peças nas próprias fábricas), gerando dados de teleoperação verticalmente integrados antes de escalar para fora.
✓ Vantagens da Tesla
- ✓Reuso da pilha de visão end-to-end e dados do FSD.
- ✓Escala de manufatura própria e atuadores projetados in-house.
- ✓Demanda interna cativa para fechar o loop de dados.
✗ Desafios em aberto
- ✗Manipulação dexterosa robusta ainda é o gargalo (mãos).
- ✗Cronogramas anunciados historicamente otimistas.
- ✗Generalização fora da fábrica ainda por provar em escala.
Optimus
Humanoide da Tesla.
FSD reuse
Visão end-to-end compartilhada.
Escala industrial
Fábrica como primeiro cliente.
Atuadores próprios
Integração vertical de hardware.
🟠 Unitree e o open hardware: G1/H1
A Unitree mudou o jogo da pesquisa ao lançar humanoides de baixo custo: o H1 (full-size, locomoção ágil) e o G1 (~1,27 m, a partir de ~US$ 16k). De repente, laboratórios sem orçamento de milhões puderam rodar políticas em hardware real. O resultado foi uma explosão de papers de locomoção e loco-manipulation usando G1/H1 como plataforma padrão.
📊 Por que o custo importa
- ~10-50× mais barato que plataformas de pesquisa ocidentais comparáveis.
- SDK aberto e ROS2 — baixa barreira para integrar políticas VLA e RL de marcha.
- Padronização — comparabilidade entre papers acelera o campo todo.
⚡ Dica estratégica
Hardware acessível desloca o gargalo do campo de "ter um robô" para "ter dados e algoritmos". Quem domina coleta de dados e arquitetura — não quem fabrica o braço — captura mais valor. Foi assim que o open hardware acelerou a fronteira.
Unitree G1/H1
Humanoides de baixo custo.
~US$ 16k
Preço-base do G1.
SDK aberto
Integração fácil.
Plataforma padrão
Base de muitos papers.
⚖️ Locomoção + manipulação: whole-body control
A fronteira do humanoide não é caminhar nem agarrar isoladamente — é fazer os dois ao mesmo tempo. O whole-body control coordena marcha, equilíbrio e braços num só controlador, geralmente com RL para locomoção robusta em terreno variado e uma política de manipulação acoplada. Manipular enquanto se equilibra é o que separa uma demo viral de utilidade econômica real.
RL de marcha em sim
Política de locomoção robusta treinada em milhares de terrenos randomizados (sim-to-real do M3.1).
Equilíbrio sob perturbação
Controlar o centro de massa enquanto os braços aplicam força externa (empurrar, carregar).
Loco-manipulation acoplada
Andar até um armário, abrir e guardar um objeto: skills encadeadas num corpo único.
Whole-body control
Coordenar corpo inteiro.
RL de marcha
Locomoção robusta.
Balance
Centro de massa sob força.
Loco-manipulation
Andar + manipular junto.
✅ Resumo do módulo
Próximo módulo
3.3 — Arquiteturas Híbridas: LLM Planner + VLA Executor. Como o dual-system se generaliza para planejamento de horizonte longo.