← Voltar à Trilha 3 MÓDULO 3.2

🤖 Humanoides: Figure, Tesla, Unitree, GR00T

A aposta mais audaciosa da robótica em 2026: um corpo de propósito geral, com forma humana, capaz de operar o mundo que já construímos para nós — e os foundation models que o controlam.

6
Tópicos
~50
Minutos
Avançado
Nível
Teoria
Tipo

Conteúdo detalhado

SYSTEM 2 VLM lento · ~7-9 Hz raciocínio · linguagem · plano visão semântica · objetivo vetor latente z (intenção) SYSTEM 1 política rápida · ~200 Hz controle motor mãos · torso · juntas
1

🚶 Por que humanoides: mundo feito para humanos

A tese do humanoide é simples e poderosa: o mundo já foi construído para a forma humana. Maçanetas, escadas, ferramentas, bancadas e veículos pressupõem duas mãos, dois pés e altura de pessoa. Um robô humanoide opera nesse estoque mundial de infraestrutura — brownfield — sem reformá-lo, ao contrário de braços fixos que exigem células dedicadas.

💡 A aposta de fundo

Generalidade de forma (humanoide) × generalidade de cérebro (foundation model VLA) = um único produto endereçando incontáveis tarefas. É a convergência que move dezenas de bilhões em capital para o setor desde 2024.

📊 Por que a forma humana é difícil — e vale a pena

  • ~30-50 DOF — um humanoide tem ordem de magnitude mais graus de liberdade que um braço, exigindo whole-body control.
  • Equilíbrio dinâmico — bípede é instável por natureza; manipular caminhando é o teste real de utilidade.
  • TAM gigantesco — o argumento econômico é endereçar trabalho físico genérico, não uma estação só.

Generalidade de forma

1 corpo, N ambientes.

Brownfield

Opera infra existente.

Dexterity

Mãos hábeis multi-dedo.

DOF

Graus de liberdade altos.

2

🟢 NVIDIA GR00T (N1/N1.5): foundation model dual

GR00T é o foundation model aberto da NVIDIA para humanoides. O N1 inaugurou um modelo de fundação cross-embodiment com sistema dual — um módulo de raciocínio lento (System 2, baseado em VLM) e um módulo de ação rápido (System 1, baseado em difusão). O N1.5 refinou seguimento de instrução e generalização. A NVIDIA acopla a isso o pipeline Isaac GR00T + Cosmos para gerar dados sintéticos e neural-trajectories em massa.

GR00T N1 — pilha de dados (pirâmide)
  topo:  poucas demos reais (teleoperação)      ← fidelidade
  meio:  dados sintéticos (Isaac/Cosmos)        ← escala física
  base:  vídeo humano web + neural trajectories ← semântica / amplitude
=> cross-embodiment: 1 modelo treinado para muitos corpos

⚡ Por que importa estrategicamente

A NVIDIA não fabrica humanoides — fornece o cérebro + a fábrica de dados + o silício. Vários OEMs (1X, Agility, Boston Dynamics, Unitree e outros) adotam GR00T/Isaac, posicionando a NVIDIA como a camada horizontal do ecossistema, análoga ao que CUDA foi para deep learning.

GR00T N1/N1.5

Foundation aberto p/ humanoide.

Sistema dual

Raciocínio + ação.

Cosmos / Isaac

Dados sintéticos em massa.

Cross-embodiment

1 modelo, muitos corpos.

3

🔵 Figure Helix: VLA hierárquico (System 1/2)

Helix, da Figure, é um VLA hierárquico que rodou onboard num humanoide. O System 2 (VLM de internet, ~7-9 Hz) entende cena e instrução e emite um vetor latente; o System 1 (política visuomotora, ~200 Hz) decodifica esse latente em controle contínuo de torso, cabeça e mãos hábeis. Foi um dos primeiros a controlar o tronco superior completo de um humanoide com um único VLA — e a rodar dois robôs colaborando com um mesmo modelo.

S2

System 2 — pensar (lento)

VLM generalista interpreta "guarde a louça"; produz intenção latente sem precisar rodar a 200 Hz.

S1

System 1 — agir (rápido)

Transformer visuomotor consome o latente e gera comandos de alta frequência para mãos e torso.

💡 O conflito que o dual-system resolve

Um VLM grande é esperto mas lento; um controlador rápido é ágil mas burro. Separar os dois e conectá-los por um vetor latente dá o melhor dos dois: raciocínio generalista + malha de controle de alta frequência. É a arquitetura convergente dos humanoides de ponta.

Helix

VLA hierárquico da Figure.

System 1/2

Rápido + lento acoplados.

Latent vector

Ponte entre os sistemas.

Whole-upper-body

Torso + mãos por 1 VLA.

4

🔴 Tesla Optimus: integração com pilha de visão/FSD

Optimus é a aposta da Tesla em um humanoide reusando a infraestrutura de IA do FSD: redes de visão end-to-end, compute proprietário e cultura de coleta de dados em escala. A estratégia é começar pela manufatura interna (mover peças nas próprias fábricas), gerando dados de teleoperação verticalmente integrados antes de escalar para fora.

✓ Vantagens da Tesla

  • Reuso da pilha de visão end-to-end e dados do FSD.
  • Escala de manufatura própria e atuadores projetados in-house.
  • Demanda interna cativa para fechar o loop de dados.

✗ Desafios em aberto

  • Manipulação dexterosa robusta ainda é o gargalo (mãos).
  • Cronogramas anunciados historicamente otimistas.
  • Generalização fora da fábrica ainda por provar em escala.

Optimus

Humanoide da Tesla.

FSD reuse

Visão end-to-end compartilhada.

Escala industrial

Fábrica como primeiro cliente.

Atuadores próprios

Integração vertical de hardware.

5

🟠 Unitree e o open hardware: G1/H1

A Unitree mudou o jogo da pesquisa ao lançar humanoides de baixo custo: o H1 (full-size, locomoção ágil) e o G1 (~1,27 m, a partir de ~US$ 16k). De repente, laboratórios sem orçamento de milhões puderam rodar políticas em hardware real. O resultado foi uma explosão de papers de locomoção e loco-manipulation usando G1/H1 como plataforma padrão.

📊 Por que o custo importa

  • ~10-50× mais barato que plataformas de pesquisa ocidentais comparáveis.
  • SDK aberto e ROS2 — baixa barreira para integrar políticas VLA e RL de marcha.
  • Padronização — comparabilidade entre papers acelera o campo todo.

⚡ Dica estratégica

Hardware acessível desloca o gargalo do campo de "ter um robô" para "ter dados e algoritmos". Quem domina coleta de dados e arquitetura — não quem fabrica o braço — captura mais valor. Foi assim que o open hardware acelerou a fronteira.

Unitree G1/H1

Humanoides de baixo custo.

~US$ 16k

Preço-base do G1.

SDK aberto

Integração fácil.

Plataforma padrão

Base de muitos papers.

6

⚖️ Locomoção + manipulação: whole-body control

A fronteira do humanoide não é caminhar nem agarrar isoladamente — é fazer os dois ao mesmo tempo. O whole-body control coordena marcha, equilíbrio e braços num só controlador, geralmente com RL para locomoção robusta em terreno variado e uma política de manipulação acoplada. Manipular enquanto se equilibra é o que separa uma demo viral de utilidade econômica real.

1

RL de marcha em sim

Política de locomoção robusta treinada em milhares de terrenos randomizados (sim-to-real do M3.1).

2

Equilíbrio sob perturbação

Controlar o centro de massa enquanto os braços aplicam força externa (empurrar, carregar).

3

Loco-manipulation acoplada

Andar até um armário, abrir e guardar um objeto: skills encadeadas num corpo único.

Whole-body control

Coordenar corpo inteiro.

RL de marcha

Locomoção robusta.

Balance

Centro de massa sob força.

Loco-manipulation

Andar + manipular junto.

✅ Resumo do módulo

Forma humana — opera o mundo brownfield existente; generalidade de forma × foundation model.
GR00T — NVIDIA fornece cérebro dual + fábrica de dados (Isaac/Cosmos) cross-embodiment.
Figure Helix — System 1/2 com vetor latente; um VLA controla torso e mãos.
Tesla & Unitree — escala industrial integrada vs open hardware barato que democratiza a pesquisa.
Whole-body control — manipular caminhando é o teste real de utilidade.

Próximo módulo

3.3 — Arquiteturas Híbridas: LLM Planner + VLA Executor. Como o dual-system se generaliza para planejamento de horizonte longo.