MÓDULO 3.1

🧠 Arquitetura Dual-System (S1/S2)

Kahneman aplicado a robôs: reflexo rápido (S1) e planejamento lento (S2) trabalhando em sincronia. A separação de frequências que torna possível um robô que pensa e age ao mesmo tempo.

6
Tópicos
~40
Minutos
Avançado
Nível
Arquitetura
Tipo
7–9 Hz 200 Hz atuadores System 2 (Lento) VLM Planejador Decomposição de tarefa Geração de subgoals subgoals status System 1 (Rápido) Política Visuomotora Diffusion / MLP Policy Action chunking torques 🤖 Robô ação contínua ambiente físico buf fer

Conteúdo detalhado

1

🧩 Kahneman e o framework Thinking Fast and Slow

Daniel Kahneman propôs que o pensamento humano opera em dois modos: System 1 (rápido, intuitivo, automático) e System 2 (lento, deliberado, analítico). Na robótica, esse framework inspira arquiteturas onde um módulo reativo controla movimentos em tempo real enquanto outro planeja em alto nível.

✓ Quando S1/S2 funciona bem

  • Separação clara de responsabilidades — planejamento e controle com latências distintas.
  • Buffer assíncrono — S1 nunca espera S2; continua com o último subgoal.
  • Feedback de status — S1 reporta progresso; S2 replaneja quando necessário.
  • Degradação graciosa — se S2 falha, S1 mantém o comportamento seguro.

✗ Armadilhas comuns

  • Pipeline síncrono — fazer S1 esperar S2 a cada frame trava o controle motor.
  • Frequências mal dimensionadas — S2 a 1 Hz com S1 a 200 Hz gera deriva de subgoal.
  • Sem watchdog — S2 travado sem fallback coloca o robô em estado indefinido.
  • Interface de alto acoplamento — mudanças em S2 quebram S1 e vice-versa.

Conceitos-chave

Bounded rationality

Tomar decisões ótimas dentro de recursos computacionais limitados.

Latência de decisão

Tempo entre percepção e ação — crítico para estabilidade em malha fechada.

Trade-off velocidade-acurácia

Decisões mais rápidas são menos precisas; o dual-system balanceia os dois extremos.

2

🔭 System 2: VLM como planejador a 7–9 Hz

O System 2 robótico usa um Vision-Language Model (VLM) que processa imagens e linguagem natural para gerar planos de ação de alto nível. Roda tipicamente a 7–9 Hz por ser computacionalmente caro, mas produz entendimento semântico rico do ambiente e dos objetivos.

🎯 Por que 7–9 Hz é suficiente para planejamento

O planejamento de alto nível não precisa de velocidade: a tarefa "pegar a xícara" muda a cada segundo, não a cada milissegundo. O VLM tem tempo para raciocinar sobre contexto, linguagem e semântica visual antes de emitir um novo subgoal.

  • Task decomposition — quebra instruções em linguagem natural em sub-objetivos executáveis.
  • Subgoal generation — emite embeddings ou tokens que S1 interpreta como alvos de comportamento.
  • Replanejamento adaptativo — detecta falhas via feedback de S1 e gera novo plano.

💡 Dica prática

Na prática, o VLM do S2 quase sempre é um modelo pré-treinado (Gemini, GPT-4V, InternVL) com fine-tuning mínimo para o domínio robótico. Você raramente treina o S2 do zero — o custo computacional é proibitivo. O valor está no fine-tuning eficiente com dados de demonstração.

3

⚡ System 1: política visuomotora a 200 Hz

O System 1 é uma rede neural leve — tipicamente um diffusion policy ou MLP — que converte observações visuais em comandos motores a 200+ Hz. Ela não "entende" o objetivo global; apenas executa o comportamento motor correspondente ao subgoal recebido do S2.

⏱️ Por que 200 Hz importa

10 Hz

❌ Insuficiente — movimentos trêmulos, incapaz de reagir a perturbações em tempo real.

50 Hz

⚠️ Marginal — funciona para tarefas lentas; inadequado para manipulação fina.

200 Hz

✓ Adequado — compliance natural, reação a perturbações, manipulação dextra.

1000 Hz

✓ Ideal — controle de impedância; requer hardware dedicado (FPGA/ASIC).

Conceitos-chave de S1

Action chunking

Prediz sequências de ações ao invés de ações pontuais — reduz jitter e melhora fluidez.

Diffusion policy

Modela a distribuição de ações via denoising iterativo; gera trajetórias suaves e multimodais.

Controle em malha fechada

Ajusta ações continuamente com base em observações sensoriais — essencial para robustez.

Latência sensor-atuador

Atraso total da cadeia câmera → inferência → comando motor; deve ser <5ms para 200 Hz.

4

🤖 GR00T, Helix e π0: implementações reais

Em 2025–2026, três sistemas se tornaram referência de como a arquitetura dual-system é implementada na indústria. Cada um resolve o problema com abordagem distinta — de pipelines modulares a modelos unificados com dual-head.

GR00T (NVIDIA) VLM Planejador (S2 — 7 Hz) Diffusion Policy (S1 — 200 Hz) pipeline modular Helix (Figure) Gemini (S2) Política propr. (S1) modelo externo + política interna π0 (Physical Intel.) VLA Unificado dual-head: cabeça S2 + cabeça S1 modelo único com frequências separadas

📊 Trade-offs de design

  • Modular (GR00T/Helix) — mais fácil de atualizar S2 sem reprocessar S1; maior latência de comunicação.
  • Unificado (π0) — representações compartilhadas; mais eficiente; atualização mais complexa.
  • Modelo externo (Helix/Gemini) — aproveita LLMs de ponta sem custo de treino; depende de API estável.
5

🖥️ GPU embarcada: por que sem cloud

Robôs autônomos precisam de GPUs embarcadas — como Jetson Thor ou Orin — para rodar inferência localmente. A latência de rede (50–200 ms) torna o cloud inviável para controle motor em tempo real, onde cada milissegundo define estabilidade e segurança.

⚙️ Jetson Thor / Orin

SoC da NVIDIA com GPU Ada/Ampere integrada. Thor entrega 2000 TOPS sparse para inferência de modelos robóticos; Orin, 275 TOPS. Projetados para o envelope térmico de um robô (~20–30W).

📉 Quantização INT8/INT4

Reduz pesos de FP32 para 8 ou 4 bits — 4–8x menos memória, 2–4x mais throughput. Essencial para rodar VLMs de 7B parâmetros em VRAM embarcada limitada sem perda crítica de acurácia.

🌡️ Thermal throttling

Quando o chip aquece, reduz clock para proteger o hardware. Em robôs, isso pode degradar a frequência de inferência em momentos críticos. Design térmico adequado é parte do pipeline de S1/S2.

☁️ Offloading seletivo

Tarefas não-críticas (logging, replanejamento de longo prazo, atualização de mapas) podem usar cloud com latência tolerável. S1 sempre local; S2 pode ter componentes híbridos.

💡 Regra prática de dimensionamento

Para S1 a 200 Hz: o modelo não deve levar mais de 4 ms por inferência. Para S2 a 9 Hz: até 100 ms por inferência. Isso define o tamanho máximo do modelo sem quantização — geralmente <100M params para S1 e <7B para S2 em Orin.

6

🔗 Orquestração S1↔S2: frequências e interfaces

A orquestração define como S1 e S2 se comunicam: o S2 envia subgoals (embeddings ou tokens) ao S1, que executa e reporta status. O desafio é sincronizar um pipeline lento (7 Hz) com um rápido (200 Hz) sem gargalos — usando buffers assíncronos e priorização de mensagens.

✓ Padrões recomendados

  • Double buffering — S1 lê do buffer ativo enquanto S2 escreve no buffer inativo; sem locks.
  • Message passing assíncrono — S2 publica subgoals num tópico; S1 consome no próximo ciclo.
  • Watchdog timer — se S2 não atualiza em N ciclos, S1 entra em modo de segurança.
  • Graceful degradation — S1 mantém o último subgoal válido até S2 se recuperar.

✗ Anti-padrões

  • Bloqueio síncrono — S1 aguarda S2 a cada ciclo → latência de 100 ms em vez de 5 ms.
  • Polling de alto custo — verificar S2 a cada frame consome CPU que deveria ir para inferência.
  • Sem tratamento de falha — S2 travado → S1 sem subgoal → robô congela ou vai à posição padrão.
  • Subgoal stale não detectado — S1 executando subgoal desatualizado sem saber que ambiente mudou.

🔄 Pipeline de comunicação S1↔S2

1
S2 processa observação

VLM recebe frame + instrução → infere plano → serializa subgoal em embedding.

2
Buffer assíncrono

Subgoal escrito no buffer inativo; flag atomic indica disponibilidade para S1.

3
S1 executa

Policy lê subgoal ativo → infere ação a 200 Hz → envia torques → reporta status.

4
S2 monitora e replaneja

Recebe status de S1 → detecta falha ou progresso → decide replanejamento.

Resumo do Módulo

Kahneman → robótica — S1/S2 não é metáfora; é a separação arquitetural que resolve o trade-off velocidade vs. inteligência.
S2 (7–9 Hz) planeja, S1 (200 Hz) executa — frequências distintas, responsabilidades complementares; nem um pode substituir o outro.
GR00T / Helix / π0 — três abordagens reais em 2025-2026; modular vs. unificado com dual-head é a escolha central de design.
Orquestração assíncrona — double buffer + watchdog + graceful degradation são a tríade que evita os pontos de falha mais comuns.

Próximo módulo

3.2 — World Models e Simulação Preditiva