Conteúdo detalhado
Três caminhos para o mesmo sinal: floats contínuos, tokens redundantes por timestep, ou poucos tokens comprimidos via DCT (FAST).
📈 Ação contínua: regressão direta
A representação mais natural: a cabeça emite floats diretamente para cada dimensão de ação (Δx, Δy, Δz, rotação, gripper). É simples, preserva resolução total e não desperdiça nada com discretização. O problema, visto no Módulo 1.4, é que treinada com MSE/L1 ela é unimodal — colapsa modos. Por isso a regressão contínua só brilha quando combinada com uma cabeça expressiva (difusão/flow), e não como simples MLP+MSE.
📊 Quando contínuo puro serve
- Tarefas unimodais — uma única solução clara por estado.
- Latência mínima — um forward pass, sem passos de denoising.
- Baseline — ponto de partida para medir ganhos das outras opções.
Regressão
Emitir floats por dimensão.
L1/L2
Perdas de regressão comuns.
Unimodalidade
Limitação da média.
Resolução total
Sem perda por bins.
🔲 Binning discreto (RT-1/RT-2)
RT-1, RT-2 e OpenVLA discretizam cada dimensão em bins uniformes (RT-1 usa 256) e tratam a predição como classificação via cross-entropy. A vantagem: vira um problema de tokens, integrando-se perfeitamente ao vocabulário do LLM e capturando multimodalidade (distribuição categórica). As desvantagens: perda de resolução (quantização) e perda de correlação entre dimensões, já que cada uma é tokenizada independentemente.
✓ Vantagens do binning
- ✓Integra-se ao vocabulário do LLM.
- ✓Captura multimodalidade via softmax.
- ✓Treino autoregressivo simples (cross-entropy).
✗ Desvantagens
- ✗Resolução limitada pelo número de bins.
- ✗Ignora correlação entre dimensões.
- ✗Sequências longas em alta frequência (próximo tópico).
Uniform binning
Dividir intervalo em bins.
Quantização
Perda de resolução.
Cross-entropy
Ação como classificação.
Independência
Dimensões tokenizadas à parte.
🌊 O problema da frequência alta
Aqui mora a dor que motivou o FAST. A 50Hz, ações em timesteps consecutivos são quase idênticas — o braço move pouco em 20ms. Tokenizar cada timestep gera tokens redundantes e sequências enormes: um chunk de 1 segundo a 50Hz com 7 dimensões são 350 tokens, a maioria repetida. Sequências longas explodem o custo de treino autoregressivo e degradam o aprendizado. Binning ingênuo simplesmente não escala para controle dinâmico de alta frequência.
# Custo de binning por timestep a 50Hz
chunk = 1s · 50Hz = 50 timesteps
dims = 7 (xyz + rot + gripper)
tokens = 50 × 7 = 350 ← maioria redundante
# treino autoregressivo nessa sequência: lento e instável
⚡ Dica prática
A redundância é uma pista: se o sinal varia devagar entre timesteps, ele é comprimível. Sinais suaves concentram energia em poucas frequências baixas — exatamente o que a DCT explora no FAST.
Redundância temporal
Timesteps quase iguais.
Sequência longa
Centenas de tokens por chunk.
Controle dinâmico
Alta frequência, movimento rápido.
Compressibilidade
Sinal suave → poucos coefs.
⚡ FAST: tokenização por DCT + BPE
FAST (Frequency-space Action Sequence Tokenization, Physical Intelligence, 2025) inverte a lógica: em vez de tokenizar no tempo, transforma a trajetória para o domínio da frequência via DCT (a mesma transformada do JPEG), quantiza os coeficientes e os comprime com BPE. Como sinais suaves concentram energia em poucas frequências baixas, o resultado são poucos tokens de alta fidelidade. FAST torna VLAs autoregressivos competitivos com difusão em controle de alta frequência — RT-2/OpenVLA-style, mas dexterosos.
DCT da trajetória
Transforma o chunk de ações para coeficientes de frequência.
Quantizar e descartar
Mantém os coeficientes dominantes (baixa freq.), zera o resto.
Comprimir com BPE
Byte-Pair Encoding agrupa padrões em poucos tokens densos.
💡 Por que FAST importa
FAST reduz drasticamente o comprimento de sequência mantendo fidelidade, acelerando o treino e habilitando VLAs autoregressivos para tarefas dexterosas. É a ponte entre a simplicidade do paradigma token e a exigência de alta frequência da manipulação fina.
DCT
Transformada para frequência.
BPE
Compressão por byte-pair.
Frequency domain
Comprimir energia concentrada.
AR competitivo
Tokens dexterosos a alta freq.
⚖️ Trade-offs: comprimento × fidelidade × velocidade
Toda tokenização vive numa fronteira de Pareto: menos tokens treinam mais rápido mas podem perder fidelidade; mais tokens preservam detalhe mas custam treino e latência. Binning ingênuo fica num ponto ruim (muitos tokens, fidelidade média). FAST desloca a fronteira — poucos tokens E alta fidelidade — ao explorar a estrutura de frequência do sinal. A escolha certa depende de quanto seu sinal é comprimível.
Esquema Tokens/chunk Fidelidade Treino
contínuo 1 (vetor) total rápido* (*precisa head expressiva)
binning muitos média lento
FAST poucos alta rápido
📊 O ganho do FAST
- ↓ comprimento — ordens de magnitude menos tokens que binning por timestep.
- ↑ velocidade — treino autoregressivo muito mais rápido.
- = fidelidade — qualidade comparável à difusão em tarefas dexterosas.
Pareto
Trade-off comprimento×fidelidade.
Sequence length
Nº de tokens por chunk.
Training speed
Menos tokens → mais rápido.
Deslocar fronteira
FAST melhora os dois eixos.
🎛 Escolha por caso e impacto no action head
Não existe tokenização universal — a escolha molda toda a cabeça de ação. Tarefa lenta e quasi-estática (pick-and-place pausado)? Binning serve. Manipulação dexterosa e dinâmica (dobrar roupa, inserções)? FAST (autoregressivo) ou difusão/flow. A decisão de representação determina se a cabeça é um detokenizer, um action expert generativo ou um regressor — fechando o ciclo conceitual que começou no Módulo 1.2.
Caracterize a tarefa
Frequência, dinâmica e multimodalidade exigidas.
Escolha a representação
Binning, FAST ou contínuo+difusão conforme o perfil.
Casar com a cabeça
Detokenizer, action expert ou regressor — coerente com a representação.
⚡ Dica prática
Em 2026, dois caminhos vencem na prática: FAST + backbone autoregressivo (treino simples e rápido) ou flow matching (ação contínua fluida). Comece pelo que sua stack já suporta e itere.
Task dynamics
Lenta vs dinâmica.
Head design
Cabeça segue a representação.
Decisão de repr.
Define toda a saída.
Ciclo fechado
Conecta de volta ao M1.2.
✅ Resumo do módulo e da Trilha 1
Próximo: Trilha 2 — Ferramentas
M2.1 — Python + PyTorch: a stack dominante para implementar tudo que você aprendeu aqui, de tensores e LoRA a inferência a 10-50Hz.