Módulo 1.6 — Tokenização de Ações

Conteúdo detalhado

Três caminhos para o mesmo sinal: floats contínuos, tokens redundantes por timestep, ou poucos tokens comprimidos via DCT (FAST).

📈 Ação contínua: regressão direta

A representação mais natural: a cabeça emite floats diretamente para cada dimensão de ação (Δx, Δy, Δz, rotação, gripper). É simples, preserva resolução total e não desperdiça nada com discretização. O problema, visto no Módulo 1.4, é que treinada com MSE/L1 ela é unimodal — colapsa modos. Por isso a regressão contínua só brilha quando combinada com uma cabeça expressiva (difusão/flow), e não como simples MLP+MSE.

📊 Quando contínuo puro serve

Tarefas unimodais — uma única solução clara por estado.
Latência mínima — um forward pass, sem passos de denoising.
Baseline — ponto de partida para medir ganhos das outras opções.

Regressão

Emitir floats por dimensão.

L1/L2

Perdas de regressão comuns.

Unimodalidade

Limitação da média.

Resolução total

Sem perda por bins.

🔲 Binning discreto (RT-1/RT-2)

RT-1, RT-2 e OpenVLA discretizam cada dimensão em bins uniformes (RT-1 usa 256) e tratam a predição como classificação via cross-entropy. A vantagem: vira um problema de tokens, integrando-se perfeitamente ao vocabulário do LLM e capturando multimodalidade (distribuição categórica). As desvantagens: perda de resolução (quantização) e perda de correlação entre dimensões, já que cada uma é tokenizada independentemente.

✓ Vantagens do binning

✓Integra-se ao vocabulário do LLM.
✓Captura multimodalidade via softmax.
✓Treino autoregressivo simples (cross-entropy).

✗ Desvantagens

✗Resolução limitada pelo número de bins.
✗Ignora correlação entre dimensões.
✗Sequências longas em alta frequência (próximo tópico).

Uniform binning

Dividir intervalo em bins.

Quantização

Perda de resolução.

Cross-entropy

Ação como classificação.

Independência

Dimensões tokenizadas à parte.

🌊 O problema da frequência alta

Aqui mora a dor que motivou o FAST. A 50Hz, ações em timesteps consecutivos são quase idênticas — o braço move pouco em 20ms. Tokenizar cada timestep gera tokens redundantes e sequências enormes: um chunk de 1 segundo a 50Hz com 7 dimensões são 350 tokens, a maioria repetida. Sequências longas explodem o custo de treino autoregressivo e degradam o aprendizado. Binning ingênuo simplesmente não escala para controle dinâmico de alta frequência.

# Custo de binning por timestep a 50Hz
chunk = 1s · 50Hz = 50 timesteps
dims  = 7 (xyz + rot + gripper)
tokens = 50 × 7 = 350  ← maioria redundante
# treino autoregressivo nessa sequência: lento e instável

⚡ Dica prática

A redundância é uma pista: se o sinal varia devagar entre timesteps, ele é comprimível. Sinais suaves concentram energia em poucas frequências baixas — exatamente o que a DCT explora no FAST.

Redundância temporal

Timesteps quase iguais.

Sequência longa

Centenas de tokens por chunk.

Controle dinâmico

Alta frequência, movimento rápido.

Compressibilidade

Sinal suave → poucos coefs.

⚡ FAST: tokenização por DCT + BPE

FAST (Frequency-space Action Sequence Tokenization, Physical Intelligence, 2025) inverte a lógica: em vez de tokenizar no tempo, transforma a trajetória para o domínio da frequência via DCT (a mesma transformada do JPEG), quantiza os coeficientes e os comprime com BPE. Como sinais suaves concentram energia em poucas frequências baixas, o resultado são poucos tokens de alta fidelidade. FAST torna VLAs autoregressivos competitivos com difusão em controle de alta frequência — RT-2/OpenVLA-style, mas dexterosos.

DCT da trajetória

Transforma o chunk de ações para coeficientes de frequência.

Quantizar e descartar

Mantém os coeficientes dominantes (baixa freq.), zera o resto.

Comprimir com BPE

Byte-Pair Encoding agrupa padrões em poucos tokens densos.

💡 Por que FAST importa

FAST reduz drasticamente o comprimento de sequência mantendo fidelidade, acelerando o treino e habilitando VLAs autoregressivos para tarefas dexterosas. É a ponte entre a simplicidade do paradigma token e a exigência de alta frequência da manipulação fina.

DCT

Transformada para frequência.

BPE

Compressão por byte-pair.

Frequency domain

Comprimir energia concentrada.

AR competitivo

Tokens dexterosos a alta freq.

⚖️ Trade-offs: comprimento × fidelidade × velocidade

Toda tokenização vive numa fronteira de Pareto: menos tokens treinam mais rápido mas podem perder fidelidade; mais tokens preservam detalhe mas custam treino e latência. Binning ingênuo fica num ponto ruim (muitos tokens, fidelidade média). FAST desloca a fronteira — poucos tokens E alta fidelidade — ao explorar a estrutura de frequência do sinal. A escolha certa depende de quanto seu sinal é comprimível.

Esquema     Tokens/chunk   Fidelidade   Treino
contínuo    1 (vetor)      total        rápido*  (*precisa head expressiva)
binning     muitos         média        lento
FAST        poucos         alta         rápido

📊 O ganho do FAST

↓ comprimento — ordens de magnitude menos tokens que binning por timestep.
↑ velocidade — treino autoregressivo muito mais rápido.
= fidelidade — qualidade comparável à difusão em tarefas dexterosas.

Pareto

Trade-off comprimento×fidelidade.

Sequence length

Nº de tokens por chunk.

Training speed

Menos tokens → mais rápido.

Deslocar fronteira

FAST melhora os dois eixos.

🎛 Escolha por caso e impacto no action head

Não existe tokenização universal — a escolha molda toda a cabeça de ação. Tarefa lenta e quasi-estática (pick-and-place pausado)? Binning serve. Manipulação dexterosa e dinâmica (dobrar roupa, inserções)? FAST (autoregressivo) ou difusão/flow. A decisão de representação determina se a cabeça é um detokenizer, um action expert generativo ou um regressor — fechando o ciclo conceitual que começou no Módulo 1.2.

Caracterize a tarefa

Frequência, dinâmica e multimodalidade exigidas.

Escolha a representação

Binning, FAST ou contínuo+difusão conforme o perfil.

Casar com a cabeça

Detokenizer, action expert ou regressor — coerente com a representação.

⚡ Dica prática

Em 2026, dois caminhos vencem na prática: FAST + backbone autoregressivo (treino simples e rápido) ou flow matching (ação contínua fluida). Comece pelo que sua stack já suporta e itere.

Task dynamics

Lenta vs dinâmica.

Head design

Cabeça segue a representação.

Decisão de repr.

Define toda a saída.

Ciclo fechado

Conecta de volta ao M1.2.

✅ Resumo do módulo e da Trilha 1

✓

Contínuo vs binning — floats são simples mas unimodais; bins integram ao LLM com perda de resolução.

✓

Alta frequência quebra binning — tokens redundantes e sequências enormes a 50Hz.

✓

FAST — DCT+BPE comprime no domínio da frequência, tornando AR competitivo com difusão.

✓

A representação molda a cabeça — e fecha a teoria que sustenta toda a prática da Trilha 2.

Próximo: Trilha 2 — Ferramentas

M2.1 — Python + PyTorch: a stack dominante para implementar tudo que você aprendeu aqui, de tensores e LoRA a inferência a 10-50Hz.

← Voltar à trilha Ir para a Trilha 2 →