🏗️ Arquitetura geral de text-to-video
Modelos text-to-video são difusões temporais com condicionamento multimodal. Entender as peças explica por que certos prompts funcionam melhor que outros — não é mágica, é onde o modelo foi treinado.
As 3 peças principais
- 1Encoder de texto (+ imagem + áudio na v2.0): transforma sua frase em vetores de significado. O Seedance 2.0 usa um encoder multimodal conjunto — texto, imagens de referência e tags de áudio entram no mesmo espaço latente.
- 2Modelo de difusão temporal: parte de ruído e "limpa" progressivamente para gerar frames consistentes entre si. A temporal coherence é o maior desafio técnico de T2V — é onde os modelos ruins falham.
- 3Decoder + upsampler: transforma os latentes em frames finais de vídeo, opcionalmente com áudio sincronizado (exclusivo v2.0).
Onde Seedance difere dos concorrentes
- •vs Runway Gen-4: Runway é mais forte em image-to-video (foto estática → vídeo). Seedance é mais forte em text-to-video puro.
- •vs Google Veo 3: Veo é mais forte em longa duração (30s+). Seedance otimiza para 5-10s com qualidade máxima.
- •vs Kling 3.0: Kling tem identity preservation ligeiramente melhor. Seedance tem controle de câmera mais preciso.
- •Único na v2.0: áudio nativo gerado conjunto com vídeo (não pós-processamento).
📊 Por que Seedance é sensível à forma do prompt
A explicação técnica da frase "estilo de escrita importa": distribuição de treinamento. Todo modelo aprende a "modo" de escrita que aparece mais em seus dados. Prompts fora dessa distribuição caem em regiões menos bem modeladas — e o output piora.
O conceito: in-distribution vs out-of-distribution
In-distribution: prompts que se parecem com as legendas que o modelo viu durante o treinamento. Normalmente legendas cinematográficas estruturadas com vocabulário específico (wide shot, golden hour, cinematic lighting, etc.). O modelo performa melhor aqui porque tem "muitos exemplos próximos".
Out-of-distribution: prompts de conversa natural ("uma cena legal", "quero algo bonito"), comandos imperativos ("mostre-me"), instruções de usuário ("faça X"). O modelo performa pior aqui porque está extrapolando.
💡 Implicação prática
Não existe "frase secreta mágica". Existe frase que se parece com o que o modelo foi treinado a ver. Escrever bem = escrever próximo da distribuição. É por isso que copiar os presets literal funciona: as strings canônicas foram empiricamente validadas como in-distribution.
📖 Timeline prompting como técnica oficial
A estrutura [0s][3s][6s][8s] que o produto comercial usa não foi inventada pelo autor. É timeline prompting, técnica oficialmente documentada em guias públicos gratuitos. Cerca de 50% do que o produto estudado ensina é conhecimento público nomeado.
O que está na documentação pública
- •Timeline beats [0s][3s][6s][8s]: MindStudio, redreamality.com, GitHub repos.
- •Fórmula universal: Subject + Action + Scene + Lighting + Camera Movement + Style + Quality + Constraints (redreamality).
- •Vocabulário cinematográfico: dolly-in, dolly-out, pan, crane, gimbal, handheld, aerial, rack focus, anamorphic lens flare, shallow depth of field (documentação oficial).
- •Categorias de gênero: Daily Life, Sci-Fi (cyberpunk), Minimalist, Cinematic, Film Noir, Animation — todas em redreamality.
- •Audio keywords: reverb, muffled, echoing, tag @Audio — redreamality.
- •Limites: 30-200 palavras, 1-2 personagens, consistência de face — todos documentados.
O que é autoral do produto estudado
- ×STOP MOTION freeze + snap-back: NÃO documentado em nenhum guia oficial. Extensão autoral.
- ×3 fases de áudio (practical → brass chord → orchestral): NÃO documentado. Autoral.
- ×7 presets específicos com strings canônicas: categorias similares existem oficialmente, mas as strings exatas são autorais.
- ×350-500 palavras deliberado: diverge do oficial de 30-200. Autoral.
- ×Abertura "same character throughout all shots": versão comprimida do conselho oficial "maintain face and clothing consistency". Autoral.
- ×Tese "filter bypass chinês": NÃO verificada em fontes públicas. Pode ser marketing.
💡 A repartição honesta
50% do valor do produto é conhecimento público embalado (timeline prompting + vocabulário). 50% é opinião autoral testada empiricamente (STOP MOTION + audio phases + 7 presets específicos). Nenhum dos dois é menos valioso — curadoria e opinião formada valem dinheiro.
⬆️ O que mudou da v1 para v2
Seedance 1.0 (junho/2025) → Seedance 2.0 (fevereiro/2026). Mudanças substanciais que afetam como você escreve prompts.
As 5 mudanças principais
- 1.Áudio nativo conjunto: v1 gerava só vídeo silencioso. v2 gera áudio junto do vídeo usando o mesmo modelo. Phase 1/2/3 agora resulta em som real.
- 2.Até 9 imagens + 3 clipes de 15s como referência: consistência visual entre cenas agora é viável nativamente.
- 3.Faces humanas reais: suporte a "real human face" agora é oficial — v1 era propositalmente borrado.
- 4.Controle fino: iluminação, sombra, performance e movimento de câmera agora têm parâmetros dedicados.
- 5.Variante "Fast": versão otimizada para latência menor, qualidade levemente inferior, custo ~50% menor.
⚠️ Implicações para o material de reverse engineering
O produto comercial foi analisado provavelmente contra v1.x. Implicações a revalidar:
- • STOP MOTION ainda funciona igual na v2?
- • As 3 fases de áudio literais ainda são necessárias, ou tag @Audio é melhor agora?
- • 350-500 palavras ainda é ótimo? v2 pode lidar melhor com 100-200?
- • "Anamorphic 2.39:1" mandatório vs usar controles nativos?
- • Filter bypass chinês: ainda funciona ou foi resolvido?
🏆 Benchmarks — #1 global em T2V e I2V
Em abril/2026, Seedance 2.0 lidera o Artificial Analysis Video Arena tanto em text-to-video quanto em image-to-video.
Performance medida
- • Elo 1269 — text-to-video (no audio): #1 global
- • Elo 1351 — image-to-video (no audio): #1 global
- • À frente de Kling 3.0, Google Veo 3, Runway Gen-4.5
💡 Como ler benchmarks de vídeo IA
Arena ELO é comparação pairwise: humanos votam em "este vídeo é melhor que aquele" sem saber qual modelo gerou. Mais objetivo que métricas automáticas. A liderança muda rápido no espaço — reavalie antes de grandes commitments. O campo mudará várias vezes em 2026-2027.
📚 Resumo do Módulo
Próximo Módulo:
3.2 — Engenharia reversa como método. O caso seedance-gen.netlify.app, forense estática, as 51 sondas, taxonomia descoberta, medindo rigidez, achados de segurança, curva de saturação.
📖 Glossário do módulo
- Text-to-video (T2V)
- Modelo que gera vídeo a partir de descrição em texto. Seedance, Runway, Kling, Veo são exemplos.
- Image-to-video (I2V)
- Modelo que anima uma imagem estática em vídeo. Muitos T2V fazem I2V também.
- Modelo de difusão
- Arquitetura de IA generativa que parte de ruído e "limpa" progressivamente até formar o output.
- Difusão temporal
- Difusão aplicada a vídeo — precisa manter coerência entre frames consecutivos.
- Encoder multimodal
- Componente que transforma múltiplos tipos de input (texto, imagem, áudio) em um espaço latente comum.
- Espaço latente
- Representação numérica interna do modelo onde significados são codificados como vetores.
- Temporal coherence
- Consistência visual entre frames de um vídeo. O maior desafio técnico de T2V.
- Identity drift
- Quando personagem ou objeto muda de aparência ao longo do vídeo. Falha de temporal coherence.
- Distribuição de treinamento
- O conjunto de dados que o modelo viu durante o treino. Prompts próximos dessa distribuição performam melhor.
- In-distribution
- Input que se parece com o que o modelo viu no treino — gera outputs mais confiáveis.
- Out-of-distribution
- Input diferente do que o modelo viu no treino — resultados imprevisíveis.
- Timeline prompting
- Técnica documentada de estruturar prompts em beats temporais [0s][3s][6s][8s]. Oficial em redreamality/MindStudio.
- Seedance 1.0 / 2.0
- Versões do modelo da ByteDance. v1 silenciosa (jun/2025), v2 com áudio nativo (fev/2026).
- Áudio nativo
- Áudio gerado junto do vídeo pelo mesmo modelo, sem pós-processamento.
- Controle fino
- Parâmetros específicos (iluminação, sombra, movimento de câmera) além do prompt textual.
- Variante Fast
- Versão otimizada para latência. Qualidade levemente inferior, custo ~50% menor.
- ELO rating
- Sistema de pontuação baseado em comparações pairwise. Usado em arenas de benchmark de IA.
- Artificial Analysis Video Arena
- Plataforma de benchmark pairwise para modelos T2V/I2V, com votação humana.
- Kling / Runway / Veo
- Concorrentes diretos do Seedance 2.0 no espaço de T2V comercial.
- Dreamina
- Interface oficial da ByteDance para o Seedance, em dreamina.jianying.com.
- fal.ai
- Plataforma aberta que disponibiliza o Seedance (e outros modelos) via API pay-per-use.