Módulo 3.1 — Seedance como modelo

🏗️ Arquitetura geral de text-to-video

Modelos text-to-video são difusões temporais com condicionamento multimodal. Entender as peças explica por que certos prompts funcionam melhor que outros — não é mágica, é onde o modelo foi treinado.

As 3 peças principais

1
Encoder de texto (+ imagem + áudio na v2.0): transforma sua frase em vetores de significado. O Seedance 2.0 usa um encoder multimodal conjunto — texto, imagens de referência e tags de áudio entram no mesmo espaço latente.
2
Modelo de difusão temporal: parte de ruído e "limpa" progressivamente para gerar frames consistentes entre si. A temporal coherence é o maior desafio técnico de T2V — é onde os modelos ruins falham.
3
Decoder + upsampler: transforma os latentes em frames finais de vídeo, opcionalmente com áudio sincronizado (exclusivo v2.0).

Onde Seedance difere dos concorrentes

•
vs Runway Gen-4: Runway é mais forte em image-to-video (foto estática → vídeo). Seedance é mais forte em text-to-video puro.
•
vs Google Veo 3: Veo é mais forte em longa duração (30s+). Seedance otimiza para 5-10s com qualidade máxima.
•
vs Kling 3.0: Kling tem identity preservation ligeiramente melhor. Seedance tem controle de câmera mais preciso.
•
Único na v2.0: áudio nativo gerado conjunto com vídeo (não pós-processamento).

📊 Por que Seedance é sensível à forma do prompt

A explicação técnica da frase "estilo de escrita importa": distribuição de treinamento. Todo modelo aprende a "modo" de escrita que aparece mais em seus dados. Prompts fora dessa distribuição caem em regiões menos bem modeladas — e o output piora.

O conceito: in-distribution vs out-of-distribution

In-distribution: prompts que se parecem com as legendas que o modelo viu durante o treinamento. Normalmente legendas cinematográficas estruturadas com vocabulário específico (wide shot, golden hour, cinematic lighting, etc.). O modelo performa melhor aqui porque tem "muitos exemplos próximos".

Out-of-distribution: prompts de conversa natural ("uma cena legal", "quero algo bonito"), comandos imperativos ("mostre-me"), instruções de usuário ("faça X"). O modelo performa pior aqui porque está extrapolando.

💡 Implicação prática

Não existe "frase secreta mágica". Existe frase que se parece com o que o modelo foi treinado a ver. Escrever bem = escrever próximo da distribuição. É por isso que copiar os presets literal funciona: as strings canônicas foram empiricamente validadas como in-distribution.

📖 Timeline prompting como técnica oficial

A estrutura [0s][3s][6s][8s] que o produto comercial usa não foi inventada pelo autor. É timeline prompting, técnica oficialmente documentada em guias públicos gratuitos. Cerca de 50% do que o produto estudado ensina é conhecimento público nomeado.

O que está na documentação pública

•
Timeline beats [0s][3s][6s][8s]: MindStudio, redreamality.com, GitHub repos.
•
Fórmula universal: Subject + Action + Scene + Lighting + Camera Movement + Style + Quality + Constraints (redreamality).
•
Vocabulário cinematográfico: dolly-in, dolly-out, pan, crane, gimbal, handheld, aerial, rack focus, anamorphic lens flare, shallow depth of field (documentação oficial).
•
Categorias de gênero: Daily Life, Sci-Fi (cyberpunk), Minimalist, Cinematic, Film Noir, Animation — todas em redreamality.
•
Audio keywords: reverb, muffled, echoing, tag @Audio — redreamality.
•
Limites: 30-200 palavras, 1-2 personagens, consistência de face — todos documentados.

O que é autoral do produto estudado

×
STOP MOTION freeze + snap-back: NÃO documentado em nenhum guia oficial. Extensão autoral.
×
3 fases de áudio (practical → brass chord → orchestral): NÃO documentado. Autoral.
×
7 presets específicos com strings canônicas: categorias similares existem oficialmente, mas as strings exatas são autorais.
×
350-500 palavras deliberado: diverge do oficial de 30-200. Autoral.
×
Abertura "same character throughout all shots": versão comprimida do conselho oficial "maintain face and clothing consistency". Autoral.
×
Tese "filter bypass chinês": NÃO verificada em fontes públicas. Pode ser marketing.

💡 A repartição honesta

50% do valor do produto é conhecimento público embalado (timeline prompting + vocabulário). 50% é opinião autoral testada empiricamente (STOP MOTION + audio phases + 7 presets específicos). Nenhum dos dois é menos valioso — curadoria e opinião formada valem dinheiro.

⬆️ O que mudou da v1 para v2

Seedance 1.0 (junho/2025) → Seedance 2.0 (fevereiro/2026). Mudanças substanciais que afetam como você escreve prompts.

As 5 mudanças principais

1.
Áudio nativo conjunto: v1 gerava só vídeo silencioso. v2 gera áudio junto do vídeo usando o mesmo modelo. Phase 1/2/3 agora resulta em som real.
2.
Até 9 imagens + 3 clipes de 15s como referência: consistência visual entre cenas agora é viável nativamente.
3.
Faces humanas reais: suporte a "real human face" agora é oficial — v1 era propositalmente borrado.
4.
Controle fino: iluminação, sombra, performance e movimento de câmera agora têm parâmetros dedicados.
5.
Variante "Fast": versão otimizada para latência menor, qualidade levemente inferior, custo ~50% menor.

⚠️ Implicações para o material de reverse engineering

O produto comercial foi analisado provavelmente contra v1.x. Implicações a revalidar:

• STOP MOTION ainda funciona igual na v2?
• As 3 fases de áudio literais ainda são necessárias, ou tag @Audio é melhor agora?
• 350-500 palavras ainda é ótimo? v2 pode lidar melhor com 100-200?
• "Anamorphic 2.39:1" mandatório vs usar controles nativos?
• Filter bypass chinês: ainda funciona ou foi resolvido?

🏆 Benchmarks — #1 global em T2V e I2V

Em abril/2026, Seedance 2.0 lidera o Artificial Analysis Video Arena tanto em text-to-video quanto em image-to-video.

Performance medida

• Elo 1269 — text-to-video (no audio): #1 global
• Elo 1351 — image-to-video (no audio): #1 global
• À frente de Kling 3.0, Google Veo 3, Runway Gen-4.5

💡 Como ler benchmarks de vídeo IA

Arena ELO é comparação pairwise: humanos votam em "este vídeo é melhor que aquele" sem saber qual modelo gerou. Mais objetivo que métricas automáticas. A liderança muda rápido no espaço — reavalie antes de grandes commitments. O campo mudará várias vezes em 2026-2027.

📚 Resumo do Módulo

✓

T2V = difusão temporal com encoder multimodal — Seedance 2.0 adiciona áudio conjunto.

✓

Sensibilidade à forma = distribuição de treinamento — in-distribution performa melhor.

✓

Timeline prompting é oficial — ~50% do produto estudado é conhecimento público.

✓

v2.0 mudou 5 coisas grandes — áudio nativo, 9 refs, faces reais, controle fino, variante Fast.

✓

#1 global em T2V e I2V — mas benchmarks mudam rápido.

Próximo Módulo:

3.2 — Engenharia reversa como método. O caso seedance-gen.netlify.app, forense estática, as 51 sondas, taxonomia descoberta, medindo rigidez, achados de segurança, curva de saturação.

← Voltar para Trilha 3 Próximo Módulo →

📖 Glossário do módulo

Text-to-video (T2V): Modelo que gera vídeo a partir de descrição em texto. Seedance, Runway, Kling, Veo são exemplos.
Image-to-video (I2V): Modelo que anima uma imagem estática em vídeo. Muitos T2V fazem I2V também.
Modelo de difusão: Arquitetura de IA generativa que parte de ruído e "limpa" progressivamente até formar o output.
Difusão temporal: Difusão aplicada a vídeo — precisa manter coerência entre frames consecutivos.
Encoder multimodal: Componente que transforma múltiplos tipos de input (texto, imagem, áudio) em um espaço latente comum.
Espaço latente: Representação numérica interna do modelo onde significados são codificados como vetores.
Temporal coherence: Consistência visual entre frames de um vídeo. O maior desafio técnico de T2V.
Identity drift: Quando personagem ou objeto muda de aparência ao longo do vídeo. Falha de temporal coherence.
Distribuição de treinamento: O conjunto de dados que o modelo viu durante o treino. Prompts próximos dessa distribuição performam melhor.
In-distribution: Input que se parece com o que o modelo viu no treino — gera outputs mais confiáveis.
Out-of-distribution: Input diferente do que o modelo viu no treino — resultados imprevisíveis.
Timeline prompting: Técnica documentada de estruturar prompts em beats temporais [0s][3s][6s][8s]. Oficial em redreamality/MindStudio.
Seedance 1.0 / 2.0: Versões do modelo da ByteDance. v1 silenciosa (jun/2025), v2 com áudio nativo (fev/2026).
Áudio nativo: Áudio gerado junto do vídeo pelo mesmo modelo, sem pós-processamento.
Controle fino: Parâmetros específicos (iluminação, sombra, movimento de câmera) além do prompt textual.
Variante Fast: Versão otimizada para latência. Qualidade levemente inferior, custo ~50% menor.
ELO rating: Sistema de pontuação baseado em comparações pairwise. Usado em arenas de benchmark de IA.
Artificial Analysis Video Arena: Plataforma de benchmark pairwise para modelos T2V/I2V, com votação humana.
Kling / Runway / Veo: Concorrentes diretos do Seedance 2.0 no espaço de T2V comercial.
Dreamina: Interface oficial da ByteDance para o Seedance, em dreamina.jianying.com.
fal.ai: Plataforma aberta que disponibiliza o Seedance (e outros modelos) via API pay-per-use.