MÓDULO 3.1

🧠 Seedance 2.0 como modelo (sem mitos)

Arquitetura geral de text-to-video, por que o Seedance é sensível à forma do prompt, timeline prompting como técnica oficial documentada, o que mudou da v1 para v2, e benchmarks reais.

1

🏗️ Arquitetura geral de text-to-video

Modelos text-to-video são difusões temporais com condicionamento multimodal. Entender as peças explica por que certos prompts funcionam melhor que outros — não é mágica, é onde o modelo foi treinado.

As 3 peças principais

  • 1
    Encoder de texto (+ imagem + áudio na v2.0): transforma sua frase em vetores de significado. O Seedance 2.0 usa um encoder multimodal conjunto — texto, imagens de referência e tags de áudio entram no mesmo espaço latente.
  • 2
    Modelo de difusão temporal: parte de ruído e "limpa" progressivamente para gerar frames consistentes entre si. A temporal coherence é o maior desafio técnico de T2V — é onde os modelos ruins falham.
  • 3
    Decoder + upsampler: transforma os latentes em frames finais de vídeo, opcionalmente com áudio sincronizado (exclusivo v2.0).

Onde Seedance difere dos concorrentes

  • vs Runway Gen-4: Runway é mais forte em image-to-video (foto estática → vídeo). Seedance é mais forte em text-to-video puro.
  • vs Google Veo 3: Veo é mais forte em longa duração (30s+). Seedance otimiza para 5-10s com qualidade máxima.
  • vs Kling 3.0: Kling tem identity preservation ligeiramente melhor. Seedance tem controle de câmera mais preciso.
  • Único na v2.0: áudio nativo gerado conjunto com vídeo (não pós-processamento).
2

📊 Por que Seedance é sensível à forma do prompt

A explicação técnica da frase "estilo de escrita importa": distribuição de treinamento. Todo modelo aprende a "modo" de escrita que aparece mais em seus dados. Prompts fora dessa distribuição caem em regiões menos bem modeladas — e o output piora.

O conceito: in-distribution vs out-of-distribution

In-distribution: prompts que se parecem com as legendas que o modelo viu durante o treinamento. Normalmente legendas cinematográficas estruturadas com vocabulário específico (wide shot, golden hour, cinematic lighting, etc.). O modelo performa melhor aqui porque tem "muitos exemplos próximos".

Out-of-distribution: prompts de conversa natural ("uma cena legal", "quero algo bonito"), comandos imperativos ("mostre-me"), instruções de usuário ("faça X"). O modelo performa pior aqui porque está extrapolando.

💡 Implicação prática

Não existe "frase secreta mágica". Existe frase que se parece com o que o modelo foi treinado a ver. Escrever bem = escrever próximo da distribuição. É por isso que copiar os presets literal funciona: as strings canônicas foram empiricamente validadas como in-distribution.

3

📖 Timeline prompting como técnica oficial

A estrutura [0s][3s][6s][8s] que o produto comercial usa não foi inventada pelo autor. É timeline prompting, técnica oficialmente documentada em guias públicos gratuitos. Cerca de 50% do que o produto estudado ensina é conhecimento público nomeado.

O que está na documentação pública

  • Timeline beats [0s][3s][6s][8s]: MindStudio, redreamality.com, GitHub repos.
  • Fórmula universal: Subject + Action + Scene + Lighting + Camera Movement + Style + Quality + Constraints (redreamality).
  • Vocabulário cinematográfico: dolly-in, dolly-out, pan, crane, gimbal, handheld, aerial, rack focus, anamorphic lens flare, shallow depth of field (documentação oficial).
  • Categorias de gênero: Daily Life, Sci-Fi (cyberpunk), Minimalist, Cinematic, Film Noir, Animation — todas em redreamality.
  • Audio keywords: reverb, muffled, echoing, tag @Audio — redreamality.
  • Limites: 30-200 palavras, 1-2 personagens, consistência de face — todos documentados.

O que é autoral do produto estudado

  • ×
    STOP MOTION freeze + snap-back: NÃO documentado em nenhum guia oficial. Extensão autoral.
  • ×
    3 fases de áudio (practical → brass chord → orchestral): NÃO documentado. Autoral.
  • ×
    7 presets específicos com strings canônicas: categorias similares existem oficialmente, mas as strings exatas são autorais.
  • ×
    350-500 palavras deliberado: diverge do oficial de 30-200. Autoral.
  • ×
    Abertura "same character throughout all shots": versão comprimida do conselho oficial "maintain face and clothing consistency". Autoral.
  • ×
    Tese "filter bypass chinês": NÃO verificada em fontes públicas. Pode ser marketing.

💡 A repartição honesta

50% do valor do produto é conhecimento público embalado (timeline prompting + vocabulário). 50% é opinião autoral testada empiricamente (STOP MOTION + audio phases + 7 presets específicos). Nenhum dos dois é menos valioso — curadoria e opinião formada valem dinheiro.

4

⬆️ O que mudou da v1 para v2

Seedance 1.0 (junho/2025) → Seedance 2.0 (fevereiro/2026). Mudanças substanciais que afetam como você escreve prompts.

As 5 mudanças principais

  • 1.
    Áudio nativo conjunto: v1 gerava só vídeo silencioso. v2 gera áudio junto do vídeo usando o mesmo modelo. Phase 1/2/3 agora resulta em som real.
  • 2.
    Até 9 imagens + 3 clipes de 15s como referência: consistência visual entre cenas agora é viável nativamente.
  • 3.
    Faces humanas reais: suporte a "real human face" agora é oficial — v1 era propositalmente borrado.
  • 4.
    Controle fino: iluminação, sombra, performance e movimento de câmera agora têm parâmetros dedicados.
  • 5.
    Variante "Fast": versão otimizada para latência menor, qualidade levemente inferior, custo ~50% menor.

⚠️ Implicações para o material de reverse engineering

O produto comercial foi analisado provavelmente contra v1.x. Implicações a revalidar:

  • • STOP MOTION ainda funciona igual na v2?
  • • As 3 fases de áudio literais ainda são necessárias, ou tag @Audio é melhor agora?
  • • 350-500 palavras ainda é ótimo? v2 pode lidar melhor com 100-200?
  • • "Anamorphic 2.39:1" mandatório vs usar controles nativos?
  • • Filter bypass chinês: ainda funciona ou foi resolvido?
5

🏆 Benchmarks — #1 global em T2V e I2V

Em abril/2026, Seedance 2.0 lidera o Artificial Analysis Video Arena tanto em text-to-video quanto em image-to-video.

Performance medida

  • Elo 1269 — text-to-video (no audio): #1 global
  • Elo 1351 — image-to-video (no audio): #1 global
  • • À frente de Kling 3.0, Google Veo 3, Runway Gen-4.5

💡 Como ler benchmarks de vídeo IA

Arena ELO é comparação pairwise: humanos votam em "este vídeo é melhor que aquele" sem saber qual modelo gerou. Mais objetivo que métricas automáticas. A liderança muda rápido no espaço — reavalie antes de grandes commitments. O campo mudará várias vezes em 2026-2027.

📚 Resumo do Módulo

T2V = difusão temporal com encoder multimodal — Seedance 2.0 adiciona áudio conjunto.
Sensibilidade à forma = distribuição de treinamento — in-distribution performa melhor.
Timeline prompting é oficial — ~50% do produto estudado é conhecimento público.
v2.0 mudou 5 coisas grandes — áudio nativo, 9 refs, faces reais, controle fino, variante Fast.
#1 global em T2V e I2V — mas benchmarks mudam rápido.

Próximo Módulo:

3.2 — Engenharia reversa como método. O caso seedance-gen.netlify.app, forense estática, as 51 sondas, taxonomia descoberta, medindo rigidez, achados de segurança, curva de saturação.

📖 Glossário do módulo

Text-to-video (T2V)
Modelo que gera vídeo a partir de descrição em texto. Seedance, Runway, Kling, Veo são exemplos.
Image-to-video (I2V)
Modelo que anima uma imagem estática em vídeo. Muitos T2V fazem I2V também.
Modelo de difusão
Arquitetura de IA generativa que parte de ruído e "limpa" progressivamente até formar o output.
Difusão temporal
Difusão aplicada a vídeo — precisa manter coerência entre frames consecutivos.
Encoder multimodal
Componente que transforma múltiplos tipos de input (texto, imagem, áudio) em um espaço latente comum.
Espaço latente
Representação numérica interna do modelo onde significados são codificados como vetores.
Temporal coherence
Consistência visual entre frames de um vídeo. O maior desafio técnico de T2V.
Identity drift
Quando personagem ou objeto muda de aparência ao longo do vídeo. Falha de temporal coherence.
Distribuição de treinamento
O conjunto de dados que o modelo viu durante o treino. Prompts próximos dessa distribuição performam melhor.
In-distribution
Input que se parece com o que o modelo viu no treino — gera outputs mais confiáveis.
Out-of-distribution
Input diferente do que o modelo viu no treino — resultados imprevisíveis.
Timeline prompting
Técnica documentada de estruturar prompts em beats temporais [0s][3s][6s][8s]. Oficial em redreamality/MindStudio.
Seedance 1.0 / 2.0
Versões do modelo da ByteDance. v1 silenciosa (jun/2025), v2 com áudio nativo (fev/2026).
Áudio nativo
Áudio gerado junto do vídeo pelo mesmo modelo, sem pós-processamento.
Controle fino
Parâmetros específicos (iluminação, sombra, movimento de câmera) além do prompt textual.
Variante Fast
Versão otimizada para latência. Qualidade levemente inferior, custo ~50% menor.
ELO rating
Sistema de pontuação baseado em comparações pairwise. Usado em arenas de benchmark de IA.
Artificial Analysis Video Arena
Plataforma de benchmark pairwise para modelos T2V/I2V, com votação humana.
Kling / Runway / Veo
Concorrentes diretos do Seedance 2.0 no espaço de T2V comercial.
Dreamina
Interface oficial da ByteDance para o Seedance, em dreamina.jianying.com.
fal.ai
Plataforma aberta que disponibiliza o Seedance (e outros modelos) via API pay-per-use.