Trilha 3 — A Lógica do Seedance | Seedance 2.0 Mastery

Conteúdo da trilha

Clique em um tópico para expandir. Cada módulo tem página completa acessível pelo "Ver Completo".

3.1 ~50 min

🧠 Seedance 2.0 como modelo (sem mitos)

Arquitetura geral, por que é sensível à forma do prompt, timeline prompting oficial, diferenças v1→v2, benchmarks reais.

O que é:

Modelos text-to-video são difusões treinadas em pares (texto, vídeo) com condicionamento temporal. Seedance 2.0 usa encoder multimodal conjunto (texto + imagem + áudio), diferente de Runway (foco em image-to-video) e Veo (foco em longo prazo).

Por que aprender:

Saber a arquitetura explica por que certos prompts funcionam. Seedance foi treinado com audio-text-video conjunto → descrições de áudio no prompt têm efeito real na v2.0.

Conceitos-chave:

Diffusion temporal · encoder multimodal · distribuição de treinamento · condicionamento.

O que é:

Todo modelo de linguagem/vídeo aprende a "modo" de escrita que aparece mais em seus dados. Seedance foi exposto a legendas cinematográficas estruturadas, então prompts que seguem essa forma caem na "distribuição conhecida" e geram melhor.

Por que aprender:

Entender isso desmistifica prompts mágicos. Não existe "frase secreta" — existe frase que se parece com o que o modelo viu mais.

Conceitos-chave:

In-distribution vs out-of-distribution · convenções aprendidas · prior de estilo.

O que é:

A estrutura [0s][3s][6s][8s] é oficialmente documentada por guias públicos (MindStudio, redreamality). O produto estudado usa variante de 3 beats, mas a ideia é pública. Fórmula universal: Subject + Action + Scene + Lighting + Camera Movement + Style + Quality + Constraints.

Por que aprender:

A honestidade arquitetural do curso: o aluno precisa saber o que é público (timeline prompting, vocabulário cinematográfico) vs autoral (STOP MOTION, 3 audio phases, 7 presets específicos).

Conceitos-chave:

50% público / 50% autoral · redreamality como fonte mais completa · style line global.

O que é:

Seedance 1.0 (jun/2025) gerava só vídeo silencioso. 2.0 (fev/2026): áudio nativo conjunto · aceita 9 imagens + 3 clipes de 15s como referência · suporte a faces humanas reais · controle fino de iluminação/sombra/movimento · variante "Fast" para latência menor.

Por que aprender:

A maior parte do material de reverse engineering foi feita contra v1.x. Saber o que mudou evita ensinar técnicas obsoletas. Revalidar v2.0

Conceitos-chave:

Áudio nativo muda tudo · 9 refs = consistência visual · faces reais = compliance crítico.

O que é:

Em abril/2026: Elo 1269 em text-to-video e Elo 1351 em image-to-video, ambos #1 globais no Artificial Analysis Video Arena. À frente de Kling 3.0, Google Veo 3, Runway Gen-4.5.

Por que aprender:

Números justificam investir tempo em Seedance especificamente. Benchmark muda, então saber ler ELO e arenas permite reavaliar no futuro.

Conceitos-chave:

ELO rating · arena de comparação pairwise · benchmarks mudam rápido em IA.

Ver Completo

3.2 ~75 min

🔎 Os elementos de um sistema de geração

Os 6 blocos conceituais que todo sistema de geração estruturada de prompts tem: ROLE, SCHEMA, PRESETS, ROUTING, TEMPLATE, HARDENING. Explicados como padrão universal — você aprende a reconhecer para desenhar o seu.

O que é:

Uma identidade funcional dada ao modelo: quem é, o que recebe, o que produz, o que NÃO faz. Ancora todo o comportamento posterior.

Por que aprender:

Sem papel definido, o modelo escorrega para "assistant genérico" que explica, pergunta e conversa. Com papel, ele produz artefatos.

Conceitos-chave:

Título concreto · entrada/saída esperadas · negações explícitas ("do NOT explain").

O que é:

A forma exata do que sai: campos nomeados, tipos, limites de tamanho. Implementado via tool use forçado, nunca "responda em JSON".

Por que aprender:

3 funções: (1) previsibilidade — o app não quebra no parse. (2) segurança — bloqueia texto livre, injection vira impossível. (3) contrato estável entre LLM e frontend.

Conceitos-chave:

tool_choice forçado · schema validation · 5-8 campos é sweet spot.

O que é:

Conjunto de 5-10 configurações pré-validadas com strings canônicas literais. É onde mora o "ofício autoral" do seu app.

Por que aprender:

É o único bloco que torna seu app diferenciado. Código é commodity; taxonomia curada não. Quanto mais validada empiricamente, mais valiosa.

Conceitos-chave:

Nome em CAPS · gatilhos · valores canônicos · validação empírica.

O que é:

A lógica de decisão que mapeia input do usuário ao preset correto. Padrão clássico: match sequencial + fallback inventivo + default + overrides hard-coded.

Por que aprender:

Sem regras claras, a escolha fica indeterminada. Com o fallback inventivo você ganha cobertura parcialmente infinita sem precisar enumerar tudo.

Conceitos-chave:

Match sequencial · fallback inventivo · default · overrides.

O que é:

Abertura literal + seções numeradas + placeholders + fechamento literal + hard rules. Define a "assinatura" reconhecível do seu sistema.

Por que aprender:

Template flexível = output inconsistente. Template rígido = output consistente reconhecível. O sweet spot tem 3-5 elementos não-negociáveis.

Conceitos-chave:

LINE 1 literal · placeholders instrucionados · hard rules ALWAYS/NEVER · fechamento literal.

O que é:

4 defesas em camada: tool use forçado, interpretação defensiva do input, non-revelation do system prompt, refusal estruturado.

Por que aprender:

Qualquer app comercial lida com tentativas de injection. Cada camada é barata (10 linhas de instrução) e cobre um vetor diferente. Defense in depth.

Conceitos-chave:

Tool use como primeira linha · interpretação defensiva · refusal estruturado com category=REFUSED.

Ver Completo

3.3 ~80 min

📜 System prompt em 8 camadas

Uma aula por camada, com padrões reutilizáveis: ROLE, SCHEMA, PRESETS, ROUTING, TEMPLATE, VOCAB, RECS, HARDENING.

O que é:

A definição de papel ancora todo o resto. "You do NOT write screenplays. You do NOT explain things to the user. You produce structured cinematic prompts following an exact template and a fixed cinematic vocabulary that is known to render well on Seedance."

Por que aprender:

Sem a linha "NOT explain", o modelo escorrega para modo "assistant" e produz prosa narrativa em vez de artefato estruturado. A frase "known to render well on Seedance" ativa comportamento de "lookup de templates".

Conceitos-chave:

Papel concreto · negações explícitas · ativação de vocabulário.

O que é:

7 campos: genre, color_system, camera_style, techniques[4], english_prompt (350-500 palavras), chinese_prompt, recommendations[4]. Forçado via tool_choice {type: "tool", name: "emit_seedance_prompt"} — não "responda em JSON".

Por que aprender:

Tool use forçado bloqueia prompt injection completamente. O modelo não tem canal de texto livre por onde vazar system prompt ou mudar schema. É o anti-injection definitivo, melhor que qualquer instrução textual.

Conceitos-chave:

tool_choice forçado · schema validation · input_schema JSON.

O que é:

7 presets core com strings literais obrigatórias. Instrução: "use the canonical strings literally when classifying; adapt color palette only when the scene's setting clearly demands it". Copiar exato, não reformular.

Por que aprender:

A instrução "use literally" é o que força a rigidez observada (13/16 DUNE EPIC idênticos). Sem ela, o modelo reformularia a cada chamada e perderia a "assinatura" visual.

Conceitos-chave:

Literal quote vs reformulação · adaptação controlada · biblioteca como IP.

O que é:

Regras de classificação: match pelo primeiro preset cujos triggers se encaixam · fallback permite inventar gênero em padrão REFERENCE STYLE quando o estilo é cinema conhecido · default DUNE EPIC ou BLADE RUNNER NOIR · override: combate sempre JOHN WICK ACTION.

Por que aprender:

A cláusula "inventar gênero" é o que dá cobertura parcialmente infinita. Sem ela, tudo vira DUNE ou BLADE RUNNER por default. Com ela, qualquer cena fora dos triggers cai em um gênero plausível.

Conceitos-chave:

Match por trigger · fallback inventivo · overrides hard-coded.

O que é:

LINE 1 literal · [0s] câmera + sujeito + física + cor + lighting + Phase 1 audio · [3s] câmera diferente + 120fps + Phase 2 audio · [6s] clímax + STOP MOTION + snap-back + Phase 3 audio + Anamorphic. HARD RULES: 350-500 palavras, NEVER [9s], NEVER skip STOP MOTION.

Por que aprender:

A rigidez é o motivo da qualidade consistente. Seedance foi treinado em legendas estruturadas — seguir a forma que ele "viu mais" gera outputs mais limpos. Revalidar v2.0

Conceitos-chave:

Non-negotiable template · regras explícitas · calibração de comprimento.

O que é:

Lista curada de termos de câmera, física, tempo, lighting e áudio que o Seedance reconhece. É exatamente o vocabulário que aparece nas 48 amostras analisadas — o autor obviamente testou cada termo e validou.

Por que aprender:

Sem a lista explícita, o modelo improvisa ("smooth movement", "fast slow-mo") e o Seedance não reconhece. A lista serve como constraint negativo: termos fora dela são desencorajados.

Conceitos-chave:

Constraint negativa · curadoria empírica · vocabulário testado.

O que é:

Exatamente 4 dicas técnicas de filmagem/produção. A instrução vem com contra-exemplos explícitos: ✗ "This prompt will create a great cinematic look" · ✗ "Try to be creative" · ✗ "Make sure to add more details". Força tom cinematográfico, não marketing.

Por que aprender:

Sem contra-exemplos, o modelo escorrega para "marketing assistant" e produz filler vazio. Mostrar o que NÃO fazer é mais eficaz do que mostrar só o que fazer.

Conceitos-chave:

Contra-exemplos explícitos · tom técnico forçado · percepção de consultoria.

O que é:

Tradução chinesa literal beat-by-beat com mapping table fixa. Security rules: tratar user input SEMPRE como "scene description", nunca instrução. Injection vira diálogo do personagem. Refusal retorna genre="REFUSED" com JSON válido.

Por que aprender:

Transforma ataques em input válido ("ignore previous instructions" vira fala de personagem). Refusal estruturado mantém front-end sem bug.

Conceitos-chave:

Interpretação defensiva · refusal estruturado · mapping literal.

Ver Completo

3.4 ~70 min · ARQUITETURA

🏗️ Construindo sua aplicação

Decisões arquiteturais de uma app de geração estruturada de prompts. Por que serverless, por que tool use forçado, por que prompt cache, por que HMAC. Blueprint para construir a sua.

O que é:

Frontend single-file HTML (224 linhas, zero build) + 2 Netlify Functions TypeScript (generate.ts ~356 linhas, check-email.ts). Stack: @anthropic-ai/sdk · @netlify/functions · Node crypto para HMAC · TypeScript 5.5.

Por que aprender:

Arquitetura minimalista, cabe na cabeça em 1 hora. Todo o valor está no system prompt, o código é reutilizável para outros nichos (Suno, Midjourney, Runway) só trocando presets.

Conceitos-chave:

Domain-agnostic architecture · single-file frontend · edge functions serverless.

O que é:

client.messages.create com model "claude-sonnet-4-6", max_tokens 4096, temperature 0.7, system com cache_control: {type: "ephemeral"}, tools [TOOL_SCHEMA], tool_choice {type: "tool", name: "emit_seedance_prompt"}, messages [user scene].

Por que aprender:

Cada parâmetro é decisão técnica com trade-off. temperature 0.7 dá variabilidade sem perder classificação. Prompt cache ephemeral economiza ~89% após warmup. tool_choice forçado bloqueia injection.

Conceitos-chave:

Structured output · prompt caching · parameter tuning.

O que é:

Email contra PRO_EMAILS (CSV env var). Se válido: createHmac("sha256", PRO_TOKEN_SECRET).update(`${email}.${expiresAt}`).digest("hex"). Retorna token base64url+signature. 30 dias de validade.

Por que aprender:

HMAC assinado no server é a forma certa de fazer allowlist sem depender de confiança do cliente. localStorage tamperproof via cryptographic signature.

Conceitos-chave:

HMAC-SHA256 · env var secret · expiração embutida no token.

O que é:

Setup: ANTHROPIC_API_KEY + PRO_EMAILS + PRO_TOKEN_SECRET (openssl rand -hex 32). npm install, netlify dev para local, netlify deploy --prod para produção. Custo pós-warmup: ~$0.024 por geração (3000 tokens system cacheados + ~500 tokens variáveis).

Por que aprender:

Deploy real em 10 minutos é o momento "funcionou". Custo transparente permite precificação realista para cliente.

Conceitos-chave:

Env vars de produção · netlify CLI · cálculo de custo por request.

O que é:

1) Rate limit servidor 5 req/min por IP · 2) CORS restrito a domínio · 3) HMAC tokens em vez de email puro · 4) Sem debug field · 5) Input cap 4000 chars · 6) Refusal estruturado com genre="REFUSED".

Por que aprender:

Cada correção é aula de segurança prática. Conhecer os 6 pontos torna qualquer clone futuro seguro por default.

Conceitos-chave:

Defense in depth · bucket in-memory rate limit · cap de input.

O que é:

Streaming response para mostrar tokens chegando · webhook para chamar fal.ai logo após o prompt ser gerado (pipeline completo) · dashboard de custo usando Anthropic usage API.

Por que aprender:

Streaming melhora UX percebida em ~40%. Webhook para fal.ai transforma o clone em "gera prompt + gera vídeo" em uma chamada só. Dashboard permite otimizar custo.

Conceitos-chave:

SSE streaming · webhook orchestration · observability.

Ver Completo

3.5 ~75 min · HANDS-ON

🛠️ Passo a passo: construindo sua app

Tutorial linear do zero ao deploy. 7 passos: setup, system prompt, tool use, frontend, rodar local, deploy em produção, iteração. Cada passo com o código exato para copiar.

O que é:

Criar a pasta, npm init, instalar Anthropic SDK + Netlify Functions, criar index.html, netlify.toml, .env.example e netlify/functions/generate.ts.

Por que aprender:

É o menor setup possível para uma app funcional. 5 arquivos cobrem frontend, config, env e função serverless.

Conceitos-chave:

npm install · estrutura de pastas Netlify · .gitignore para .env.

O que é:

Template de system prompt com placeholders para o seu nicho. ROLE + 2-3 PRESETS + TEMPLATE curto + SECURITY RULES. Comece pequeno, expanda depois.

Por que aprender:

MVP real tem 2 presets, não 10. Você valida arquitetura primeiro, depois adiciona complexidade.

Conceitos-chave:

MVP · placeholders [NICHO]/[MODELO ALVO] · iteração posterior.

O que é:

A parte crítica: o TOOL_SCHEMA (input_schema JSON) e o handler da função que chama client.messages.create com tool_choice forçado.

Por que aprender:

É onde mora a segurança (tool use anti-injection) e a qualidade (schema validation). Cada parâmetro tem trade-off explicado.

Conceitos-chave:

TOOL_SCHEMA · tool_choice forçado · temperature 0.7 · cache ephemeral.

O que é:

Uma textarea, um botão, um div de output. Vanilla JS em 1 arquivo index.html. Tailwind via CDN. Sem framework, sem npm install.

Por que aprender:

Complexidade de frontend é excesso para MVP. 50 linhas de HTML vanilla resolvem. Focar energia no system prompt, não em React.

Conceitos-chave:

Vanilla JS · fetch API · Tailwind CDN · zero build.

O que é:

netlify dev serve HTML + roda função local com ANTHROPIC_API_KEY do .env, em localhost:8888. Smoke test com um input simples.

Por que aprender:

Iteração local é 10x mais rápida que deploy a cada mudança. Você quer validar arquitetura antes de ir para produção.

Conceitos-chave:

Netlify CLI · hot reload · debug via terminal logs.

O que é:

netlify login → netlify init → netlify env:set ANTHROPIC_API_KEY → netlify deploy --prod. Retorna URL pública .netlify.app.

Por que aprender:

O momento "funcionou". Checklist de produção: .env no .gitignore, env vars setadas server-side, teste real contra URL pública.

Conceitos-chave:

netlify CLI · env vars de produção · checklist pré-deploy.

O que é:

Loop de 7 passos: teste 10 inputs → anote os 2-3 piores → identifique padrão → edite UM problema → deploy → teste de novo → repita.

Por que aprender:

MVP no ar é o começo, não o fim. O system prompt é seu ativo intelectual mais valioso — versione no git como código de produção.

Conceitos-chave:

Uma mudança por iteração · versionamento git · regressão controlada.

Ver Completo

3.6 ~65 min

🏭 Produção em escala e pipeline comercial

Integração com DaVinci/Premiere, batch generation, custos comparativos, vendas, compliance, red-team de output.

O que é:

Seedance entra como "gerador de b-roll cinematográfico" no pipeline: render de 10s na fal.ai → upscale no Topaz Video AI → edit final no DaVinci Resolve (color grading + cortes) → finishing no After Effects (sobreposições, textos).

Por que aprender:

IA sozinha raramente gera entrega final. Pipeline híbrido (IA + edição tradicional) é o que torna o output comercialmente viável.

Conceitos-chave:

IA como b-roll · upscaling · color grading final · compositing.

O que é:

Script que recebe uma cena e gera 50 variantes (5 câmera × 5 paleta × 2 lighting), roda todas na fal.ai em paralelo, usa CLIP ou similar para ranquear visualmente contra uma imagem de referência, retorna top 5.

Por que aprender:

Batch com ranking automático é a forma de escalar quando o cliente quer "10 opções". Manual dá 1h por opção; automatizado dá 50 em 10 min.

Conceitos-chave:

Paralelismo de API · ranking automático · CLIP score · quality gate.

O que é:

Tabela comparativa: fal.ai Seedance 2.0 ~$X/s, Dreamina ~$Y/s, Runway Gen-4.5 ~$Z/s, Kling 3.0 ~$W/s, Veo 3 ~$V/s. Custo de "vídeo final utilizável" inclui taxa de rejeição (gerar 5 e usar 1 é diferente de gerar 1 e usar 1).

Por que aprender:

Custo real é "por vídeo aprovado pelo cliente", não "por render". A conta muda radicalmente quando você inclui iterações.

Conceitos-chave:

Taxa de rejeição · custo efetivo · comparação multi-plataforma.

O que é:

Estrutura de venda: briefing em 4 perguntas (quem, para quem, clima, referência visual) · cotação por pacote (5 vídeos / 15 vídeos / campanha completa) · entrega em 48h com revisão · precificação 10-30x o custo de API (serviço, não venda de vídeo).

Por que aprender:

Cliente paga pelo ofício + curadoria, não pela API. Precificar só pela fal.ai vira race to the bottom. Precificar como consultoria cinematográfica escala.

Conceitos-chave:

Valor percebido · pacotes fechados · revisões limitadas · markup como serviço.

O que é:

Direitos de imagem (consentimento escrito para face real) · marcas registradas (evitar logos, produtos icônicos) · deepfake (pessoas públicas só em contexto editorial) · LGPD/GDPR (não armazenar face sem base legal).

Por que aprender:

Processo por direito de imagem é o maior risco comercial de vídeo-IA. Saber os limites evita o problema antes dele existir.

Conceitos-chave:

Release de imagem · direito de uso comercial · LGPD face = dado sensível.

O que é:

Checklist de auditoria antes de enviar para cliente: identity drift (personagem mudou?) · frame corrupt (blur, artefato, ghosting?) · unintended content (texto estranho na cena, marca no fundo, gestos obscenos?) · aspect ratio (bateu com o pedido?) · duração (cortada?).

Por que aprender:

Cliente lembra do pior vídeo. Auditoria rápida de 2 minutos por vídeo antes de enviar é o que separa agência pro de freelancer caótico.

Conceitos-chave:

Quality gate · checklist pré-entrega · red-team do output.

Ver Completo

3.7 ~60 min · END-TO-END

🔄 Fluxo completo end-to-end

Um caso real integrado: cliente → briefing → sua app gera prompt → fal.ai renderiza vídeo → DaVinci finaliza → entrega. Cada etapa com o que fazer, quanto custa e quanto leva. Fecha o ciclo de aprendizado do curso.

O que é:

Quem é o sujeito, onde/ambiente, o que acontece, que clima/referência. Mais 3-5 imagens de referência do cliente. 20 minutos máximo.

Por que aprender:

Briefing enxuto evita reuniões arrastadas. 4 perguntas resolvem 90% dos casos reais.

Conceitos-chave:

Call focada · mood board · referências visuais.

O que é:

Cola o briefing na sua app (construída no módulo 3.5). Gera 10 variantes: 5 de um mood + 5 de outro. Output estruturado em JSON. Cada geração custa ~$0.024.

Por que aprender:

A app resolve a etapa de "pensar prompt" em minutos. Você foca no ofício (curadoria), não em escrever 400 palavras manualmente.

Conceitos-chave:

Input → app → JSON estruturado · 10 variantes para escolher depois · custo marginal baixo.

O que é:

Cola os 10 prompts no playground da fal.ai em paralelo. ~30s cada render. Descarta os que falharam filtro ou têm drift. 5-8 usáveis + 2-3 extras.

Por que aprender:

Taxa de rejeição é 20-30% em beauty, 40-50% em ação. Já orce os extras no seu tempo.

Conceitos-chave:

Paralelização · taxa de rejeição · regeração de falhas.

O que é:

Checklist de ~2min por vídeo: identity drift, texto estranho na cena, número de dedos, marcas acidentais, aspect ratio, duração exata.

Por que aprender:

Cliente lembra do pior vídeo. 15 minutos de auditoria salvam reputação.

Conceitos-chave:

Quality gate · checklist sistemático · pre-delivery audit.

O que é:

Escolha os 5 melhores dos 8 aprovados. Grid visual (Miro, Slides, README com GIFs). Envie ao cliente com nomes claros e opções de alteração.

Por que aprender:

5 opções é o sweet spot — menos parece preguiça, mais vira paralisia. Facilita decisão rápida do cliente.

Conceitos-chave:

Side-by-side · nomes descritivos · limite de revisões embutido.

O que é:

Import → trim 0.3-0.5s início/fim → color grading → sound design → export H.264 9:16 1080p. ~15 min por vídeo. DaVinci gratuito cobre tudo.

Por que aprender:

IA sozinha raramente entrega final. Pipeline híbrido IA+edição tradicional é o que torna o output comercialmente viável.

Conceitos-chave:

Trim frames artefato · color grade · sound design · export aspect ratio correto.

O que é:

Upload WeTransfer/Drive → email curto com links e disclosure #IA. Contabilidade: ~2.5h trabalhadas + ~R$ 26 custos diretos + R$ 2.500 cobrado = margem ~98%.

Por que aprender:

Cliente paga pelo ofício (curadoria, auditoria, finishing), não pela API. Qualquer um abre conta na fal.ai; poucos sabem usar bem.

Conceitos-chave:

Hora efetiva · margem comercial · precificação por ofício · adaptações por nicho.

Ver Completo

🏆 Projeto final da Trilha 3

Entregue uma aplicação funcional de geração de prompts para o seu nicho: arquitetura serverless, system prompt em 8 camadas, 3-7 presets próprios, deploy em Netlify, e um fluxo completo demonstrado (do briefing à entrega) com contabilidade real.

✓Nicho próprio escolhido e documentado
✓App deployada em Netlify com as 6 decisões de segurança do módulo 3.4
✓System prompt em 8 camadas, versionado no git
✓Demonstração do fluxo completo (módulo 3.7) com 1 projeto fictício
✓README com arquitetura, custo por geração e margem comercial

← Anterior: Trilha 2 (Prompt-Ready) Voltar ao início →