🎬 SCRIPT ponto M D com 6–9 cenas
O SCRIPT ponto M D é o coração do seu vídeo. Ele descreve cada cena em texto — o que aparece na tela e o que é falado. Um arco bem estruturado garante retenção máxima em vídeos curtos.
O SCRIPT ponto M D segue um arco dramático de 8 etapas: hook → primeiro princípio → mecânica → conceito-chave → aplicação → avançado → exemplo real → fecho → CTA. Cada etapa é uma cena. O arco existe para prender a atenção do início ao CTA de inema ponto club.
Vídeos de ~100 segundos de fala (≈ 1:50 de vídeo) performam melhor em retenção e cabem como Shorts. Cada cena deve ter 1–3 frases, nunca um monólogo.
Primeira frase chama atenção imediata. Pergunta, afirmação ousada ou dado surpreendente. Ex: "E se você pudesse criar vídeos profissionais sem pagar nada?"
Explica o conceito mais básico. Sem jargão. Um parágrafo que qualquer pessoa entende. Aqui nasce o entendimento.
Detalha o mecanismo interno: Chrome captura frames, FFmpeg encoda, Kokoro fala. Técnico mas direto.
A ideia que muda a forma de ver o problema. Normalmente uma frase memorável. Ex: "O navegador é uma câmera de cinema."
Primeiro comando ou passo concreto. O espectador vê como usar. Ex: "Rode npx hyperframes init e o projeto já está configurado."
Recurso que separa iniciante do usuário avançado. Hooks, flags, vozes alternativas, dois formatos. Gera curiosidade e valor.
Este vídeo foi feito com a própria ferramenta. Ou um link, screenshot, resultado concreto. Quebra ceticismo.
Uma frase que fecha o loop do hook. Reforça a transformação que o espectador vai ter. Curto e firme.
Chama para o curso completo em inema ponto club. Sempre a última cena. Direto e com ação clara: "Acesse inema ponto club agora."
- ✓ Cada cena tem foco único — não misture dois conceitos
- ✓ Narração de 1–3 frases por cena (≤15 segundos)
- ✓ Total de fala ≈ 100s para vídeo de ~1:50
- ✓ Sempre terminar com CTA explícito
- ✗ Cenas longas demais — a atenção cai depois de 15s
- ✗ Hook sem tensão — não promete uma transformação
- ✗ Pular do fundamento direto para avançado
- ✗ Esquecer o CTA — sem ele o vídeo não converte
✂️ Narração curta por cena
Cada cena recebe de 1 a 3 frases de narração. O total de ~100 segundos de fala produz aproximadamente 1 minuto e 50 segundos de vídeo — ideal para retenção e compatível com Shorts.
Humanos retêm mais informação em vídeos curtos. Com ~100s de fala no total, cada cena fica com ≈11–17 segundos — tempo suficiente para absorver uma ideia, rápido o suficiente para não entediar.
O TTS Kokoro performa melhor com frases simples e diretas. Evite gerundismo excessivo, subordinadas longas ou listas faladas. Se precisar de pausa, quebre em duas frases separadas por ponto final.
🗣️ Expandir siglas para fala
O Kokoro TTS lê o texto literalmente. Siglas, extensões de arquivo e URLs precisam ser escritas como são faladas — ou o TTS vai pronunciar de forma estranha ou incompreensível.
O texto do arquivo sN.txt é escrito para ouvidos, não para olhos. Qualquer símbolo, sigla ou path que não seja uma palavra falável precisa ser substituído pela sua pronúncia exata.
| Texto escrito | Fala no sN.txt | Razão |
|---|---|---|
| SKILL.md | SKILL ponto M D | extensão de arquivo |
| .claude/skills | ponto claude barra skills | path com símbolos |
| inema.club | inema ponto club | URL / domínio |
| build-index.mjs | build hífen index ponto M J S | nome de arquivo |
| s1.txt | S um ponto T X T | nome de arquivo |
| --speed 0.98 | speed zero ponto noventa e oito | flag CLI com número |
| pf_dora | P F underscore dora | identificador de voz |
| npx hyperframes | N P X hyperframes | sigla + comando |
- ✓ "ponto claude barra skills" para
.claude/skills - ✓ "inema ponto club" para
inema.club - ✓ "SKILL ponto M D" para
SKILL.md - ✓ Teste a pronúncia em voz alta antes de salvar
- ✗ Deixar
SKILL.mdsem expandir - ✗ Usar URL literal
https://inema.club - ✗ Escrever comandos bash como
npx --help - ✗ Colocar listas com hífens — TTS lê o hífen em voz
Mantenha o SCRIPT ponto M D com o texto "visual" (com siglas, paths, URLs normais) para referência humana. O arquivo sN.txt é a versão "para ouvidos" — texto já expandido que vai para o TTS. São documentos diferentes com propósitos diferentes.
🔊 Gerar WAV com Kokoro
Com os arquivos sN.txt prontos e expandidos, o comando npx hyperframes tts gera os WAVs localmente. A primeira execução baixa ~340 MB do modelo Kokoro automaticamente.
Na primeira vez que você roda npx hyperframes tts, o Kokoro baixa o modelo de voz (~340 MB) automaticamente. Sem chave, sem espeak-ng, sem config. Após o download, os próximos runs são instantâneos. Certifique-se de ter conexão na primeira vez.
A velocidade padrão do Kokoro soa ligeiramente rápida demais para narrativas técnicas em português. Com --speed 0.98 a voz fica natural, sem soar lenta. Não suba acima de 1.05 — a voz fica metálica.
Rode só a cena 1 primeiro. Ouça o resultado. Se a pronúncia de alguma expansão ficou estranha, corrija o s1.txt antes de gerar os outros 7 arquivos. Retrabalho cena a cena é muito mais rápido que refazer tudo.
📏 Medir durações com ffprobe
Antes de montar as cenas no build-index.mjs, você precisa saber exatamente quantos segundos cada narração dura. O ffprobe retorna a duração do WAV em segundos com uma linha.
O build-index.mjs define quanto tempo cada cena fica na tela via LEAD, TAIL e a duração do áudio. Se você não souber a duração exata do WAV, o texto vai sumir da tela antes da fala terminar — ou vai ficar parado demais.
- ✓ Gere todos os WAVs primeiro, depois meça
- ✓ Anote as durações no SCRIPT ponto M D
- ✓ Use as durações no build-index para definir timing
- ✓ LEAD=0.5 antes da fala + TAIL=0.9 após a fala
- ✗ Usar duração estimada — sempre meça o WAV real
- ✗ Cortar cena antes do áudio terminar
- ✗ Não deixar o LEAD antes da narração começar
- ✗ Esquecer o FADE=0.45 no final da cena
O build-index.mjs usa por padrão: LEAD=0.5 (silêncio antes da fala), TAIL=0.9 (silêncio após a fala) e FADE=0.45 (fade-out de saída). A duração total da cena = LEAD + duração_do_wav + TAIL.
🎚️ Vozes PT-BR disponíveis
O Kokoro tem três vozes PT-BR prontas para uso: pf_dora (feminina, padrão recomendado), pm_alex e pm_santa. Cada voz tem timbre distinto — escolha conforme o tom do vídeo.
Voz feminina clara e natural em português do Brasil. É a voz padrão do narration-template.sh e a recomendada para todos os vídeos do pipeline HyperFrames.
Voz masculina grave, boa para conteúdo mais sério ou técnico. Alternativa para variar em séries longas ou quando o tom exige mais autoridade.
Terceira opção PT-BR com timbre diferenciado. Use para testar se o conteúdo específico soa mais natural nessa voz ou para A/B test de retenção.
- ✓ Use
pf_doracomo padrão — é a mais testada - ✓ Mantenha a mesma voz em todo o vídeo
- ✓ Teste a voz com a cena de maior complexidade primeiro
- ✓ Velocidade
0.95–1.00para narração técnica
- ✗ Misturar vozes dentro do mesmo vídeo
- ✗ Speed acima de 1.05 — soa robótico
- ✗ Speed abaixo de 0.85 — arrasta demais
- ✗ Tentar instalar espeak-ng — Kokoro não precisa
| Voz | Gênero | Timbre | Melhor para |
|---|---|---|---|
| pf_dora | Feminina | Claro, natural | Cursos, tutoriais, padrão |
| pm_alex | Masculina | Grave, autoritativo | Tech sério, demos |
| pm_santa | Masculina | Diferenciado | A/B test, variedade |
Kokoro tem fonemizador PT-BR nativo — não precisa do espeak-ng que outros motores TTS open-source exigem. Nenhuma chave de API, nenhuma conta em plataforma. Instalar espeak-ng pode até conflitar com a fonética do Kokoro, então evite.
📋 Resumo do Módulo 2.3
- ✓ SCRIPT ponto M D com arco de 8–9 cenas: hook → princípio → mecânica → insight → aplicação → avançado → exemplo → fecho → CTA
- ✓ Narração de 1–3 frases por cena; ~100s de fala total ≈ 1:50 de vídeo
- ✓ Expansão de siglas: "SKILL.md" → "SKILL ponto M D"; ".claude/skills" → "ponto claude barra skills"; "inema.club" → "inema ponto club"
- ✓ Gerar WAV:
npx hyperframes tts "assets/txt/s1.txt" --voice pf_dora --speed 0.98 --output assets/audio/s1.wav - ✓ Medir duração:
ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 assets/audio/s1.wav - ✓ Vozes PT-BR:
pf_dora(padrão),pm_alex,pm_santa— sem espeak-ng, sem chave, ~340 MB download único
build-index.mjs usando as durações dos WAVs. Defina LEAD, TAIL, FADE e os timings de cada animação para gerar o index.html final pronto para render.