Trilha 2 — Pipeline: HTML → MP4 | HyperFrames

Mapa da trilha

Conteúdo detalhado

2.1~30 min

🎬 O que é o HyperFrames

Do primeiro princípio: você escreve HTML animado, o HyperFrames captura frame a frame com Chrome headless e monta o MP4 com FFmpeg. Nenhuma chave de API, tudo local.

O que é:

O HyperFrames renderiza uma página HTML cena por cena, captura cada frame como imagem PNG e usa o FFmpeg para montar o vídeo final — com áudio WAV sincronizado.

Por que aprender:

Entender o fluxo ponta-a-ponta evita surpresas: cada etapa tem um artefato concreto (HTML, WAV, MP4) que você pode inspecionar.

Conceitos-chave:

HTML → frames PNG → FFmpeg → MP4; cada cena é um estado da página.

O que é:

O Chrome headless gerenciado pelo HyperFrames renderiza cada frame da animação. O FFmpeg mescla os frames com os áudios WAV e gera o arquivo MP4 final.

Por que aprender:

Saber que são dois processos separados ajuda a diagnosticar: problemas visuais → Chrome; problemas de áudio/timing → FFmpeg.

Conceitos-chave:

Puppeteer/Chrome, FFmpeg, pipeline de dois estágios.

O que é:

O Kokoro é um modelo TTS que roda localmente via Python (kokoro-onnx). Gera arquivos WAV de alta qualidade sem nenhuma chamada a serviço externo.

Por que aprender:

Elimina custo variável e dependência de internet. O modelo (~340 MB) baixa uma vez e fica na máquina.

Conceitos-chave:

kokoro-onnx, voz pf_dora, ONNX runtime, WAV local.

O que é:

Todo o pipeline (TTS, render, encode) acontece localmente. Depois do setup inicial, você produz vídeos sem internet e sem custos por uso.

Por que aprender:

Remove o medo de custos escalando e garante que o projeto pode ser reproduzido em qualquer máquina com os pré-requisitos instalados.

Conceitos-chave:

Offline-first, custo zero por vídeo, reprodutível.

O que é:

O HyperFrames suporta os dois formatos principais. O mesmo roteiro gera um vídeo 16:9 (YouTube, horizontal) e um 9:16 (Shorts, TikTok, Reels) automaticamente.

Por que aprender:

Uma produção, duas entregas. O CSS da cena adapta o layout para cada formato via media query ou variável.

Conceitos-chave:

1920×1080, 1080×1920, multi-formato, reproveitamento.

O que é:

Ideal para vídeos explicativos animados com narração (tutoriais, onboarding, lançamentos). Não é para capturas de tela ao vivo, entrevistas ou vídeos com face-cam.

Por que aprender:

Saber o escopo certo evita frustração. O HyperFrames brilha em conteúdo motion-graphics + narração; não substitui gravação ao vivo.

Conceitos-chave:

Motion-graphics, narração TTS, conteúdo técnico estruturado.

Ver Completo

2.2~30 min

🛠️ Setup & pré-requisitos

Instale Node 22+, FFmpeg, Chrome gerenciado e o Kokoro — rode npx hyperframes doctor e veja tudo verde antes de começar.

O que é:

Node 22 LTS é o mínimo exigido. No Windows, o FFmpeg vai em C:\ffmpeg\bin e, no git-bash, use sempre ffmpeg -nostdin para evitar travamentos de stdin.

Por que aprender:

Versões antigas do Node podem quebrar o CLI. A flag -nostdin é um gotcha clássico no Windows que trava o render silenciosamente.

Conceitos-chave:

Node 22+, FFmpeg no PATH, -nostdin no git-bash.

O que é:

O HyperFrames usa um Chrome isolado, baixado via npx hyperframes browser ensure. Ele fica em cache local e não interfere com o Chrome que você usa no dia a dia.

Por que aprender:

Usar o Chrome pessoal pode causar conflitos de perfil. O browser isolado garante ambiente limpo e reprodutível.

Conceitos-chave:

npx hyperframes browser ensure, cache local, Puppeteer isolado.

O que é:

Instale com pip install kokoro-onnx soundfile. Na primeira execução, o modelo (~340 MB) é baixado automaticamente e cacheado. As execuções seguintes são offline.

Por que aprender:

Sem o Kokoro instalado, a geração de narração falha. O download demora na primeira vez — planeje isso no setup.

Conceitos-chave:

pip install kokoro-onnx soundfile, download único ~340 MB, cache local.

O que é:

O comando npx hyperframes doctor checa Node, FFmpeg, Chrome e Kokoro de uma vez e imprime o status de cada dependência. Verde em tudo = pronto para criar.

Por que aprender:

Economiza tempo de depuração: em vez de descobrir a falha no meio do render, você identifica o problema antes de começar.

Conceitos-chave:

npx hyperframes doctor, checklist de deps, diagnóstico rápido.

O que é:

Crie o scaffolding com npx hyperframes init <nome> --example blank. Gera as pastas audio/, frames/, os scripts e o HTML de entrada já com a estrutura correta.

Por que aprender:

Partir do template certo evita erros de estrutura que só aparecem na hora do render.

Conceitos-chave:

npx hyperframes init, --example blank, pastas audio/ e frames/.

O que é:

O design.md define a paleta, tipografia e regras visuais do seu canal. Copie-o da referência do skill para dentro do projeto e referencie nas instruções ao Claude.

Por que aprender:

Sem um design.md, cada vídeo pode ter visual diferente. Ter o arquivo garante consistência de identidade visual.

Conceitos-chave:

design.md, house-style, paleta #0D1321, identidade visual.

Ver Completo

2.3~30 min

📝 Roteiro & narração TTS

Escreva o SCRIPT.md com 6–9 cenas em arco hook→princípio→avançado→CTA, gere os WAVs com Kokoro e meça as durações antes de compor.

O que é:

O SCRIPT.md é um Markdown com uma seção por cena. O arco ideal: hook (por quê assistir) → princípio (conceito base) → avançado (detalhe prático) → CTA (próximo passo).

Por que aprender:

Roteiro bem estruturado antes de programar evita retrabalho de animação. A narrativa guia o visual, não o contrário.

Conceitos-chave:

SCRIPT.md, 6–9 cenas, arco hook→CTA, uma ideia por cena.

O que é:

Com 6–9 cenas e ~100 segundos de narração total, o vídeo fica com ~1:50 de duração — ideal para Shorts e vídeos curtos no YouTube.

Por que aprender:

Textos longos por cena geram áudios longos que esticam a animação além do suportado. Cada cena deve ter no máximo 3–4 frases curtas.

Conceitos-chave:

~100s total, 3–4 frases por cena, ritmo de atenção.

O que é:

O TTS lê literalmente o texto. Escreva "SKILL ponto M D" em vez de "SKILL.md", "M J S" em vez de ".mjs", "N P X" em vez de "npx" — ou o resultado soa estranho.

Por que aprender:

É um dos gotchas mais comuns. Ouvir "SKILL ponto MD" natural vs o modelo tentando pronunciar "skill-dot-md" literalmente faz diferença enorme na qualidade percebida.

Conceitos-chave:

Texto fonético, expansão de siglas, revisar a narração em voz alta.

O que é:

Use a voz pf_dora com --speed 0.98 para uma fala natural e levemente mais pausada. O resultado é um arquivo WAV por cena em audio/.

Por que aprender:

A velocidade padrão (1.0) pode soar acelerada. O ajuste 0.98 é sutil mas melhora a clareza sem perder o ritmo.

Conceitos-chave:

voz pf_dora, --speed 0.98, WAV por cena, pasta audio/.

O que é:

Após gerar os WAVs, use ffprobe -show_entries format=duration em cada arquivo para obter a duração exata em segundos. Esses valores alimentam o array AUDIO[] no build-index.

Por que aprender:

Durações estimadas geram vídeos com áudio cortado ou silêncio no fim. ffprobe dá o número exato que o HyperFrames precisa.

Conceitos-chave:

ffprobe -show_entries format=duration, duração real em segundos, AUDIO[] array.

O que é:

Além da voz padrão pf_dora, o Kokoro oferece pm_alex (masculino neutro) e pm_santa (masculino mais grave) para variedade ou personalização de canal.

Por que aprender:

Escolher a voz antes de gravar tudo evita retrabalho. Teste as três com 2–3 frases do roteiro e decida antes de gerar todos os WAVs.

Conceitos-chave:

pf_dora, pm_alex, pm_santa, teste antes de gerar tudo.

Ver Completo

2.4~30 min

🎞️ Composição de cenas

O build-index.mjs é o coração: array AUDIO[] com durações reais, funções sceneN() de HTML, animações GSAP com anim(i,t) e legendas CAPTIONS[] — tudo batido no mesmo timing.

O que é:

O build-index.mjs é o gerador: lê o AUDIO[], chama as funções de cena e produz o index.html final que o HyperFrames vai renderizar. Copie do template e edite.

Por que aprender:

Entender a estrutura do gerador permite customizar sem medo. Cada parte tem responsabilidade clara: dados, HTML de cena, animação.

Conceitos-chave:

build-index.mjs, gerador, template copiado e editado.

O que é:

O array AUDIO[] mapeia cada cena ao seu arquivo WAV e à duração exata (em segundos, com decimais) obtida do ffprobe. Ex.: { file: 'audio/scene1.wav', dur: 12.34 }.

Por que aprender:

É a fonte única de verdade do timing. Todos os cálculos de animação derivam das durações reais do AUDIO[] — nunca estime.

Conceitos-chave:

AUDIO[], durações reais, fonte única de verdade, ffprobe.

O que é:

Cada cena é uma função sceneN() que retorna HTML posicionado absolutamente dentro do container de vídeo. Os elementos começam invisíveis e o GSAP os anima.

Por que aprender:

Separar HTML de cena em funções mantém o código organizado e facilita editar uma cena sem afetar as outras.

Conceitos-chave:

sceneN(), posição absoluta, opacity 0 inicial, GSAP anima.

O que é:

A função anim(i, t) recebe o índice da cena e o timeline GSAP e adiciona as animações. O GSAP interpola os valores frame a frame, garantindo que o Chrome captura movimentos fluidos.

Por que aprender:

GSAP é o padrão no HyperFrames porque garante timing determinístico — mesmo frame sempre igual, essencial para captura headless.

Conceitos-chave:

anim(i, t), GSAP timeline, timing determinístico, frame perfeito.

O que é:

O array CAPTIONS[] define o texto de legenda de cada cena, exibido na faixa inferior do vídeo. Pode ser o texto completo da narração ou um resumo em bullets.

Por que aprender:

Legendas melhoram acessibilidade e aumentam retenção em plataformas onde o vídeo toca sem som por padrão.

Conceitos-chave:

CAPTIONS[], faixa inferior, acessibilidade, vídeo sem som.

O que é:

Três constantes controlam o timing de toda animação: LEAD=0.5 (pausa antes da narração), TAIL=0.9 (hold após o fim da fala) e FADE=0.45 (duração do fade entre cenas). Mudar aqui afeta tudo uniformemente.

Por que aprender:

Ter uma fonte única de timing é o que garante que áudio e animação estejam sempre sincronizados. Nunca hard-code segundos nas funções de cena.

Conceitos-chave:

LEAD=0.5, TAIL=0.9, FADE=0.45, fonte única, sincronismo áudio+visual.

Ver Completo

2.5~30 min

✅ Validar & renderizar

Antes do render final: lint, inspect, draft para conferir visualmente, validar com o usuário — e só então render high com 30fps nas duas versões.

O que é:

O comando npx hyperframes lint verifica o HTML gerado: durações, referências de áudio, estrutura do timeline e erros de sintaxe. Deve retornar 0 erros antes de prosseguir.

Por que aprender:

Render com erros de lint pode produzir vídeos silenciosos, cortados ou com cenas faltando. Lint barato agora evita render caro depois.

Conceitos-chave:

npx hyperframes lint, 0 erros, validação prévia ao render.

O que é:

O npx hyperframes inspect --samples 16 abre o Chrome headless, captura 16 frames distribuídos pelo vídeo e exibe miniaturas para inspeção visual rápida de layout.

Por que aprender:

Texto cortado, elementos fora da tela ou sobreposições só aparecem visualmente. O inspect detecta antes de desperdiçar minutos de render.

Conceitos-chave:

npx hyperframes inspect --samples 16, miniaturas, problemas de layout.

O que é:

O modo --quality draft rende em resolução reduzida e velocidade maior, para uma pré-visualização rápida do vídeo completo antes do render final.

Por que aprender:

O draft permite conferir sequência, transições e timing sem esperar o render completo. Corrija no draft, não no high.

Conceitos-chave:

--quality draft, preview rápido, iteração barata.

O que é:

Extraia frames do draft com FFmpeg (ffmpeg -i draft.mp4 -vf fps=1 frames/%04d.png) e compartilhe com o usuário para validação visual. O Claude não consegue ouvir o áudio.

Por que aprender:

A validação humana antes do render final captura problemas subjetivos (texto muito pequeno, cores fora, ordem errada) que o lint não detecta.

Conceitos-chave:

ffmpeg -vf fps=1, frames PNG, validação humana, o Claude não ouve.

O que é:

Após aprovação do draft, rode --quality high --fps 30 para o render completo. Gera o MP4 final em resolução total, pronto para upload.

Por que aprender:

O render high demora mais e não deve ser repetido. Aprovação do draft antes garante que o esforço de render vai no arquivo certo.

Conceitos-chave:

--quality high --fps 30, render final, não repetir sem validação.

O que é:

Rode o render duas vezes com os parâmetros de formato diferentes (ou use a flag --both se disponível no seu projeto). O resultado é o arquivo horizontal (16:9) e o vertical (9:16) prontos para distribuição.

Por que aprender:

YouTube e Shorts têm alcances diferentes. Gerar as duas versões no mesmo render maximiza distribuição sem retrabalho de conteúdo.

Conceitos-chave:

16:9 YouTube, 9:16 Shorts, duas versões, distribuição multi-plataforma.

Ver Completo

← Todas as trilhas Trilha 3: Por dentro →