Um mapa dos ~30 projetos que produzem ou processam vídeo: render determinístico, geração por IA, direção, orquestradores e suporte de voz/imagem — cada um com o que faz, como rodar e o link do repo.
Esta página reúne ferramentas que evoluíram em paralelo. A ideia é parar de redescobrir “qual projeto faz X”: aqui você acha o caminho certo em segundos e vai direto pro repo.
Determinístico, IA, direção, orquestração, suporte e pós. Cada pedido de vídeo cai em um deles.
A maioria roda na sua máquina/DGX: flux2-klein (imagem), inemavox (voz), HyperFrames/Remotion/pixflow (render). IA de vídeo local opcional.
Os orquestradores reusam os mesmos tijolos — direção do MDD, imagem do inemaimg, voz do inemavox, render do HyperFrames.
Comece pelo tipo de vídeo que você quer. O fluxo abaixo aponta o caminho; o catálogo tem o detalhe de cada peça.
Câmera/parallax sobre imagens, motion graphics, HQ animada. → pixflow, inemaref, HyperFrames, Remotion.
Pessoas/cenas em movimento real, avatar falante. → VideosDGX2 (Wan), HuMo, skyreelsv3; ou seedance2 p/ prompt na nuvem.
Explicativo, demo de app, videoaula, reels de marketing. → skill-videoprodutor, video-explicativo, videos-cursos-inema, timesmkt3.
Dublar, cortar fillers, legendar, dar upscale. → dublar5, video-use, inemavox, upscayl.
Cada card: o que faz, entrada→saída/como rodar, e o link do repo. O ponto colorido indica o status. Repos marcados (local) ainda não têm remote no GitHub.
Filme cinematográfico a partir de imagens estáticas: parallax com profundidade real + grain/LUT/vinheta/bloom, câmera e transições.
YAML (movie spec) + imagens → MP4 16:9. Depth-Anything-V2 + WebGL/GLSL + Remotion + FFmpeg.
repo ↗Fábrica narrativa: folder de personagem → quadrinho → motion-comic e série inteira a partir de um assunto.
JSON (bíblia + roteiro) + referências → MP4 nas Formas A (slideshow), B (câmera-viagem) e C (dirigida). Python + Chrome headless + TTS + FFmpeg.
repo ↗Motor base de quase todas as skills: anima HTML+GSAP e grava via Chrome headless. cchyperframes = editor; skill-hyperframes-videos = a skill.
HTML + narração TTS → MP4 16:9/9:16. Node + Playwright + Kokoro + FFmpeg.
cchyperframes ↗ · skill ↗Framework de vídeo em React (camada de texto cinético/dados). remotion-templates = 81 componentes prontos.
TSX + mídia → MP4/WebM/GIF via FFmpeg.
remotion ↗ · templates ↗Servidor MCP (119 tools, guardrailed) pra agentes editarem vídeo: corte, merge, crop, overlays, legendas, efeitos.
specs JSON → vídeo editado + análise. Python 3.11 + FFmpeg + HyperFrames.
repo ↗T2V + I2V local no DGX Spark com Wan 2.2 (14B MoE e 5B rápido), via ComfyUI + web UI.
texto/imagem → MP4. UI na porta :7862. Pesos ~25–90GB VRAM.
repo ↗Vídeo humano-cêntrico audio-driven (lip-sync fino) com HuMo 17B/1.7B.
texto + áudio (+ imagem) → 480/720p. GPU 32G+. Suporte ComfyUI.
(local — sem remote)Web UI completa do SkyReels V3: reference-to-video, video-to-video e talking avatar, com fila de jobs.
texto/imagem/áudio → vídeo. PyTorch + diffusers + FastAPI.
repo ↗App desktop (Electron) com 4 estúdios — imagem, vídeo, lip sync e cinema — agregando 200+ modelos.
variado → vídeo/imagem. macOS/Windows/Linux.
repo ↗Gera o prompt cinematográfico estruturado pro Seedance 2.0; a geração roda em FAL.ai. seedance2en é a variante PT/EN.
descrição → prompt 300–450 palavras + link de geração.
repo ↗Vazios, WIP ou legado — candidatos a remover/arquivar. Use skyreelsv3 e HuMo como canônicos.
Mestre de Direção Dinâmica: transforma um assunto em pacote de direção (cena, câmera, continuidade) pra geradores IA.
assunto → direção estruturada p/ Seedance/Kling/Runway/Veo/Luma.
repo ↗Direção de câmera (18 movimentos, regras validadas A/B) sobre imagens + narração.
imagens + narração → decupagem JSON + YAML pixflow → MP4.
repo ↗Gera plano de edição agnóstico de motor (Viral5 / Hero / Save-the-Cat). A skill skill-video-plan-editor é a versão empacotada.
assunto + preset → plano-edicao.json + RESUMO.
skill ↗ · core (local)Motor de prompts KairoBoost (direção de arte) + case end-to-end (stills → vídeo 9:16 com narração).
intenção + preset → prompt refinado → inemaimg + HyperFrames.
repo ↗Engine de filmmaking local-first dirigida por knowledge packs (conceito provado no case Hormozi-12).
assunto → imagens (flux2) + narração (inemavox) + parallax (pixflow).
repo ↗Linha de montagem completa: plano → direção + imagem → voz → render em 3 camadas (cinema + texto + ilustração).
link/fonte → MP4 profissional 16:9 + 9:16. Reusa mdd, flux2, inemavox, HyperFrames, Remotion.
repo ↗Vídeo educativo narrado PT-BR, do roteiro à CTA INEMA.CLUB.
assunto → cenas → Kokoro → HTML/GSAP → HyperFrames → MP4 16:9 + 9:16.
repo ↗Walkthrough automático de um web app: navega o app real, captura as telas e narra.
link → captura UI → narração → MP4 16:9 + 9:16.
repo ↗Gera os vídeos de um curso INEMA em 3 níveis: landing, trilhas e aula profunda por módulo.
curso spec → roteiro → inemavox → HyperFrames → MP4.
repo ↗Enfileira (FIFO) e executa os renders das skills acima em background, com notificação e painel.
comando (CLI/Telegram) → enqueue → worker → MP4 + aviso.
repo ↗Time de agentes de marketing: gera reels/ads (Remotion nativo, quick) e delega autorais longos pro mkvideos. Canônico da família timesmkt/2/3, imkt4/5.
/campanha → 5 stages → imagem (inemaimg) + voz (chatterbox) + vídeo → publica.
timesmkt3 ↗ · mkvideos ↗Suite de voz GPU-first: clonagem zero-shot (Chatterbox) + transcrição (Whisper) + dublagem.
texto/URL → wav/vídeo dublado. Daemon FastAPI :8010 (no inemaref em 127.0.0.1:7860).
repo ↗Mesma suite sem GPU: Groq Whisper + Edge TTS. Pra VPS/laptop.
texto/URL → áudio/legendas/clips.
repo ↗Biblioteca open-source de clonagem de voz zero-shot (23 idiomas). Base do inemavox.
texto + ref 10s → wav. pip install chatterbox-tts.
Servidor local de imagem com hot-swap de modelos: flux2-klein (default), Qwen-Edit, FLUX.2-dev, ERNIE.
prompt (+1–4 refs) → PNG. FastAPI :8000. ~31s/imagem no DGX.
repo ↗TTS PT-BR local embutido nas skills HyperFrames (vozes pf_dora / bella / rachel). Alternativa leve ao inemavox.
texto → wav, dentro do pipeline das skills.
(dentro das skills)ivox2: só docs de pesquisa (sem código). NanoBanana: curso de prompt de imagem/vídeo, não ferramenta.
Dublagem + corte + transcrição com interface web. Múltiplos ASR/TTS/LLM. (dublar/2/4 são superados.)
vídeo → vídeo dublado. FastAPI :8000 + Next :3000. Repo: dublarv5.
Corte inteligente: remove fillers (umm/uh), color grade, legendas e overlays via LLM→EDL. (Verificar: há também relato de ser curso.)
raw footage → vídeo montado. FFmpeg + LLM + render.
repo ↗Upscale de imagem por IA (Real-ESRGAN, 2x/4x) — útil pra refinar quadros antes do render.
imagem baixa → imagem 2x/4x. App Electron.
repo ↗As suites de voz também fazem dublagem ponta-a-ponta (download → transcrição → tradução → síntese → remux). Ver categoria E.
inemavox ↗Os caminhos local-first dependem de alguns serviços e binários. Suba o que o seu caminho usa.
Servidor flux2-klein e cia.
# sobe o server de imagem cd ~/projetos/inemaimg docker compose up # :8000
Narração / clonagem.
# daemon de voz cd ~/projetos/inemavox uvicorn app:api # :8010 / :7860
Node + FFmpeg + Chrome (HyperFrames).
# checagem rápida node -v && ffmpeg -version echo $CHROMIUM_BIN
Exemplo do trajeto mais comum: um assunto vira vídeo profissional reusando os tijolos. Troque a skill conforme o tipo (explicativo, demo, série, marketing).
Os orquestradores chamam esses serviços; deixe-os no ar.
cd ~/projetos/inemaimg && docker compose up -d # imagem :8000 cd ~/projetos/inemavox && uvicorn app:api & # voz
Explicativo → skill-video-explicativo. Demo de app → skill-video-demonstrativo. Pro/landing → skill-videoprodutor. Série/HQ → inemaref.
# cada skill responde a help /video-explicativo "o que é engenharia de contexto"
Para lotes, enfileire no mkivideos e siga a vida — ele serializa a GPU e avisa no fim.
/mkivideos explicativo "tema" # enfileira e renderiza em background
A saída cai na pasta de output padrão; mova o final pro destino.
ls ~/projetos/output/<projeto>/ # mp4 16:9 e/ou 9:16
Vários projetos têm variantes. Use os canônicos; arquive ou remova o resto.
ivox2 é só pesquisa — descartável.skyreels, humo2, HuMo_clean, HuMo_velho.dublar, dublar2, dublar4 são versões antigas.timesmkt/timesmkt2 superados; imkt4 duplicado; imkt5 = nova arquitetura (ainda sem gerador de vídeo).