Suite de voz com IA local. Dubla, transcreve, corta e baixa vídeos com modelos rodando direto na GPU — sem custo de API, sem nuvem. Interface web com monitor em tempo real.
# Subir tudo de uma vez ./start.sh # API: http://localhost:8010 # Web: http://localhost:3010
O inemaVOX roda os modelos diretamente no host, sem nuvem. Frontend Next.js, backend FastAPI e pipelines Python; o Ollama é o único componente em Docker. Tudo orquestrado por uma interface web com monitor em tempo real.
Dublagem com IA em 10 etapas (tradução + TTS) e transcrição SRT/TXT/JSON com Whisper ou Parakeet.
Extraia clips por timestamp ou deixe um LLM achar os momentos virais. Baixe vídeos de YouTube, TikTok, Instagram e +1000 sites.
Modelos rodando na GPU local: ASR Whisper/Parakeet, TTS Edge/Chatterbox/XTTS/Piper, tradução M2M100/Ollama e clone de voz.
O frontend conversa com a API FastAPI via REST + WebSocket; a API dispara os pipelines Python no venv e usa o Ollama (Docker) para os LLMs. Cada job tem progresso por etapa, ETA e logs ao vivo.
Dashboard, páginas de Dublar/Transcrever/Cortar/Baixar e lista de jobs com filtros por tipo e status.
Job Manager, Model Manager, System Monitor e WebSocket; dispara os scripts via subprocess no venv.
LLM local para o modo viral de corte e tradução; também aceita providers em nuvem (OpenAI, Anthropic, Groq, DeepSeek...).
O inemaVOX foi pensado para rodar local com GPU NVIDIA. Veja INSTALL_LINUX.md no repositório para o passo a passo detalhado de cada componente.
Pipelines e API rodam num venv com as dependências do requirements.txt (e patches de compatibilidade).
# instalar dependências pip install -r requirements.txt
O frontend Next.js roda na porta 3010 via npm.
# instalar e rodar a web cd web && npm install
Container do Ollama para os LLMs locais; GPU NVIDIA recomendada para ASR/TTS.
# iniciar o Ollama docker start ollama-open
A forma mais simples é o script de inicialização. Abaixo, também os comandos manuais e exemplos de uso pela CLI.
Baixe o código e entre na pasta.
git clone https://github.com/inematds/inemavox.git cd inemavox
Inicia API (FastAPI) e web (Next.js) de uma vez.
./start.sh # API :8010 · Web :3010
Ollama em Docker, backend no venv e frontend via npm.
docker start ollama-open ./venv/bin/uvicorn api.server:app --host 0.0.0.0 --port 8010 --reload & cd web && npm install && npm run dev -- -p 3010 -H 0.0.0.0 &
Abra o dashboard e escolha Dublar, Transcrever, Cortar ou Baixar; acompanhe cada job em tempo real.
# abra no navegador http://localhost:3010
Cada funcionalidade tem um script Python com parâmetros próprios.
# Dublar para PT com Edge TTS python dublar_pro_v5.py --in "https://youtube.com/watch?v=ID" --tgt pt --tts edge # Transcrever com Whisper large-v3 python transcrever_v1.py --in video.mp4 --outdir ./transcription --whisper-model large-v3
Informe timestamps ou deixe o LLM achar os melhores momentos.
# manual python clipar_v1.py --in video.mp4 --mode manual --timestamps "00:30-02:15, 05:00-07:30" # viral com IA python clipar_v1.py --in video.mp4 --mode viral --ollama-model qwen2.5:7b --num-clips 5
Casos típicos cobertos pelas quatro ferramentas do inemaVOX, tudo localmente.
Cole a URL, escolha o idioma de destino e o motor TTS (Edge, Chatterbox, XTTS para clone de voz, ou Piper) e receba o vídeo dublado.
Transcreva com Whisper large-v3 ou Parakeet e baixe em SRT, TXT ou JSON, com detecção automática de idioma.
No modo viral, um LLM analisa a transcrição e identifica os melhores trechos; baixe individualmente ou em ZIP.
Baixe vídeos de YouTube, TikTok, Instagram, Facebook, Twitter/X e Twitch na qualidade desejada ou só o áudio em MP3.
O inemaVOX evolui rápido. Destaques recentes do histórico de versões do projeto.