inemaVOX — Suite de voz com IA local

O que é

Quatro ferramentas de voz, uma suite local

O inemaVOX roda os modelos diretamente no host, sem nuvem. Frontend Next.js, backend FastAPI e pipelines Python; o Ollama é o único componente em Docker. Tudo orquestrado por uma interface web com monitor em tempo real.

🎙️ Dublar e transcrever

Dublagem com IA em 10 etapas (tradução + TTS) e transcrição SRT/TXT/JSON com Whisper ou Parakeet.

🎙️ Cortar e baixar

Extraia clips por timestamp ou deixe um LLM achar os momentos virais. Baixe vídeos de YouTube, TikTok, Instagram e +1000 sites.

🎙️ Sem nuvem, sem API

Modelos rodando na GPU local: ASR Whisper/Parakeet, TTS Edge/Chatterbox/XTTS/Piper, tradução M2M100/Ollama e clone de voz.

Como funciona

Da URL ao resultado, monitorado em tempo real

O frontend conversa com a API FastAPI via REST + WebSocket; a API dispara os pipelines Python no venv e usa o Ollama (Docker) para os LLMs. Cada job tem progresso por etapa, ETA e logs ao vivo.

URL ou upload→ API FastAPI→ Pipeline Python (GPU)→ Modelos ASR/TTS/LLM→ Job + WebSocket

Frontend Next.js (:3010)

Dashboard, páginas de Dublar/Transcrever/Cortar/Baixar e lista de jobs com filtros por tipo e status.

Backend FastAPI (:8010)

Job Manager, Model Manager, System Monitor e WebSocket; dispara os scripts via subprocess no venv.

Ollama (Docker :11434)

LLM local para o modo viral de corte e tradução; também aceita providers em nuvem (OpenAI, Anthropic, Groq, DeepSeek...).

Pré-requisitos

O que você precisa antes de começar

O inemaVOX foi pensado para rodar local com GPU NVIDIA. Veja INSTALL_LINUX.md no repositório para o passo a passo detalhado de cada componente.

Python + venv

Pipelines e API rodam num venv com as dependências do requirements.txt (e patches de compatibilidade).

# instalar dependências
pip install -r requirements.txt

Node.js (frontend)

O frontend Next.js roda na porta 3010 via npm.

# instalar e rodar a web
cd web && npm install

Docker + Ollama

Container do Ollama para os LLMs locais; GPU NVIDIA recomendada para ASR/TTS.

# iniciar o Ollama
docker start ollama-open

Guia de uso · passo a passo

Rodando o inemaVOX

A forma mais simples é o script de inicialização. Abaixo, também os comandos manuais e exemplos de uso pela CLI.

Clone o repositório

Baixe o código e entre na pasta.

git clone https://github.com/inematds/inemavox.git
cd inemavox

Suba tudo com o start.sh

Inicia API (FastAPI) e web (Next.js) de uma vez.

./start.sh  # API :8010 · Web :3010

Ou inicie manualmente

Ollama em Docker, backend no venv e frontend via npm.

docker start ollama-open
./venv/bin/uvicorn api.server:app --host 0.0.0.0 --port 8010 --reload &
cd web && npm install && npm run dev -- -p 3010 -H 0.0.0.0 &

Use pela interface web

Abra o dashboard e escolha Dublar, Transcrever, Cortar ou Baixar; acompanhe cada job em tempo real.

# abra no navegador
http://localhost:3010

Ou rode pela CLI

Cada funcionalidade tem um script Python com parâmetros próprios.

# Dublar para PT com Edge TTS
python dublar_pro_v5.py --in "https://youtube.com/watch?v=ID" --tgt pt --tts edge
# Transcrever com Whisper large-v3
python transcrever_v1.py --in video.mp4 --outdir ./transcription --whisper-model large-v3

Corte manual ou viral

Informe timestamps ou deixe o LLM achar os melhores momentos.

# manual
python clipar_v1.py --in video.mp4 --mode manual --timestamps "00:30-02:15, 05:00-07:30"
# viral com IA
python clipar_v1.py --in video.mp4 --mode viral --ollama-model qwen2.5:7b --num-clips 5

Exemplos

O que dá pra fazer

Casos típicos cobertos pelas quatro ferramentas do inemaVOX, tudo localmente.

Dublar um vídeo estrangeiro

Cole a URL, escolha o idioma de destino e o motor TTS (Edge, Chatterbox, XTTS para clone de voz, ou Piper) e receba o vídeo dublado.

Gerar legendas precisas

Transcreva com Whisper large-v3 ou Parakeet e baixe em SRT, TXT ou JSON, com detecção automática de idioma.

Cortes virais com IA

No modo viral, um LLM analisa a transcrição e identifica os melhores trechos; baixe individualmente ou em ZIP.

Baixar de +1000 sites

Baixe vídeos de YouTube, TikTok, Instagram, Facebook, Twitter/X e Twitch na qualidade desejada ou só o áudio em MP3.

Roadmap

Evolução por versões

O inemaVOX evolui rápido. Destaques recentes do histórico de versões do projeto.

v1.0

Interface web completaTodas as funcionalidades principais — dublar, transcrever, cortar e baixar — disponíveis pela web.

v1.8

Clone de voz e diarizaçãoClone de voz com Chatterbox TTS + Voice Conversion (S3Gen) e diarização com pyannote.

v1.9

Cortes por tópicos e seletor de ASRModo de tópicos no corte, seletor de motor ASR (Whisper/Parakeet) e melhorias no download.

Mais motores e estabilidadeRefinos nos pipelines de GPU, novos providers de LLM e melhorias contínuas de compatibilidade.