MÓDULO 2.6

🎙️ Ferramentas de Áudio

Voice Generator, Music Generator, SFX, Audio Mixer e Lip Sync — o pipeline completo de áudio para seu filme, tudo dentro do Freepik sem precisar de um DAW externo.

6
Tópicos
30
Minutos
Iniciante
Nível
Prático
Tipo
Node de música e áudio no Spaces

Music Generator Node no Freepik Spaces — configuração de gênero, mood, BPM e duração para trilha sonora sob medida

Resultado de áudio gerado

Resultado — trilha gerada com waveform e player

Workflow completo de áudio

Workflow de áudio completo — múltiplas faixas integradas

1

🎙️ Voice Generator

O Voice Generator do Freepik é um text-to-speech de alta qualidade com vozes realistas em mais de 50 idiomas — incluindo português do Brasil com múltiplas vozes, tons e sotaques.

🎙️ Funcionalidades do Voice Generator

Controles de Voz

  • • 50+ idiomas incluindo PT-BR
  • • Múltiplas vozes por idioma (masculina/feminina)
  • • Tom: grave, médio, agudo
  • • Velocidade: 0.5x a 2.0x
  • • Estilo: narrador, notícia, conversacional

Controles Avançados (SSML)

  • • Pausa entre sentenças (100ms-2s)
  • • Ênfase em palavras específicas
  • • Pronúncia personalizada
  • • Export MP3/WAV
  • • Integração direta com Spaces

💡 Dica para Narrações de Filme

Para narração cinematográfica em PT-BR: use velocidade 0.85x (ligeiramente mais lento que o normal), tom grave e estilo narrador. Adicione pausas de 500ms após pontos finais importantes para dar peso dramático às frases.

2

🎵 Music Generator

O Music Generator cria trilhas sonoras originais e royalty-free a partir de prompts de texto — descreva o gênero, instrumentos, mood e duração para obter a música exata que a cena pede.

🎵 Estrutura do Prompt Musical

[Gênero] + [Instrumentos] + [Mood/Emoção] + [BPM] + [Duração]
EXEMPLO — Cena de Suspense

"Cinematic orchestral, strings and low brass, building tension and dread, 72 BPM, 45 seconds, dark, ominous"

EXEMPLO — Cena de Esperança

"Uplifting orchestral, piano and strings with subtle choir, emotional and hopeful, 90 BPM, 60 seconds, crescendo ending"

EXEMPLO — Cena de Ação

"Action electronic, pulsating beats and synth, intense and driving, 140 BPM, 30 seconds, energetic, aggressive"

3

🔊 SFX Generator

O SFX Generator cria efeitos sonoros específicos a partir de descrições textuais detalhadas. Sons que bancos de SFX não têm ou que não encaixam perfeitamente na cena podem ser gerados sob medida.

🔊 Como Descrever Sons

  • Ambiente: onde o som acontece (floresta, cidade, espaço)
  • Objeto: o que faz o som (motor, folhas, vidro)
  • Ação: o que acontece com o objeto (quebra, acelera, cai)
  • Intensidade: suave, médio, estridente
  • Duração: 1s, 3s, 10s

Exemplos de Prompts SFX

  • "Heavy rain on metal roof, distant thunder"
  • "Old wooden door creaking open slowly"
  • "Crowd of people in busy marketplace"
  • "Car engine starting with turbo sound"
4

🎚️ Audio Mixer

O Audio Mixer integrado ao Freepik permite combinar narração, música e SFX em uma saída final sincronizada com o vídeo, sem precisar de um DAW externo.

🎚️ Configuração do Mix

Faixa de Voz/Narração 100% volume

A narração deve sempre ser a mais alta. Nível de referência para o mix.

Faixa de Música 20-40% volume

Trilha como fundo emocional. Ducking automático quando a voz entra reduz para ~15%.

Faixa de SFX 50-70% volume

Efeitos sonoros de apoio à cena. Devem complementar sem competir com a narração.

💡 Ducking Automático

Ative o ducking automático no mixer: quando a voz narrativa começa, a música de fundo baixa automaticamente para 15-20% do volume original e retorna quando a voz termina. Isso é padrão em filmes e documentários profissionais.

5

👄 Lip Sync

O Lip Sync do Freepik anima o movimento labial de um rosto em imagem ou vídeo para sincronizar com um áudio fornecido — transformando personagens gerados por IA em falantes realistas.

✓ Requisitos para Lip Sync

  • Rosto frontal (máx 30° de ângulo lateral)
  • Rosto claramente visível e bem iluminado
  • Áudio limpo sem ruído de fundo intenso
  • Duração máxima: 30 segundos
  • Pode usar imagem estática ou vídeo como base

✗ O que não funciona

  • Rosto de perfil ou em ângulo extremo
  • Rostos parcialmente obstruídos (mão, objeto)
  • Áudio com música alta em cima da voz
  • Múltiplos rostos na mesma imagem
  • Animações ou personagens cartoon

🔄 Fluxo com Lip Sync

Gere a narração no Voice Generator → Gere a imagem do personagem com Mystic 2.5 em plano frontal → Use Lip Sync com a narração e a imagem → Resultado é um vídeo com o personagem "falando" a narração → Combine com outros clips na montagem final.

6

🗓️ Fluxo de Áudio Completo

O pipeline completo de áudio dentro do Freepik vai do roteiro ao mix final sem precisar sair da plataforma. Conhecer cada etapa antes de começar evita gargalos no final da produção.

1

Roteiro → Narração (Voice Generator)

Cole o roteiro ou narração no Voice Generator. Selecione a voz, tom e velocidade. Gere e aprove o áudio antes de seguir para a próxima etapa.

2

Trilha Sonora (Music Generator)

Para cada "bloco emocional" do filme, gere uma trilha específica. Um filme de 3 min pode ter 3-5 trilhas diferentes para cenas de suspense, ação e emoção.

3

SFX por Cena (SFX Generator)

Liste os efeitos sonoros necessários por cena do storyboard. Gere cada um individualmente. Ambientes + ações específicas + impactos dramáticos.

4

Lip Sync nos Personagens

Para cenas com personagens falando: aplique Lip Sync com o trecho de narração correspondente. Somente em imagens frontais aprovadas.

5

Mix Final (Audio Mixer)

Combine todas as faixas: voz em 100%, música em 20-40% com ducking automático, SFX em 50-70%. Preview e ajuste até o equilíbrio correto.

6

Export e Sincronização

Export o áudio final em WAV para máxima qualidade. Na montagem, sincronize o áudio com os vídeos na linha do tempo do editor.

Resumo do Módulo 2.6

Voice Generator — 50+ idiomas, PT-BR, controle de tom/velocidade/estilo + SSML para pausas
Music Generator — trilha royalty-free por prompt: gênero + instrumentos + mood + BPM + duração
SFX Generator — ambiente + objeto + ação + intensidade = efeito sonoro exato
Audio Mixer — voz 100%, música 20-40% (com ducking), SFX 50-70%
Lip Sync — rosto frontal + áudio limpo + máx 30s = personagem falando
Fluxo — Narração → Música → SFX → Lip Sync → Mix → Export

Próximo Módulo:

2.7 — Freepik Spaces: canvas infinito, tipos de nodes, conexões e Workflow Apps