Pular para conteúdo
🎙️ Aula 3.4 ~90 min

Adicionando Voz com ElevenLabs v3

Domine o ElevenLabs v3: o TTS mais expressivo do mundo. Aprenda clonagem de voz, tags de áudio, Scribe v2 para transcrição e SFX v2 para efeitos sonoros.

1

🎙️ ElevenLabs v3: O TTS Mais Expressivo

O ElevenLabs v3, lançado no final de 2025, é considerado o text-to-speech mais expressivo já criado. A diferença em relação a versões anteriores é dramática — as vozes soam genuinamente humanas, com nuances emocionais que antes eram impossíveis.

Expressividade Natural

V3 inclui suspiros, sussurros, risadas, pausas dramáticas e variações de tom naturais. A voz soa como um locutor profissional gravando em estúdio, não como uma máquina lendo texto.

Audio Tags para Controle de Tom

Insira tags no texto para controlar como a voz é entregue. Exemplos de uso:

<whisper>Isso é um segredo</whisper>

<excited>Que incrível!</excited>

<sad>Infelizmente, não foi possível</sad>

<pause duration="1s"/>

Suporte Multilíngue

Suporta 30+ idiomas incluindo português brasileiro com pronúncia nativa. A mesma voz pode narrar em diferentes idiomas mantendo o timbre e personalidade.

2

🧬 Clonagem de Voz

O ElevenLabs permite clonar vozes a partir de amostras de áudio. Existem dois métodos:

Instant Voice Cloning

  • • Upload de 1-5 minutos de áudio
  • • Resultado em segundos
  • • Boa qualidade para a maioria dos usos
  • • Disponível em todos os planos pagos

Professional Voice Cloning

  • • Requer 30+ minutos de áudio limpo
  • • Treinamento leva horas
  • • Qualidade indistinguível do original
  • • Planos Pro e acima

🚫 Ética da clonagem de voz

NUNCA clone a voz de outra pessoa sem consentimento explícito e por escrito. O ElevenLabs exige que você confirme ter autorização para clonar a voz. Use apenas sua própria voz ou vozes com permissão documentada.

3

📝 Scribe v2 — Speech-to-Text

Além de gerar voz, o ElevenLabs também transcreve áudio com o Scribe v2:

  • Transcrição precisa em 30+ idiomas
  • Identificação de falantes — diferencia quem está falando
  • Timestamps — marcações de tempo para cada frase
  • Útil para: gerar legendas, transcrever entrevistas, criar roteiros a partir de áudio
4

🔊 SFX v2 — Efeitos Sonoros com IA

O gerador de efeitos sonoros do ElevenLabs cria sons a partir de descrições textuais:

Exemplos de prompts para SFX

  • • "Rain falling on a tin roof, gentle, ambient"
  • • "Crowd cheering in a stadium, excited, echoey"
  • • "Car engine starting and revving, sports car, powerful"
  • • "Forest birds singing at dawn, peaceful, nature ambience"
  • • "Typing on a mechanical keyboard, rhythmic, close-up"

💡 Combinando SFX com vídeos

Gere efeitos sonoros específicos para seus vídeos do Kling ou Runway. Sons de passos, portas, ambiente urbano — tudo pode ser gerado sob demanda e adicionado na edição com CapCut.

5

💰 Planos ElevenLabs

Plano Preço Caracteres/mês Recursos
FreeGrátis10.000Vozes padrão, 3 custom voices
Starter$5/mês30.000Instant cloning, mais vozes
Creator$22/mês100.000Professional cloning, projects
Pro$99/mês500.000API, alta prioridade, 48kHz
6

🎬 Prática: Adicionando Narração a um Vídeo

1. Escreva o roteiro

Use ChatGPT para criar um roteiro de narração de 30-60 segundos para um dos vídeos que você gerou com Kling ou Runway.

2. Escolha a voz

No ElevenLabs, explore as vozes em português brasileiro. Teste pelo menos 3 vozes diferentes com o mesmo texto. Escolha a que melhor combina com o tom do vídeo.

3. Adicione tags de expressão

Insira pausas e variações de tom no texto para tornar a narração mais natural e envolvente.

4. Gere e baixe o áudio

Gere o áudio, ouça atentamente e ajuste se necessário. Baixe em MP3 ou WAV.

5. Gere efeitos sonoros (SFX)

Crie 2-3 efeitos sonoros que complementem seu vídeo (ambiente, transições, ênfase).

6. Combine no CapCut

Importe o vídeo, a narração e os SFX no CapCut. Sincronize a narração com as cenas e adicione os efeitos nos momentos certos. Exporte o resultado final.

7

Checklist da Aula

  • Entendo as capacidades do ElevenLabs v3
  • Sei usar audio tags para controlar tom e expressão
  • Compreendo as opções de clonagem de voz e seus limites éticos
  • Conheço o Scribe v2 para transcrição
  • Sei gerar efeitos sonoros com SFX v2
  • Completei o projeto prático: vídeo com narração e SFX