🎙️ Aula 3.4 ~90 min

Adicionando Voz com ElevenLabs v3

Domine o ElevenLabs v3: o TTS mais expressivo do mundo. Aprenda clonagem de voz, tags de áudio, Scribe v2 para transcrição e SFX v2 para efeitos sonoros.

🎙️ ElevenLabs v3: O TTS Mais Expressivo

O ElevenLabs v3, lançado no final de 2025, é considerado o text-to-speech mais expressivo já criado. A diferença em relação a versões anteriores é dramática — as vozes soam genuinamente humanas, com nuances emocionais que antes eram impossíveis.

Expressividade Natural

V3 inclui suspiros, sussurros, risadas, pausas dramáticas e variações de tom naturais. A voz soa como um locutor profissional gravando em estúdio, não como uma máquina lendo texto.

Audio Tags para Controle de Tom

Insira tags no texto para controlar como a voz é entregue. Exemplos de uso:

<whisper>Isso é um segredo</whisper>

<excited>Que incrível!</excited>

<sad>Infelizmente, não foi possível</sad>

Suporte Multilíngue

Suporta 30+ idiomas incluindo português brasileiro com pronúncia nativa. A mesma voz pode narrar em diferentes idiomas mantendo o timbre e personalidade.

🧬 Clonagem de Voz

O ElevenLabs permite clonar vozes a partir de amostras de áudio. Existem dois métodos:

Instant Voice Cloning

• Upload de 1-5 minutos de áudio
• Resultado em segundos
• Boa qualidade para a maioria dos usos
• Disponível em todos os planos pagos

Professional Voice Cloning

• Requer 30+ minutos de áudio limpo
• Treinamento leva horas
• Qualidade indistinguível do original
• Planos Pro e acima

🚫 Ética da clonagem de voz

NUNCA clone a voz de outra pessoa sem consentimento explícito e por escrito. O ElevenLabs exige que você confirme ter autorização para clonar a voz. Use apenas sua própria voz ou vozes com permissão documentada.

📝 Scribe v2 — Speech-to-Text

Além de gerar voz, o ElevenLabs também transcreve áudio com o Scribe v2:

• Transcrição precisa em 30+ idiomas
• Identificação de falantes — diferencia quem está falando
• Timestamps — marcações de tempo para cada frase
• Útil para: gerar legendas, transcrever entrevistas, criar roteiros a partir de áudio

🔊 SFX v2 — Efeitos Sonoros com IA

O gerador de efeitos sonoros do ElevenLabs cria sons a partir de descrições textuais:

Exemplos de prompts para SFX

• "Rain falling on a tin roof, gentle, ambient"
• "Crowd cheering in a stadium, excited, echoey"
• "Car engine starting and revving, sports car, powerful"
• "Forest birds singing at dawn, peaceful, nature ambience"
• "Typing on a mechanical keyboard, rhythmic, close-up"

💡 Combinando SFX com vídeos

Gere efeitos sonoros específicos para seus vídeos do Kling ou Runway. Sons de passos, portas, ambiente urbano — tudo pode ser gerado sob demanda e adicionado na edição com CapCut.

💰 Planos ElevenLabs

Plano	Preço	Caracteres/mês	Recursos
Free	Grátis	10.000	Vozes padrão, 3 custom voices
Starter	$5/mês	30.000	Instant cloning, mais vozes
Creator	$22/mês	100.000	Professional cloning, projects
Pro	$99/mês	500.000	API, alta prioridade, 48kHz

🎬 Prática: Adicionando Narração a um Vídeo

1. Escreva o roteiro

Use ChatGPT para criar um roteiro de narração de 30-60 segundos para um dos vídeos que você gerou com Kling ou Runway.

2. Escolha a voz

No ElevenLabs, explore as vozes em português brasileiro. Teste pelo menos 3 vozes diferentes com o mesmo texto. Escolha a que melhor combina com o tom do vídeo.

3. Adicione tags de expressão

Insira pausas e variações de tom no texto para tornar a narração mais natural e envolvente.

4. Gere e baixe o áudio

Gere o áudio, ouça atentamente e ajuste se necessário. Baixe em MP3 ou WAV.

5. Gere efeitos sonoros (SFX)

Crie 2-3 efeitos sonoros que complementem seu vídeo (ambiente, transições, ênfase).

6. Combine no CapCut

Importe o vídeo, a narração e os SFX no CapCut. Sincronize a narração com as cenas e adicione os efeitos nos momentos certos. Exporte o resultado final.

✅ Checklist da Aula

Entendo as capacidades do ElevenLabs v3
Sei usar audio tags para controlar tom e expressão
Compreendo as opções de clonagem de voz e seus limites éticos
Conheço o Scribe v2 para transcrição
Sei gerar efeitos sonoros com SFX v2
Completei o projeto prático: vídeo com narração e SFX

← Aula 3.3 Próxima: Aula 4.1 →