Adicionando Voz com ElevenLabs v3
Domine o ElevenLabs v3: o TTS mais expressivo do mundo. Aprenda clonagem de voz, tags de áudio, Scribe v2 para transcrição e SFX v2 para efeitos sonoros.
🎙️ ElevenLabs v3: O TTS Mais Expressivo
O ElevenLabs v3, lançado no final de 2025, é considerado o text-to-speech mais expressivo já criado. A diferença em relação a versões anteriores é dramática — as vozes soam genuinamente humanas, com nuances emocionais que antes eram impossíveis.
Expressividade Natural
V3 inclui suspiros, sussurros, risadas, pausas dramáticas e variações de tom naturais. A voz soa como um locutor profissional gravando em estúdio, não como uma máquina lendo texto.
Audio Tags para Controle de Tom
Insira tags no texto para controlar como a voz é entregue. Exemplos de uso:
<whisper>Isso é um segredo</whisper>
<excited>Que incrível!</excited>
<sad>Infelizmente, não foi possível</sad>
<pause duration="1s"/>
Suporte Multilíngue
Suporta 30+ idiomas incluindo português brasileiro com pronúncia nativa. A mesma voz pode narrar em diferentes idiomas mantendo o timbre e personalidade.
🧬 Clonagem de Voz
O ElevenLabs permite clonar vozes a partir de amostras de áudio. Existem dois métodos:
Instant Voice Cloning
- • Upload de 1-5 minutos de áudio
- • Resultado em segundos
- • Boa qualidade para a maioria dos usos
- • Disponível em todos os planos pagos
Professional Voice Cloning
- • Requer 30+ minutos de áudio limpo
- • Treinamento leva horas
- • Qualidade indistinguível do original
- • Planos Pro e acima
🚫 Ética da clonagem de voz
NUNCA clone a voz de outra pessoa sem consentimento explícito e por escrito. O ElevenLabs exige que você confirme ter autorização para clonar a voz. Use apenas sua própria voz ou vozes com permissão documentada.
📝 Scribe v2 — Speech-to-Text
Além de gerar voz, o ElevenLabs também transcreve áudio com o Scribe v2:
- • Transcrição precisa em 30+ idiomas
- • Identificação de falantes — diferencia quem está falando
- • Timestamps — marcações de tempo para cada frase
- • Útil para: gerar legendas, transcrever entrevistas, criar roteiros a partir de áudio
🔊 SFX v2 — Efeitos Sonoros com IA
O gerador de efeitos sonoros do ElevenLabs cria sons a partir de descrições textuais:
Exemplos de prompts para SFX
- • "Rain falling on a tin roof, gentle, ambient"
- • "Crowd cheering in a stadium, excited, echoey"
- • "Car engine starting and revving, sports car, powerful"
- • "Forest birds singing at dawn, peaceful, nature ambience"
- • "Typing on a mechanical keyboard, rhythmic, close-up"
💡 Combinando SFX com vídeos
Gere efeitos sonoros específicos para seus vídeos do Kling ou Runway. Sons de passos, portas, ambiente urbano — tudo pode ser gerado sob demanda e adicionado na edição com CapCut.
💰 Planos ElevenLabs
| Plano | Preço | Caracteres/mês | Recursos |
|---|---|---|---|
| Free | Grátis | 10.000 | Vozes padrão, 3 custom voices |
| Starter | $5/mês | 30.000 | Instant cloning, mais vozes |
| Creator | $22/mês | 100.000 | Professional cloning, projects |
| Pro | $99/mês | 500.000 | API, alta prioridade, 48kHz |
🎬 Prática: Adicionando Narração a um Vídeo
1. Escreva o roteiro
Use ChatGPT para criar um roteiro de narração de 30-60 segundos para um dos vídeos que você gerou com Kling ou Runway.
2. Escolha a voz
No ElevenLabs, explore as vozes em português brasileiro. Teste pelo menos 3 vozes diferentes com o mesmo texto. Escolha a que melhor combina com o tom do vídeo.
3. Adicione tags de expressão
Insira pausas e variações de tom no texto para tornar a narração mais natural e envolvente.
4. Gere e baixe o áudio
Gere o áudio, ouça atentamente e ajuste se necessário. Baixe em MP3 ou WAV.
5. Gere efeitos sonoros (SFX)
Crie 2-3 efeitos sonoros que complementem seu vídeo (ambiente, transições, ênfase).
6. Combine no CapCut
Importe o vídeo, a narração e os SFX no CapCut. Sincronize a narração com as cenas e adicione os efeitos nos momentos certos. Exporte o resultado final.
✅ Checklist da Aula
- Entendo as capacidades do ElevenLabs v3
- Sei usar audio tags para controlar tom e expressão
- Compreendo as opções de clonagem de voz e seus limites éticos
- Conheço o Scribe v2 para transcrição
- Sei gerar efeitos sonoros com SFX v2
- Completei o projeto prático: vídeo com narração e SFX