|
Getting your Trinity Audio player ready…
|
Você recebe um áudio no WhatsApp. É a voz do seu filho. Inconfundível — o jeito de falar, a entonação, até o sotaque regional. Ele diz que bateu o carro e precisa de R$ 2.000 agora. Você Pix. Só depois descobre que seu filho estava dormindo em casa o tempo todo.
Isso é deepfake de voz: tecnologia de clonagem por inteligência artificial que recria a voz de qualquer pessoa com apenas 30 segundos de gravação. Em 2026, ferramentas que fazem isso custam menos de R$ 50 por mês — e estão disponíveis para qualquer pessoa com internet.
Como o deepfake de voz funciona na prática
A tecnologia por trás é chamada de voice cloning. O processo tem três etapas simples:
- Coleta de áudio: o criminoso pega gravações da vítima — stories do Instagram, vídeos no YouTube, áudios de grupos de WhatsApp, entrevistas. Qualquer coisa com a voz original serve.
- Treinamento da IA: o algoritmo analisa padrões de frequência, entonação, ritmo e timbre. Quanto mais áudio, mais fiel a cópia — mas 30 segundos já são suficientes para enganar a maioria das pessoas.
- Geração do áudio falso: o criminoso digita qualquer texto e a IA o “fala” com a voz clonada. O áudio final soa idêntico ao original.
O resultado? Em 2026, a qualidade das clonagens atingiu um nível que torna a detecção humana praticamente impossível a olho — ou melhor, a ouvido — nu. Segundo o SERPRO, vídeos manipulados por IA cresceram 126% no Brasil entre 2025 e 2026.
Como identificar um deepfake de voz
Não existe detecção perfeita, mas existem sinais que aumentam a suspeita:
- Urgência extrema: deepfakes são usados em situações de emergência inventadas. A pressão para agir rápido é intencional — ela desliga seu senso crítico.
- Número desconhecido: a voz é familiar, mas o número não. “Estou sem meu celular, liguei de um número emprestado” é o roteiro padrão.
- Pedido de dinheiro imediato: 100% dos golpes de deepfake de voz terminam com pedido de transferência. Sem exceção.
- Áudio curto e sem interação: golpistas evitam conversas longas. Se você fizer perguntas pessoais específicas (“qual foi o apelido que eu te dei na infância?”), a voz clonada não saberá responder.
- Qualidade de áudio estranha: algumas ferramentas mais baratas produzem áudio com leve reverberação ou pausas artificiais entre palavras.
A defesa mais eficaz: a palavra-código
Nenhuma tecnologia de detecção é mais confiável do que uma palavra-código definida com sua família. Escolha uma palavra ou frase que só vocês sabem e combinem: qualquer pedido de dinheiro urgente que não vier acompanhado da palavra-código é golpe — independentemente de quão convincente seja a voz.
Exemplos de palavras-código que funcionam bem: nome de um animal de estimação que já morreu, apelido que só a família usa, nome de um lugar com significado pessoal. Evite datas, nomes comuns e qualquer coisa que apareça nas suas redes sociais.
Para uma visão completa de como os golpes digitais com IA funcionam em 2026 — incluindo phishing personalizado, golpe do Pix e golpe multicanal — leia nosso guia completo sobre golpes digitais com inteligência artificial.
O que fazer se receber um áudio suspeito
- Não transfira nada antes de confirmar por outro canal
- Ligue para o número que você já tem salvo da pessoa
- Faça perguntas que só a pessoa real saberia responder
- Se caiu no golpe, veja o passo a passo do que fazer nas primeiras horas
Em 2026, ver não é acreditar. Ouvir também não. O único filtro confiável é a sua desconfiança ativa.




