O que é Deepfake de Voz: Como Criminosos Clonam Sua Voz (e Como Perceber)

Getting your Trinity Audio player ready…

4 minutos de leitura

Você recebe um áudio no WhatsApp. É a voz do seu filho. Inconfundível — o jeito de falar, a entonação, até o sotaque regional. Ele diz que bateu o carro e precisa de R$ 2.000 agora. Você Pix. Só depois descobre que seu filho estava dormindo em casa o tempo todo.

Isso é deepfake de voz: tecnologia de clonagem por inteligência artificial que recria a voz de qualquer pessoa com apenas 30 segundos de gravação. Em 2026, ferramentas que fazem isso custam menos de R$ 50 por mês — e estão disponíveis para qualquer pessoa com internet.

Com 30 segundos de áudio, a IA consegue recriar qualquer voz com precisão assustadora

Como o deepfake de voz funciona na prática

A tecnologia por trás é chamada de voice cloning. O processo tem três etapas simples:

Coleta de áudio: o criminoso pega gravações da vítima — stories do Instagram, vídeos no YouTube, áudios de grupos de WhatsApp, entrevistas. Qualquer coisa com a voz original serve.
Treinamento da IA: o algoritmo analisa padrões de frequência, entonação, ritmo e timbre. Quanto mais áudio, mais fiel a cópia — mas 30 segundos já são suficientes para enganar a maioria das pessoas.
Geração do áudio falso: o criminoso digita qualquer texto e a IA o “fala” com a voz clonada. O áudio final soa idêntico ao original.

O resultado? Em 2026, a qualidade das clonagens atingiu um nível que torna a detecção humana praticamente impossível a olho — ou melhor, a ouvido — nu. Segundo o SERPRO, vídeos manipulados por IA cresceram 126% no Brasil entre 2025 e 2026.

Como identificar um deepfake de voz

Não existe detecção perfeita, mas existem sinais que aumentam a suspeita:

Urgência extrema: deepfakes são usados em situações de emergência inventadas. A pressão para agir rápido é intencional — ela desliga seu senso crítico.
Número desconhecido: a voz é familiar, mas o número não. “Estou sem meu celular, liguei de um número emprestado” é o roteiro padrão.
Pedido de dinheiro imediato: 100% dos golpes de deepfake de voz terminam com pedido de transferência. Sem exceção.
Áudio curto e sem interação: golpistas evitam conversas longas. Se você fizer perguntas pessoais específicas (“qual foi o apelido que eu te dei na infância?”), a voz clonada não saberá responder.
Qualidade de áudio estranha: algumas ferramentas mais baratas produzem áudio com leve reverberação ou pausas artificiais entre palavras.

A defesa mais eficaz: a palavra-código

Nenhuma tecnologia de detecção é mais confiável do que uma palavra-código definida com sua família. Escolha uma palavra ou frase que só vocês sabem e combinem: qualquer pedido de dinheiro urgente que não vier acompanhado da palavra-código é golpe — independentemente de quão convincente seja a voz.

Exemplos de palavras-código que funcionam bem: nome de um animal de estimação que já morreu, apelido que só a família usa, nome de um lugar com significado pessoal. Evite datas, nomes comuns e qualquer coisa que apareça nas suas redes sociais.

Para uma visão completa de como os golpes digitais com IA funcionam em 2026 — incluindo phishing personalizado, golpe do Pix e golpe multicanal — leia nosso guia completo sobre golpes digitais com inteligência artificial.