América Latina. A IA já cria vozes e vídeos que se passam por humanos. Alguns criminosos estão usando isso para enganar cidadãos, fingindo ser empresas ou instituições para obter seu dinheiro, como mostrado neste vídeo.
À medida que os modelos de voz generativa amadurecem, as "falhas" que revelam um deepfake (conteúdo audiovisual sintético ou manipulado usando modelos de IA generativa) tornam-se mais sutis. O segredo não é ouvir um robô, mas distinguir a pegada algorítmica de uma simples conexão ruim.
Isso é explicado por Josep Curto, professor da Faculdade de Ciência da Computação, Multimídia e Telecomunicações da Universidade Aberta da Catalunha (UOC), que oferece sinais práticos para detectar vozes sintéticas em tempo real, recomenda ferramentas e marcas d'água com seus limites, e propõe um ABC antifraude para empresas e administrações, online.
"À medida que os modelos são refinados, os sinais de detecção se tornam mais sutis", alerta o especialista. A maioria dos deepfakes de voz falha na forma como a conversa soa — prosódia (entoação, sotaque, ritmo, intensidade), pausas, latências suspeitosamente regulares — mais do que na textura do timbre.
Por isso, em ambientes cotidianos (uma ligação urgente, um suposto aviso bancário, uma chamada de vídeo improvisada), muitas pessoas não percebem anomalias se não souberem o que procurar e como verificar no momento.
Curto destaca uma regra de ouro: distinguir artefatos de rede de imperfeições algorítmicas. Em uma conexão ruim, o som oscila e o atraso áudio/vídeo é irregular; Em conteúdo sintético, "falhas" tendem a ser consistentes (entonação plana ou saltos improváveis de altura, pausas colocadas onde a gramática não espera, latências de resposta "muito iguais").
Em uma chamada de vídeo, os microsinais do rosto – piscando, sombras, detalhes do cabelo e das orelhas – revelam mais do que a sincronização labial em si (correspondência temporal entre o movimento dos lábios e o som da fala): quando é IA, pequenas inconsistências visuais aparecem que não são explicadas por compressão ou largura de banda.
Para um teste ao vivo, o especialista recomenda quebrar a inércia do modelo: pedir para repetir uma frase inesperada, introduzir ruído contextual (um bater palmas na frente do microfone, digitar alto) ou intercalar interrupções curtas para forçar variação na prosódia.
Se a entonação não natural ou latências constantes persistirem, o protocolo de retorno para um número verificado e a verificação de palavra de segurança são ativados. "A melhor defesa é o ceticismo humano, mais verificação por um segundo canal e menos presença pública da sua voz", resume o professor da UOC.
Cinco sinais confiáveis em tempo real
1. Prosódia não natural e entoação plana
A voz não flui emocionalmente: há pausas uniformes ou mal colocadas, tons monótonos ou saltos abruptos. Em redes ruins, você ouve cortes ou compressão, mas quando o sinal retorna, o sotaque e a entonação básica soam humanos.
2. Artefatos espectrais ("metal", cliques finais)
Brilho sibilante ou anômalo em sinais de palavras; Áudio limpo demais para o ambiente. Em redes ruins, ruído e qualidade flutuam, enquanto artefatos de IA tendem a ser consistentes.
3. Incompatibilidade entre voz labial e voz em videochamada
Atraso constante ou microanomalias (lábios que "flutuam" sobre os dentes). Em redes ruins há um atraso, mas o movimento facial ainda é orgânico.
4. Microgestos estranhos
Raramente piscando, olhando, sombras e iluminação achatadas, cabelo/orelhas com pixels estranhos. Em redes ruins, você verá travamentos ou macropixelação típicos da compressão, não aqueles detalhes finos.
5. Latência suspeita
Atrasos que são muito frequentes ou mudanças repentinas sem motivo. Os modelos levam um tempo fixo para "cuspir" a resposta completa; Rede ruim causa latências irregulares e avisos de "conexão instável".
Detectores e marcas d'água: úteis, mas não mágicos
A detecção de áudio sintético é uma espécie de corrida armamentista em constante evolução, explica Curto. As ferramentas disponíveis focam em artefatos forenses que modelos de IA ainda não aprenderam a remover. Aqui estão as duas soluções mais promissoras:
1) Detecção forense (modelos de classificação)
Eles analisam traços acústicos (artefatos espectrais, prosódia não natural, etc.) para reconhecer padrões de treinamento de IA.
Desafios de ASVspoof: Conjuntos de referência (como Logical Access LA, Physical Access PA) e métricas para treinamento/comparação de detectores. As taxas de erro aumentam quando a falsificação (clonagem de voz) usa um modelo diferente do treinamento.
Ferramentas de mídia (por exemplo, VerificAudio): usadas em redações (PRISA Media) com uma dupla camada de IA: sinais sintéticos + verificação contextual. Precisão não pública varia conforme o idioma; Risco de falsos positivos com áudio altamente comprimido ou barulhento.
Detectores de plataforma (ex.: ElevenLabs): confiáveis em relação ao seu próprio áudio; eles não se generalizam bem para geradores externos (Google/Meta).
2) Marca d'água
Estratégia de rotular o conteúdo gerado na fonte. Algumas maneiras de fazer isso são:
AudioSeal (Meta): Uma marca imperceptível que permite detecção pontual (quais partes foram alteradas). Disponível gratuitamente no GitHub. Vulnerável à compressão de MP3, pitch-shift ou reverberação; Falsos negativos com pós-processamento adversarial estão aumentando.
SynthID (Google): marca multimodal (nascida na imagem; se estende a áudio e texto). Ele busca ser detectável após edições (recorte, compressão). Sua eficácia depende dos padrões (ISO/IEC) e da adoção: se o gerador não implementar, ela é inútil.
Quatro melhores práticas (proativas) para proteger sua voz
A melhor defesa é o ceticismo humano (prosódia, contexto, movimento), complementado por uma forte verificação de identidade (códigos de chave) e limitação da exposição pública de impressões de voz, explica Curto.
No contexto da pesquisa, é estudado como criar distorções imperceptíveis para um humano, mas que confundem os algoritmos de treinamento de IA que tentam extrair a impressão vocal. A ideia é "envenenar" o conjunto de dados de treinamento sem afetar a comunicação humana. Esse é o futuro da proteção proativa.
A seguir estão uma série de boas práticas disponíveis para todos:
Consentimento e privacidade: não compartilhar gravações sem um propósito claro; Em ambientes corporativos, é necessário consentimento para gravar/analisar biometria de voz. Revise os assistentes (Alexa/Google) e desative o armazenamento contínuo e a função "ajudar a melhorar o serviço".
MFA (Autenticação Multifator) para verificação de voz: definir "Código de Segurança" / "Frase Anti-Deepfake" inesperada, rotativa e contextual. Exemplo: "Qual é a palavra de terça-feira?"
Gerencie a impressão de voz pública: limite a publicação de áudios longos e claros ao ar livre. Se forem publicadas, reduza a taxa de bits (quantidade de dados processados por segundo medida em kbps) ou adicione música de fundo.
Tecnologias de ruído branco/sobreposição: Dispositivos (por exemplo, HARP Speech Protector) ou softwares com ultrassom/ruído de banda larga que interferem com microfones. Caro, limitado em escopo e com possíveis restrições legais.
ABC prático e explicado para empresas e administrações
Quando uma ligação chega com uma solicitação sensível (pagamentos, senhas, mudanças urgentes), a ordem ideal para verificar é a seguinte:
R. Confirme quem está falando
Comece com uma verificação humana e contextual usando uma palavra de segurança previamente acordada. A resposta deve ser revisada por uma pessoa — um supervisor ou, no mínimo, um sistema secundário não automatizado — para evitar que um modelo gere uma réplica plausível sem controle.
B. Se a dúvida persistir, quebre o roteiro
Aplique um cross-callback (verificação fora de banda ou confirme a identidade de alguém por outro canal de comunicação): corte de forma direta ("A qualidade é ruim, vou te ligar agora") e ligue para um número verificado que aparece no seu CRM/arquivo (registros de contato verificados). Nunca retorne a ligação para o número que recebe. Se a pessoa comparecer pelo canal/número esperado e o contexto coincidir, a autenticidade é muito provável. Essa medida desarma muitas tentativas porque força o fraudador a controlar também o segundo canal.
C. Se não validar, deixa um rastro e escala
Ative o protocolo interno de alerta para tentativa de fraude. Encerre a conversa com uma frase de segurança ("Por protocolo, devemos encerrar esta chamada"), registre o tempo, a origem aparente (mesmo que falsa) e os sinais anômalos observados ("prosódia plana ao atender a chave", latência constante, etc.) e imediatamente encaminhe para o departamento de cibersegurança ou jurídico.
Tudo isso só funciona se a equipe for treinada: você precisa treinar a detecção de mudanças emocionais e, acima de tudo, evitar ceder à urgência ou pressão, táticas típicas para evitar retornos.

