AVI Latinoamérica

Claves para identificar voces generadas con IA

Claves para identificar voces generadas con IA

Latinoamérica. La IA ya crea voces y vídeos que se hacen pasar por humanos. Algunos delincuentes la están usando para engañar a los ciudadanos, pretendiendo ser empresas o instituciones con el fin de conseguir su dinero, como se muestra en este vídeo.

A medida que los modelos de voz generativa maduran, los "fallos" que delatan un deepfake (contenido audiovisual sintético o manipulado mediante modelos de IA generativa) son más sutiles. La clave no es oír un robot, sino distinguir la huella algorítmica de una mera mala conexión.

Así lo explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), que ofrece señales prácticas para detectar voces sintéticas en tiempo real, recomienda herramientas y marcas de agua con sus límites, y propone un ABC antifraude para empresas y administraciones, en línea.

"A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles", advierte el experto. La mayoría de los deepfakes de voz fallan en cómo suena la conversación —prosodia (entonación, acento, ritmo, intensidad), pausas, latencias sospechosamente regulares— más que en la textura del timbre.

- Publicidad -

Por eso, en entornos cotidianos (una llamada urgente, un supuesto aviso del banco, una videollamada improvisada), muchas personas no perciben las anomalías si no saben qué observar y cómo comprobarlo en el momento.

Curto subraya una regla de oro: distinguir artefactos de red de imperfecciones algorítmicas. En una mala conexión, el sonido fluctúa y el desfase audio/vídeo es errático; en el contenido sintético, los "fallos" tienden a ser consistentes (entonación plana o saltos de tono improbables, pausas colocadas donde la gramática no las espera, latencias de respuesta "demasiado iguales").

En una videollamada, las microseñales del rostro —parpadeo, sombras, detalle del cabello y de las orejas— delatan más que el propio lipsync (correspondencia temporal entre movimiento de labios y sonido del habla): cuando es IA, aparecen pequeñas incoherencias visuales que no se explican por compresión o ancho de banda.

Para un test en directo, el experto recomienda romper la inercia del modelo: pedir que repita una frase inesperada, introducir ruido de contexto (una palmada frente al micrófono, teclear fuerte) o intercalar interrupciones cortas para forzar la variación en la prosodia.

Si persisten la entonación antinatural o las latencias constantes, se activa el protocolo: callback (devolución de llamada) a un número verificado y comprobación de safe word (palabra clave acordada previamente para autentificar). "La mejor defensa es el escepticismo humano, más verificación por un segundo canal y menor huella pública de tu voz", resume el profesor de la UOC.

Cinco señales fiables en tiempo real
1. Prosodia no natural y entonación plana
La voz no fluye emocionalmente: se producen pausas uniformes o mal situadas, tonos monótonos o saltos abruptos. En mala red, oyes cortes o compresión, pero cuando vuelve la señal, el acento y la entonación de base suenan humanos.

2. Artefactos espectrales ("metal", clics finales)
Siseo o brillo anómalo en colas de palabra; audio demasiado limpio para el entorno. En mala red, el ruido y la calidad fluctúan, mientras que los artefactos de IA tienden a ser consistentes.

- Publicidad -

3. Desajuste labios-voz en videollamada
Retraso constante o microanomalías (labios que "flotan" sobre los dientes). En mala red hay desfase, pero el movimiento facial sigue siendo orgánico.

4. Microgestos extraños
Parpadeo escaso, mirada fija, sombras e iluminación aplanadas, cabello/orejas con píxeles raros. En mala red verás congelaciones o un macropixelado típico de la compresión, no esos detalles finos.

5. Latencia sospechosa
Demoras demasiado regulares o cambios bruscos sin motivo. Los modelos tardan un tiempo fijo en "escupir" la respuesta completa; la red deficiente provoca latencias irregulares y avisos de "conexión inestable".

Detectores y marcas de agua: útiles, pero no mágicos
La detección de un audio sintético es una especie de carrera armamentística en constante evolución, explica Curto. Las herramientas disponibles se centran en el análisis forense de artefactos que los modelos de IA aún no han aprendido a eliminar. Estas son las dos soluciones más prometedoras:

1) Detección forense (modelos de clasificación)
Analizan rasgos acústicos (artefactos espectrales, prosodia no natural, etc.) para reconocer patrones de entrenamiento de IA.

ASVspoof Challenges: conjuntos de referencia (como Logical Access LA, Physical Access PA) y métricas para entrenar/comparar detectores. Las tasas de error suben cuando el spoofing (clonación de voz) usa un modelo distinto al del entrenamiento.
Herramientas para medios (por ejemplo, VerificAudio): usadas en redacciones (PRISA Media) con doble capa de IA: señales sintéticas + verificación contextual. Precisión no pública, varía por idioma; riesgo de falsos positivos con audio muy comprimido o ruidoso.
Detectores de plataformas (por ejemplo, ElevenLabs): fiables sobre su propio audio; no generalizan bien a generadores ajenos (Google/Meta).

- Publicidad -

2) Marcas de agua (watermarking)
Estrategia de etiquetar en origen el contenido generado. Algunas formas de hacerlo son:

AudioSeal (Meta): marca imperceptible que permite la detección puntual (qué partes se alteraron). Disponible gratuitamente en GitHub. Vulnerable a la compresión MP3, pitch-shift o reverberación; crecen los falsos negativos con posprocesado adversario.
SynthID (Google): marca multimodal (nació en imagen; se extiende a audio y texto). Busca ser detectable tras ediciones (recorte, compresión). Su eficacia depende de los estándares (ISO/IEC) y la adopción: si el generador no la implementa, no sirve.

Cuatro buenas prácticas (proactivas) para proteger la voz
La mejor defensa es el escepticismo humano (prosodia, contexto, movimiento), complementado con una fuerte verificación de la identidad (códigos clave) y la limitación de la exposición de la huella vocal pública, explica Curto.

En el contexto de la investigación, se estudia cómo crear distorsiones imperceptibles para un humano, pero que confundan los algoritmos de entrenamiento de IA que intentan extraer la huella vocal. La idea es "envenenar" el conjunto de datos de entrenamiento sin afectar la comunicación humana. Este es el futuro de la protección proactiva.

Las siguientes son una serie de buenas prácticas al alcance de todos:
Consentimiento y privacidad: no compartir grabaciones sin propósito claro; en entornos corporativos, exigir el consentimiento para grabar/analizar la biometría vocal. Revisar los asistentes (Alexa/Google) y desactivar el almacenamiento continuo y la función de "ayudar a mejorar el servicio".
MFA (autenticación multifactor) para la constatación vocal: establecer "Código de Seguridad" / "Frase Anti-Deepfake" inesperada, rotativa y contextual. Ejemplo: "¿Cuál es la palabra del martes?".
Gestionar la huella vocal pública: limitar la publicación de audios largos y nítidos en abierto. Si se publican, bajar el bitrate (cantidad de datos procesados por segundo medidos en kbps) o añadir música de fondo.
Tecnologías de anulación/ruido blanco: dispositivos (ejemplo: HARP Speech Protector) o software con ultrasonidos/ruido de banda ancha que interfieren con micrófonos. Caros, de alcance limitado y con posibles restricciones legales.

ABC práctico y explicado para empresas y administraciones
Cuando llegue una llamada con una petición sensible (pagos, contraseñas, cambios urgentes), el orden ideal para verificar es este:

A. Confirma quién habla
Empieza por una verificación humana y contextual usando una safe word (palabra de seguridad) acordada previamente. La respuesta debe revisarla una persona —un supervisor o, como mínimo, un sistema secundario no automatizado— para evitar que un modelo genere una réplica verosímil sin control.

B. Si persiste la duda, rompe el guion
Aplica un callback cruzado (out-of-band verification o confirmar la identidad de alguien usando un canal de comunicación diferente): corta con naturalidad ("La calidad es mala, le devuelvo la llamada ahora") y llama tú a un número verificado que conste en tu CRM/expediente (registros verificados de contactos). Nunca devuelvas la llamada al número entrante. Si la persona atiende por el canal/número esperado y el contexto coincide, la autenticidad es muy probable. Este paso desarma muchos intentos porque obliga al estafador a controlar también el segundo canal.

C. Si no valida, deja rastro y escala
Activa el protocolo de alerta interna por intento de fraude. Cierra la conversación con una frase de seguridad ("Por protocolo debemos finalizar esta llamada"), registra la hora, el origen aparente (aunque sea falso) y las señales anómalas observadas ("prosodia plana al responder la clave", latencia constante, etc.), y elévalo inmediatamente al departamento de ciberseguridad o legal.

Todo esto funciona solo si el personal está formado: hay que entrenar la detección de cambios emocionales y, sobre todo, evitar ceder ante la urgencia o la presión, tácticas típicas para impedir el callback.

Richard Santa, RAVTEmail: [email protected]

No hay comentarios

Aurora Multimedia nombra nuevo gerente de ventas para Latam

Aurora Multimedia nombra nuevo gerente de ventas para Latam

Latinoamérica. Aurora Multimedia refuerza su presencia en Latinoamérica con el nombramiento de Ing. Aharon Yablon como Gerente Regional de Ventas. Esta expansión estratégica refleja el importante...

Cobertura constante impulsa altavoces distribuidos

Cobertura constante impulsa altavoces distribuidos

Latinoamérica. Los techos de estructura expuesta han pasado de ser tendencia a ser estándar en comercios, hostelería, gimnasios y espacios comerciales de uso mixto. Con este cambio, el diseño de los...

Renovación de galería digital outdoor

Renovación de galería digital outdoor

Reconstruir un icono: la historia de ingeniería detrás de la renovación de la Galería Digital de la FIESP On Projeções

Módulos LED flexibles, nueva arquitectura digital del retail

Módulos LED flexibles, nueva arquitectura digital del retail

México. Las pantallas ya no compiten solo por tamaño o resolución. Hoy compiten por forma, integración y capacidad de transformar espacios. En el Retail y en los corporativos, el formato rectangular...

Bose Professional lanzó altavoz coaxial de montaje en superficie

Bose Professional lanzó altavoz coaxial de montaje en superficie

Latinoamérica. Bose Professional presentó el altavoz DM12SE, el integrante más potente y de mayor tamaño de la aclamada familia de altavoces DesignMax.

Nueva plataforma para administración AV de Sennheiser

Nueva plataforma para administración AV de Sennheiser

Latinoamérica. Sennheiser lanzó DeviceHub, una plataforma segura basada en la nube que ofrece a las organizaciones visibilidad y control centralizados de sus dispositivos Sennheiser desde cualquier...

Vertiv inaugura nuevo Academy en México con foco en la IA

Vertiv inaugura nuevo Academy en México con foco en la IA

México. Vertiv anunció la expansión de Vertiv Academy Latinoamérica con la apertura de un nuevo centro de capacitación en México, enfocado en formar profesionales para desarrollar las competencias...

Barco y Procont tendrán el Control Experience en Lima

Barco y Procont tendrán el Control Experience en Lima

Perú. Control Experience es una jornada que Procont realizará en Lima entre el 18 y el 20 de marzo, en la cual se presentará oficialmente la solución Barco CTRL, desarrollada por Barco para centros...

Williams AV amplía su distribución en Panamá

Williams AV amplía su distribución en Panamá

Panamá. Williams AV ha nombrado a tres nuevos socios de distribución internacional: Acústika en Panamá, MIFA Musique SA en Marruecos y RMS Proaudio en España.

Dispositivos inteligentes y edificios sostenibles

Dispositivos inteligentes y edificios sostenibles

#KNXis35: la evolución hacia la simplicidad, la innovación y la sostenibilidad, impulsada por la comunidad Por: Casto Cañavate*

Suscribase Gratis

SUSCRÍBASE AL INFO-BOLETIN

• Gane 25 Puntos de Lealtad •

¿REQUIERE UNA COTIZACIÓN?

ENTREVISTAS DESTACADAS

PATROCINADORES

ULTIMO BOLETIN

Ultimo Info-Boletin