Seleccione su idioma

Claves para identificar voces generadas con IA

Claves para identificar voces generadas con IA

Latinoamérica. La IA ya crea voces y vídeos que se hacen pasar por humanos. Algunos delincuentes la están usando para engañar a los ciudadanos, pretendiendo ser empresas o instituciones con el fin de conseguir su dinero, como se muestra en este vídeo. 

A medida que los modelos de voz generativa maduran, los "fallos" que delatan un deepfake (contenido audiovisual sintético o manipulado mediante modelos de IA generativa) son más sutiles. La clave no es oír un robot, sino distinguir la huella algorítmica de una mera mala conexión.

Así lo explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), que ofrece señales prácticas para detectar voces sintéticas en tiempo real, recomienda herramientas y marcas de agua con sus límites, y propone un ABC antifraude para empresas y administraciones, en línea.

"A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles", advierte el experto. La mayoría de los deepfakes de voz fallan en cómo suena la conversación —prosodia (entonación, acento, ritmo, intensidad), pausas, latencias sospechosamente regulares— más que en la textura del timbre. 

- Publicidad -

Por eso, en entornos cotidianos (una llamada urgente, un supuesto aviso del banco, una videollamada improvisada), muchas personas no perciben las anomalías si no saben qué observar y cómo comprobarlo en el momento.

Curto subraya una regla de oro: distinguir artefactos de red de imperfecciones algorítmicas. En una mala conexión, el sonido fluctúa y el desfase audio/vídeo es errático; en el contenido sintético, los "fallos" tienden a ser consistentes (entonación plana o saltos de tono improbables, pausas colocadas donde la gramática no las espera, latencias de respuesta "demasiado iguales"). 

En una videollamada, las microseñales del rostro —parpadeo, sombras, detalle del cabello y de las orejas— delatan más que el propio lipsync (correspondencia temporal entre movimiento de labios y sonido del habla): cuando es IA, aparecen pequeñas incoherencias visuales que no se explican por compresión o ancho de banda.

Para un test en directo, el experto recomienda romper la inercia del modelo: pedir que repita una frase inesperada, introducir ruido de contexto (una palmada frente al micrófono, teclear fuerte) o intercalar interrupciones cortas para forzar la variación en la prosodia. 

Si persisten la entonación antinatural o las latencias constantes, se activa el protocolo: callback (devolución de llamada) a un número verificado y comprobación de safe word (palabra clave acordada previamente para autentificar). "La mejor defensa es el escepticismo humano, más verificación por un segundo canal y menor huella pública de tu voz", resume el profesor de la UOC.

Cinco señales fiables en tiempo real 
1. Prosodia no natural y entonación plana
La voz no fluye emocionalmente: se producen pausas uniformes o mal situadas, tonos monótonos o saltos abruptos. En mala red, oyes cortes o compresión, pero cuando vuelve la señal, el acento y la entonación de base suenan humanos.

2. Artefactos espectrales ("metal", clics finales)
Siseo o brillo anómalo en colas de palabra; audio demasiado limpio para el entorno. En mala red, el ruido y la calidad fluctúan, mientras que los artefactos de IA tienden a ser consistentes.

- Publicidad -

3. Desajuste labios-voz en videollamada
Retraso constante o microanomalías (labios que "flotan" sobre los dientes). En mala red hay desfase, pero el movimiento facial sigue siendo orgánico.

4. Microgestos extraños
Parpadeo escaso, mirada fija, sombras e iluminación aplanadas, cabello/orejas con píxeles raros. En mala red verás congelaciones o un macropixelado típico de la compresión, no esos detalles finos.

5. Latencia sospechosa
Demoras demasiado regulares o cambios bruscos sin motivo. Los modelos tardan un tiempo fijo en "escupir" la respuesta completa; la red deficiente provoca latencias irregulares y avisos de "conexión inestable".

Detectores y marcas de agua: útiles, pero no mágicos
La detección de un audio sintético es una especie de carrera armamentística en constante evolución, explica Curto. Las herramientas disponibles se centran en el análisis forense de artefactos que los modelos de IA aún no han aprendido a eliminar. Estas son las dos soluciones más prometedoras:

1) Detección forense (modelos de clasificación)
Analizan rasgos acústicos (artefactos espectrales, prosodia no natural, etc.) para reconocer patrones de entrenamiento de IA.

ASVspoof Challenges: conjuntos de referencia (como Logical Access LA, Physical Access PA) y métricas para entrenar/comparar detectores. Las tasas de error suben cuando el spoofing (clonación de voz) usa un modelo distinto al del entrenamiento.
Herramientas para medios (por ejemplo, VerificAudio): usadas en redacciones (PRISA Media) con doble capa de IA: señales sintéticas + verificación contextual. Precisión no pública, varía por idioma; riesgo de falsos positivos con audio muy comprimido o ruidoso.
Detectores de plataformas (por ejemplo, ElevenLabs): fiables sobre su propio audio; no generalizan bien a generadores ajenos (Google/Meta).

- Publicidad -

2) Marcas de agua (watermarking)
Estrategia de etiquetar en origen el contenido generado. Algunas formas de hacerlo son:

AudioSeal (Meta): marca imperceptible que permite la detección puntual (qué partes se alteraron). Disponible gratuitamente en GitHub. Vulnerable a la compresión MP3, pitch-shift o reverberación; crecen los falsos negativos con posprocesado adversario.
SynthID (Google): marca multimodal (nació en imagen; se extiende a audio y texto). Busca ser detectable tras ediciones (recorte, compresión). Su eficacia depende de los estándares (ISO/IEC) y la adopción: si el generador no la implementa, no sirve.

Cuatro buenas prácticas (proactivas) para proteger la voz
La mejor defensa es el escepticismo humano (prosodia, contexto, movimiento), complementado con una fuerte verificación de la identidad (códigos clave) y la limitación de la exposición de la huella vocal pública, explica Curto.

En el contexto de la investigación, se estudia cómo crear distorsiones imperceptibles para un humano, pero que confundan los algoritmos de entrenamiento de IA que intentan extraer la huella vocal. La idea es "envenenar" el conjunto de datos de entrenamiento sin afectar la comunicación humana. Este es el futuro de la protección proactiva.

Las siguientes son una serie de buenas prácticas al alcance de todos:
Consentimiento y privacidad: no compartir grabaciones sin propósito claro; en entornos corporativos, exigir el consentimiento para grabar/analizar la biometría vocal. Revisar los asistentes (Alexa/Google) y desactivar el almacenamiento continuo y la función de "ayudar a mejorar el servicio".
MFA (autenticación multifactor) para la constatación vocal: establecer "Código de Seguridad" / "Frase Anti-Deepfake" inesperada, rotativa y contextual. Ejemplo: "¿Cuál es la palabra del martes?".
Gestionar la huella vocal pública: limitar la publicación de audios largos y nítidos en abierto. Si se publican, bajar el bitrate (cantidad de datos procesados por segundo medidos en kbps) o añadir música de fondo.
Tecnologías de anulación/ruido blanco: dispositivos (ejemplo: HARP Speech Protector) o software con ultrasonidos/ruido de banda ancha que interfieren con micrófonos. Caros, de alcance limitado y con posibles restricciones legales.

ABC práctico y explicado para empresas y administraciones
Cuando llegue una llamada con una petición sensible (pagos, contraseñas, cambios urgentes), el orden ideal para verificar es este:

A. Confirma quién habla
Empieza por una verificación humana y contextual usando una safe word (palabra de seguridad) acordada previamente. La respuesta debe revisarla una persona —un supervisor o, como mínimo, un sistema secundario no automatizado— para evitar que un modelo genere una réplica verosímil sin control.

B. Si persiste la duda, rompe el guion
Aplica un callback cruzado (out-of-band verification o confirmar la identidad de alguien usando un canal de comunicación diferente): corta con naturalidad ("La calidad es mala, le devuelvo la llamada ahora") y llama tú a un número verificado que conste en tu CRM/expediente (registros verificados de contactos). Nunca devuelvas la llamada al número entrante. Si la persona atiende por el canal/número esperado y el contexto coincide, la autenticidad es muy probable. Este paso desarma muchos intentos porque obliga al estafador a controlar también el segundo canal.

C. Si no valida, deja rastro y escala
Activa el protocolo de alerta interna por intento de fraude. Cierra la conversación con una frase de seguridad ("Por protocolo debemos finalizar esta llamada"), registra la hora, el origen aparente (aunque sea falso) y las señales anómalas observadas ("prosodia plana al responder la clave", latencia constante, etc.), y elévalo inmediatamente al departamento de ciberseguridad o legal.

Todo esto funciona solo si el personal está formado: hay que entrenar la detección de cambios emocionales y, sobre todo, evitar ceder ante la urgencia o la presión, tácticas típicas para impedir el callback.



No hay comentarios

Deje su comentario

En respuesta a Some User
Claves para identificar voces generadas con IA

Claves para identificar voces generadas con IA

Latinoamérica. La IA ya crea voces y vídeos que se hacen pasar por humanos. Algunos delincuentes la están usando para engañar a los ciudadanos, pretendiendo ser empresas o instituciones con el fin...

Crestron evolución la configuración del hogar inteligente

Crestron evolución la configuración del hogar inteligente

Latinoamérica. Hace diez años, Crestron introdujo un nuevo producto en el mundo del hogar inteligente. Presentado en 2014 en CEDIA Expo®, el software Crestron Pyng. 

Obsidian lanzó nueva versión de su sistema Netron

Obsidian lanzó nueva versión de su sistema Netron

Latinoamérica. Obsidian Control Systems presentó Netron V3, la tercera actualización de su plataforma de distribución de datos Netron para el entretenimiento.

Bose Professional mejora rendimiento de altavoces colgantes

Bose Professional mejora rendimiento de altavoces colgantes

Latinoamérica. Bose Professional anunció su nuevo sistema de altavoces colgantes DesignMax Luna DML88P, los cuales ofrecen un sonido de alta fidelidad que llena el espacio con un diseño elegante y...

Capturan paisaje sonoro de los árboles más altos del mundo

Capturan paisaje sonoro de los árboles más altos del mundo

Internacional. El sonidista Thomas Rex Beverly utilizó micrófonos de condensador Sennheiser MKH RF para descubrir los sonidos ocultos de un antiguo bosque de secuoyas.

Centros de datos e IA: desafío energético en la era digital

Centros de datos e IA: desafío energético en la era digital

México. En medio de una creciente demanda digital impulsada por la expansión del comercio electrónico, la inteligencia artificial y la transformación digital de las empresas, los Data Centers en...

Siemens recibe la certificación ‘Hecho en México’

Siemens recibe la certificación ‘Hecho en México’

México. La Secretaría de Economía otorgó la certificación ‘Hecho en México’ a una gama de productos del negocio de Infraestructura Inteligente de Siemens México, Centroamérica y el Caribe,...

DAS Audio llevó el sonido al Festival Petronio Álvarez

DAS Audio llevó el sonido al Festival Petronio Álvarez

Colombia. El Festival de Música del Pacífico Petronio Álvarez, celebrado cada año en Cali, es uno de los encuentros culturales más importantes de Colombia y el mayor referente de las tradiciones...

Absen México inauguró su nuevo Showroom

Absen México inauguró su nuevo Showroom

México. Después de una década de consolidación en el mercado mexicano, Absen México marca un nuevo hito en su historia con la apertura oficial de su Showroom en Ciudad de México, un espacio...

Duecanali de Powersoft se usa en el Sesc de São Paulo

Duecanali de Powersoft se usa en el Sesc de São Paulo

Brasil. La plataforma de amplificación Duecanali de Powersoft, constituye la base sonora de una amplia gama de espectáculos y eventos comunitarios en toda la red de Sesc São Paulo, con más de 100...

Suscribase Gratis
Recuérdeme
SUSCRÍBASE AL INFO-BOLETIN
¿REQUIERE UNA COTIZACIÓN?
ENTREVISTAS DESTACADAS
PATROCINADORES










ULTIMO BOLETIN
Ultimo Info-Boletin