AVI Latinoamérica

Claves para identificar voces generadas con IA

Claves para identificar voces generadas con IA

Latinoamérica. La IA ya crea voces y vídeos que se hacen pasar por humanos. Algunos delincuentes la están usando para engañar a los ciudadanos, pretendiendo ser empresas o instituciones con el fin de conseguir su dinero, como se muestra en este vídeo.

A medida que los modelos de voz generativa maduran, los "fallos" que delatan un deepfake (contenido audiovisual sintético o manipulado mediante modelos de IA generativa) son más sutiles. La clave no es oír un robot, sino distinguir la huella algorítmica de una mera mala conexión.

Así lo explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), que ofrece señales prácticas para detectar voces sintéticas en tiempo real, recomienda herramientas y marcas de agua con sus límites, y propone un ABC antifraude para empresas y administraciones, en línea.

"A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles", advierte el experto. La mayoría de los deepfakes de voz fallan en cómo suena la conversación —prosodia (entonación, acento, ritmo, intensidad), pausas, latencias sospechosamente regulares— más que en la textura del timbre.

- Publicidad -

Por eso, en entornos cotidianos (una llamada urgente, un supuesto aviso del banco, una videollamada improvisada), muchas personas no perciben las anomalías si no saben qué observar y cómo comprobarlo en el momento.

Curto subraya una regla de oro: distinguir artefactos de red de imperfecciones algorítmicas. En una mala conexión, el sonido fluctúa y el desfase audio/vídeo es errático; en el contenido sintético, los "fallos" tienden a ser consistentes (entonación plana o saltos de tono improbables, pausas colocadas donde la gramática no las espera, latencias de respuesta "demasiado iguales").

En una videollamada, las microseñales del rostro —parpadeo, sombras, detalle del cabello y de las orejas— delatan más que el propio lipsync (correspondencia temporal entre movimiento de labios y sonido del habla): cuando es IA, aparecen pequeñas incoherencias visuales que no se explican por compresión o ancho de banda.

Para un test en directo, el experto recomienda romper la inercia del modelo: pedir que repita una frase inesperada, introducir ruido de contexto (una palmada frente al micrófono, teclear fuerte) o intercalar interrupciones cortas para forzar la variación en la prosodia.

Si persisten la entonación antinatural o las latencias constantes, se activa el protocolo: callback (devolución de llamada) a un número verificado y comprobación de safe word (palabra clave acordada previamente para autentificar). "La mejor defensa es el escepticismo humano, más verificación por un segundo canal y menor huella pública de tu voz", resume el profesor de la UOC.

Cinco señales fiables en tiempo real
1. Prosodia no natural y entonación plana
La voz no fluye emocionalmente: se producen pausas uniformes o mal situadas, tonos monótonos o saltos abruptos. En mala red, oyes cortes o compresión, pero cuando vuelve la señal, el acento y la entonación de base suenan humanos.

2. Artefactos espectrales ("metal", clics finales)
Siseo o brillo anómalo en colas de palabra; audio demasiado limpio para el entorno. En mala red, el ruido y la calidad fluctúan, mientras que los artefactos de IA tienden a ser consistentes.

- Publicidad -

3. Desajuste labios-voz en videollamada
Retraso constante o microanomalías (labios que "flotan" sobre los dientes). En mala red hay desfase, pero el movimiento facial sigue siendo orgánico.

4. Microgestos extraños
Parpadeo escaso, mirada fija, sombras e iluminación aplanadas, cabello/orejas con píxeles raros. En mala red verás congelaciones o un macropixelado típico de la compresión, no esos detalles finos.

5. Latencia sospechosa
Demoras demasiado regulares o cambios bruscos sin motivo. Los modelos tardan un tiempo fijo en "escupir" la respuesta completa; la red deficiente provoca latencias irregulares y avisos de "conexión inestable".

Detectores y marcas de agua: útiles, pero no mágicos
La detección de un audio sintético es una especie de carrera armamentística en constante evolución, explica Curto. Las herramientas disponibles se centran en el análisis forense de artefactos que los modelos de IA aún no han aprendido a eliminar. Estas son las dos soluciones más prometedoras:

1) Detección forense (modelos de clasificación)
Analizan rasgos acústicos (artefactos espectrales, prosodia no natural, etc.) para reconocer patrones de entrenamiento de IA.

ASVspoof Challenges: conjuntos de referencia (como Logical Access LA, Physical Access PA) y métricas para entrenar/comparar detectores. Las tasas de error suben cuando el spoofing (clonación de voz) usa un modelo distinto al del entrenamiento.
Herramientas para medios (por ejemplo, VerificAudio): usadas en redacciones (PRISA Media) con doble capa de IA: señales sintéticas + verificación contextual. Precisión no pública, varía por idioma; riesgo de falsos positivos con audio muy comprimido o ruidoso.
Detectores de plataformas (por ejemplo, ElevenLabs): fiables sobre su propio audio; no generalizan bien a generadores ajenos (Google/Meta).

- Publicidad -

2) Marcas de agua (watermarking)
Estrategia de etiquetar en origen el contenido generado. Algunas formas de hacerlo son:

AudioSeal (Meta): marca imperceptible que permite la detección puntual (qué partes se alteraron). Disponible gratuitamente en GitHub. Vulnerable a la compresión MP3, pitch-shift o reverberación; crecen los falsos negativos con posprocesado adversario.
SynthID (Google): marca multimodal (nació en imagen; se extiende a audio y texto). Busca ser detectable tras ediciones (recorte, compresión). Su eficacia depende de los estándares (ISO/IEC) y la adopción: si el generador no la implementa, no sirve.

Cuatro buenas prácticas (proactivas) para proteger la voz
La mejor defensa es el escepticismo humano (prosodia, contexto, movimiento), complementado con una fuerte verificación de la identidad (códigos clave) y la limitación de la exposición de la huella vocal pública, explica Curto.

En el contexto de la investigación, se estudia cómo crear distorsiones imperceptibles para un humano, pero que confundan los algoritmos de entrenamiento de IA que intentan extraer la huella vocal. La idea es "envenenar" el conjunto de datos de entrenamiento sin afectar la comunicación humana. Este es el futuro de la protección proactiva.

Las siguientes son una serie de buenas prácticas al alcance de todos:
Consentimiento y privacidad: no compartir grabaciones sin propósito claro; en entornos corporativos, exigir el consentimiento para grabar/analizar la biometría vocal. Revisar los asistentes (Alexa/Google) y desactivar el almacenamiento continuo y la función de "ayudar a mejorar el servicio".
MFA (autenticación multifactor) para la constatación vocal: establecer "Código de Seguridad" / "Frase Anti-Deepfake" inesperada, rotativa y contextual. Ejemplo: "¿Cuál es la palabra del martes?".
Gestionar la huella vocal pública: limitar la publicación de audios largos y nítidos en abierto. Si se publican, bajar el bitrate (cantidad de datos procesados por segundo medidos en kbps) o añadir música de fondo.
Tecnologías de anulación/ruido blanco: dispositivos (ejemplo: HARP Speech Protector) o software con ultrasonidos/ruido de banda ancha que interfieren con micrófonos. Caros, de alcance limitado y con posibles restricciones legales.

ABC práctico y explicado para empresas y administraciones
Cuando llegue una llamada con una petición sensible (pagos, contraseñas, cambios urgentes), el orden ideal para verificar es este:

A. Confirma quién habla
Empieza por una verificación humana y contextual usando una safe word (palabra de seguridad) acordada previamente. La respuesta debe revisarla una persona —un supervisor o, como mínimo, un sistema secundario no automatizado— para evitar que un modelo genere una réplica verosímil sin control.

B. Si persiste la duda, rompe el guion
Aplica un callback cruzado (out-of-band verification o confirmar la identidad de alguien usando un canal de comunicación diferente): corta con naturalidad ("La calidad es mala, le devuelvo la llamada ahora") y llama tú a un número verificado que conste en tu CRM/expediente (registros verificados de contactos). Nunca devuelvas la llamada al número entrante. Si la persona atiende por el canal/número esperado y el contexto coincide, la autenticidad es muy probable. Este paso desarma muchos intentos porque obliga al estafador a controlar también el segundo canal.

C. Si no valida, deja rastro y escala
Activa el protocolo de alerta interna por intento de fraude. Cierra la conversación con una frase de seguridad ("Por protocolo debemos finalizar esta llamada"), registra la hora, el origen aparente (aunque sea falso) y las señales anómalas observadas ("prosodia plana al responder la clave", latencia constante, etc.), y elévalo inmediatamente al departamento de ciberseguridad o legal.

Todo esto funciona solo si el personal está formado: hay que entrenar la detección de cambios emocionales y, sobre todo, evitar ceder ante la urgencia o la presión, tácticas típicas para impedir el callback.

Richard Santa, RAVTEmail: [email protected]

No hay comentarios

Barco fortalece su relación con los clientes colombianos

Barco fortalece su relación con los clientes colombianos

Colombia. En la última semana, ejecutivos de la compañía Barco estuvieron de gira en Colombia con el fin de visitar a los clientes y aprovechar para presentar su nuevo proyector.

Absen lanza programa global de inspección de instalaciones

Absen lanza programa global de inspección de instalaciones

Latinoamérica. El 20 de mayo de 2026, Absen celebró su 26º aniversario. La compañía siempre se ha comprometido con un servicio excepcional y mantiene este compromiso a través de su sistema de...

Kramer presentará su gama ampliada de altavoces

Kramer presentará su gama ampliada de altavoces

Latinoamérica. Kramer presentará su gama ampliada de altavoces para audio instalado en Estados Unidos por primera vez en InfoComm 2026, ofreciendo a los integradores una gama más amplia de altavoces...

Ikusi inicia operaciones en Perú

Ikusi inicia operaciones en Perú

Perú. Ikusi amplía su presencia en la región andina e inicia operaciones en Perú. Esta nueva etapa responde a la voluntad de la compañía de reforzar su presencia en el mercado latinoamericano y...

SDVoE amplía su API para flujos de trabajo AV sobre IP con IA

SDVoE amplía su API para flujos de trabajo AV sobre IP con IA

Latinoamérica. La Alianza SDVoE amplió las capacidades de su API para admitir flujos de trabajo asistidos por IA para la implementación, programación, monitorización y resolución de problemas de AV...

Christie celebró 20 años de colaboración con Festival de Cannes

Christie celebró 20 años de colaboración con Festival de Cannes

Internacional. Christie será el partner técnico oficial del 79º Festival de Cannes, que se celebrará del 12 al 23 de mayo, lo que supone 20 años de colaboración entre Christie y uno de los eventos...

Daviarena, el nuevo centro de eventos de Colombia

Daviarena, el nuevo centro de eventos de Colombia

Colombia. Con la obra al 62% y programado para estrenarse el próximo 14 de noviembre de 2026, Daviarena se proyecta como el centro de eventos más moderno que tendrá Colombia.

Integración AV abre oficina en Medellín

Integración AV abre oficina en Medellín

Colombia. La firma Integración AV abre su nueva oficina en la ciudad de Medellín, consolidando así su presencia en la capital de Antioquia con un equipo en terreno y una visión de largo plazo para...

WWT recibe premio Distributor of the Year Americas de Barco

WWT recibe premio Distributor of the Year Americas de Barco

Latinoamérica. WWT participó en la Reunión Global de Distribuidores de Barco, acompañando a socios de todo el mundo para intercambiar conocimientos, explorar novedades y discutir novedades del...

DirectOut lanza ACE: nueva plataforma de audio profesional

DirectOut lanza ACE: nueva plataforma de audio profesional

Latinoamérica. DirectOut anunció ACE, una plataforma inteligente y compacta, diseñada para adaptarse perfectamente a una amplia gama de flujos de trabajo, desde aplicaciones de playback hasta...

Suscribase Gratis

SUSCRÍBASE AL INFO-BOLETIN

• Gane 25 Puntos de Lealtad •

¿REQUIERE UNA COTIZACIÓN?

ENTREVISTAS DESTACADAS

PATROCINADORES

ULTIMO BOLETIN

Ultimo Info-Boletin