Cómo funciona realmente la clonación de voz mediante IA (y cómo evitar que te roben la tuya).
Ahora tu voz es una contraseña. Nadie ha enviado ningún comunicado al respecto, pero es cierto, y la mayoría de nosotros vamos por ahí con esa contraseña pegada en la puerta de casa.
El invierno pasado recibí una llamada desde mi propio número. No era un número falsificado que se pareciera al mío, sino mi número de móvil real, sonando en mi propio teléfono. Cuando contesté, se oía un bucle de mi propia voz, con interferencias, sin decir nada en concreto. Alguien había extraído unos segundos de mi intervención en un podcast y estaba probando qué podía hacer con ellos. Gracioso. Un poco aterrador. Sobre todo molesto, como recibir una llamada inesperada de tu propio reflejo. No me molesté en cambiar de número. ¿Para qué?
Así están las cosas en cuanto a la clonación de voces mediante IA. No es algo que «quizá ocurra dentro de diez años». Es un problema de este mismo martes por la tarde.
¿Qué ocurre realmente cuando alguien clona una voz?

Esto es lo que sorprende a la gente: no hace falta mucho.
Tres segundos. Ese es el listón que han establecido algunas herramientas. ElevenLabs y un puñado de competidores han conseguido que la clonación de voz sea casi vergonzosamente fácil. Basta con introducir un fragmento corto en un algoritmo —un mensaje de voz, la respuesta a un comentario, un brindis de boda que alguien haya publicado en Instagram— para que este cree una huella estadística de tu voz. El tono, la cadencia, ese ligero rasgado al final de una frase, la respiración antes de una consonante fuerte. Todo ello se traduce en números.
A continuación, el modelo genera un nuevo audio a partir de esa huella digital. No se trata de reproducir una grabación, sino de predecir, sílaba a sílaba, cómo sonarías al pronunciar palabras que nunca has dicho. Escribe una frase, pulsa «Generar» y ahí estarás tú, diciendo algo que nunca dirías. La voz es indistinguible de la real para la mayoría de los oídos humanos, y también para muchos sistemas de verificación basados en el teléfono.
El término técnico es «síntesis de voz de texto a voz», basada en redes neuronales entrenadas con enormes cantidades de grabaciones de voz. Pero olvídate del término. Lo que importa es que a las matemáticas no les importa de quién sea la voz que están utilizando.
De dónde viene esta tecnología (una breve historia con un toque de amargura).
Curiosamente, la síntesis de voz no es nada nuevo. En los años 30, en los Laboratorios Bell ya estaban experimentando con esto mediante una máquina llamada «Voder», llena de mandos y pedales, que sonaba como un robot con sinusitis.
Durante décadas siguió siendo un sistema poco sofisticado. Luego llegó el aprendizaje profundo y, en algún momento entre 2016 y 2019, la calidad dio un salto cualitativo en la dirección correcta, si es que «correcta» es la palabra adecuada para describirlo. Apareció WaveNet y, a continuación, se produjo una avalancha de herramientas comerciales. Para 2023, cualquiera con un portátil y unos cuantos dólares de sobra podría clonar una voz que antes requería el presupuesto de un estudio de cine y un ingeniero de sonido llamado Gary que hubiera trabajado en películas de verdad.
Nadie ha votado sobre esto. Simplemente ha aparecido, envuelto en un discurso sobre creatividad y accesibilidad, algo que, hay que reconocerlo, sí que cumple. Narración de audiolibros para personas que han perdido la voz a causa de una enfermedad. Doblaje de películas. Bots de atención al cliente que no suenan como si estuvieran leyendo un guion escrito por alguien que odia la alegría.
Pero la misma herramienta que permite a un paciente de cáncer seguir «hablando» con su propia voz es la que permite que un desconocido en el extranjero se haga pasar por tu padre para pedirte dinero para la fianza.
Las estafas no son nada sutiles, y eso es lo que da miedo.
Uno pensaría que una estafa con voz falsa se delataría de alguna manera. Algún tono extraño. Una pausa robótica.
No.
La estafa del abuelo es de la que todo el mundo ha oído hablar a estas alturas. Llega una llamada. Es la voz de un nieto, llorando, diciendo que está en la cárcel o que ha tenido un accidente, que necesita que le envíen dinero ya mismo y que, por favor, no se lo digan a mamá y papá. Las estafas mediante clonación de voz como esta han afectado tanto a los jubilados que la FTC no deja de emitir repetidas advertencias al respecto. No hace falta que el audio sea perfecto. El pánico se encarga de la mayor parte del trabajo; el cerebro llena los huecos cuando tiene miedo.
Las empresas también se ven afectadas, y podría decirse que incluso más, dólar por dólar. Hay un caso bien documentado de 2019 en el que el director general de una empresa energética británica recibió una llamada que sonaba exactamente igual que la de su jefe en la empresa matriz alemana —acento, entonación, todo— pidiéndole que transfiriera unos 220 000 euros a un proveedor húngaro, con urgencia, ese mismo día. Y así lo hizo. La voz era un clon. El dinero desapareció en menos de una hora.
Ojalá pudiera decirte que son casos aislados. Pero no lo son. Ahora constituyen una categoría en sí misma, con su propia partida en la presentación de formación sobre riesgos de algunas empresas, probablemente junto a una imagen prediseñada de un teléfono.
Cómo proteger de verdad tu propia voz.
Vale. La parte por la que realmente has venido aquí. Unos cuantos hábitos poco glamurosos y ligeramente paranoicos pueden ser de gran ayuda.
Establece una palabra clave familiar. Que no sea «plátano», sino algo que nadie pueda adivinar, y nunca la digas en voz alta en una llamada grabada, un podcast o el saludo de un buzón de voz. Si un «miembro de la familia» llama pidiendo dinero y no dice la palabra clave, cuelga. Vuelve a llamarle a un número que ya sepas que es el suyo.
Configura bien el mensaje de bienvenida de tu buzón de voz. Un simple «ha llamado a este número, deje un mensaje» es mejor que un saludo alegre en el que se dice el nombre completo, ya que este último proporciona a los estafadores datos de entrenamiento gratis a cambio de nada.
Ten cuidado con lo que publicas. Ese «Reel» de Instagram de sesenta segundos en el que sales riéndote durante un brunch es un regalo para cualquiera que esté creando una base de datos para clonar voces. No digo que te quedes en silencio en Internet, sino que te lo pienses dos veces antes de publicar un audio nítido y sin editar en el que se te oiga hablar durante más de unos segundos en público.
Pregunta a tu banco sobre la autenticación por voz. Algunos bancos siguen recurriendo a la verificación mediante «huella vocal» para la atención telefónica, y merece la pena preguntar directamente si eso se sigue considerando seguro o si puedes cambiar a un sistema basado en un PIN. Algunas entidades han empezado a eliminarla progresivamente, sin hacer mucho ruido, precisamente por este motivo.
Adquiere también el hábito de verificar verbalmente las cosas en el trabajo, sobre todo en lo que respecta a las transferencias bancarias. Si «el jefe» llama exigiendo un pago urgente, ese es precisamente el momento de tomárselo con calma, no de apresurarse.
Qué hacer si ya ha ocurrido.
Si sospechas que alguien ha clonado tu voz con fines fraudulentos, recopila toda la información que puedas: registros de llamadas, marcas de tiempo y cualquier grabación. Denúncialo en reportfraud.ftc.gov y, si ya se ha transferido dinero, llama a tu banco de inmediato. En algunos casos de fraude electrónico, existe un breve margen de tiempo en el que aún es posible recuperar los fondos antes de que desaparezcan en otra cuenta.
Cuéntaselo a tu familia, aunque te dé vergüenza. La vergüenza es precisamente lo que hace que la gente no hable de estas cosas, y el silencio es precisamente lo que permite que tu tía sea víctima de la misma estafa el mes que viene.
Mi opinión, sincera y un poco pesimista.
No creo que esto vaya a desaparecer. Estas herramientas son demasiado baratas, demasiado buenas y están demasiado entrelazadas con sectores legítimos como para que se prohíban o se regulen de forma significativa a corto plazo, por muchas audiencias que se celebren al respecto en los canales de noticias por cable.
Así que la verdadera solución no es técnica. En realidad, no. Es cultural. Necesitamos ese mismo instinto de «¿son realmente ellos?» que con el tiempo se ha ido desarrollando en torno al correo electrónico, ese que te hace no hacer clic en un enlace de «tu banco» sin comprobar primero la dirección del remitente. Tardó años en convertirse en algo instintivo. Lo necesitamos de nuevo, solo que esta vez no se trata de un correo extraño con errores gramaticales. Es una voz. La voz de tu padre. La voz de tu hijo. Incluso la tuya.
La verdad es que es un hábito más difícil de adquirir, porque a lo largo de toda la historia de la humanidad, oír la voz de alguien significaba que era esa persona. Y punto, sin más. Esa suposición ha dejado de ser válida discretamente en algún momento de los últimos años, sin ningún anuncio ni obituario.
Adáptalo como corresponda. Y quizá deberías dejar de publicar el mensaje de bienvenida de tu buzón de voz con tu nombre completo tal y como figura en los registros oficiales y una melodía alegre. Es solo una sugerencia.
Pruébalo. Graba ahora mismo tres segundos de tu propia voz y escúchalos. Ese fragmento ocupa, más o menos, lo mismo que tu llave de la puerta principal hoy en día. Vale la pena saber dónde acaban esas copias.

