Comment fonctionne réellement le clonage vocal par IA (et comment éviter que la vôtre ne soit volée).
Votre voix fait désormais office de mot de passe. Personne n’a envoyé de note de service à ce sujet, mais c’est vrai, et la plupart d’entre nous se promènent avec ce mot de passe affiché sur leur porte d’entrée.
L’hiver dernier, j’ai reçu un appel provenant de mon propre numéro. Pas un numéro usurpé qui y ressemblait de près — c’était bien mon numéro de portable, qui sonnait sur mon propre téléphone. Quand j’ai décroché, j’ai entendu un enregistrement en boucle de ma propre voix, avec des parasites, qui ne disait rien de particulier. Quelqu’un avait extrait quelques secondes d’une de mes interventions dans un podcast et testait ce qu’il pouvait en faire. Sympa. Légèrement terrifiant. Surtout agaçant, comme si mon propre reflet m’appelait à l’improviste. Je n’ai pas pris la peine de changer de numéro. À quoi bon ?
Voilà où nous en sommes en matière de clonage vocal par IA. Ce n’est pas « peut-être dans dix ans ». C’est un problème de mardi après-midi.
Que se passe-t-il réellement lorsqu’on clone une voix ?

Voici ce qui surprend souvent les gens : il n’en faut pas beaucoup.
Trois secondes. C’est la barre que certains outils ont fixée. ElevenLabs et une poignée de concurrents ont rendu le clonage vocal d’une simplicité presque gênante. Il suffit de fournir à un algorithme un court extrait — un message vocal, une réponse à un commentaire, un toast de mariage publié sur Instagram — pour qu’il établisse une empreinte statistique de votre voix. La hauteur, la cadence, ce petit grain à la fin d’une phrase, la respiration avant une consonne dure. Tout cela est traduit en chiffres.
Le modèle génère ensuite un nouvel enregistrement à partir de cette empreinte vocale. Il ne s’agit pas de la lecture d’un enregistrement existant. Il prédit, syllabe par syllabe, comment vous prononceriez des mots que vous n’avez jamais prononcés. Tapez une phrase, cliquez sur « Générer », et vous entendrez votre voix prononcer quelque chose que vous ne diriez jamais. Pour la plupart des oreilles humaines, et pour de nombreux systèmes de vérification sur téléphone également, cette voix est impossible à distinguer de la vraie.
Le terme technique est « synthèse vocale » (text-to-speech), une technologie qui repose sur des réseaux neuronaux entraînés à partir d’énormes quantités d’enregistrements vocaux. Mais oubliez ce terme. Ce qui importe, c’est que les calculs ne se soucient pas de savoir à qui appartient la voix utilisée.
D’où vient cette technologie ? (une brève histoire teintée d’amertume).
Étrangement, la synthèse vocale n’est pas une nouveauté. Les Bell Labs s’y essayaient déjà dans les années 1930 à l’aide d’une machine appelée « Voder », composée de boutons et de pédales, dont la voix ressemblait à celle d’un robot souffrant d’une sinusite.
Pendant des décennies, la technologie est restée rudimentaire. Puis l’apprentissage profond a fait son apparition, et entre 2016 et 2019, la qualité a fait un bond en avant spectaculaire, si l’on peut parler de « progrès ». WaveNet a fait son apparition, suivi d’une avalanche d’outils commerciaux. En 2023, n’importe qui disposant d’un ordinateur portable et de quelques dollars en poche pouvait cloner une voix, ce qui nécessitait auparavant le budget d’un studio de cinéma et les services d’un ingénieur du son nommé Gary, ayant travaillé sur de vrais films.
Personne n’a voté pour ça. C’est simplement arrivé, enrobé de discours sur la créativité et l’accessibilité, deux aspects qu’il remplit d’ailleurs, il faut le reconnaître. La narration de livres audio pour les personnes qui ont perdu la voix à cause d’une maladie. Le doublage de films. Des robots de service client qui ne donnent pas l’impression de lire un script écrit par quelqu’un qui déteste la joie.
Mais cet outil, qui permet à un patient atteint d’un cancer de continuer à « parler » avec sa propre voix, est aussi celui qui permet à un inconnu à l’étranger de se faire passer pour votre père et de vous demander de l’argent pour payer une caution.
Ces arnaques ne sont pas subtiles, et c’est justement ce qui fait peur.
On pourrait penser qu’une arnaque par voix synthétisée trahirait d’une manière ou d’une autre. Une intonation bizarre. Une pause robotique.
Non.
L’arnaque aux grands-parents est celle dont tout le monde a désormais entendu parler. On reçoit un appel. C’est la voix d’un petit-enfant, en larmes, qui dit qu’il est en prison ou qu’il a eu un accident, qu’il a besoin d’argent tout de suite, et de ne surtout pas le dire à papa et maman. Les appels frauduleux de ce type, basés sur le clonage de voix, ont tellement touché les retraités que la FTC ne cesse de publier des avertissements à leur sujet. L’enregistrement audio n’a pas besoin d’être parfait. C’est surtout la panique qui fait le travail : le cerveau comble les lacunes lorsqu’il est effrayé.
Les entreprises sont elles aussi touchées, et sans doute encore plus durement, à tous les niveaux. Il existe un cas bien documenté datant de 2019 où le PDG d’une entreprise énergétique britannique a reçu un appel qui ressemblait en tous points à celui de son supérieur hiérarchique au sein de la société mère allemande — accent, intonation, tout — lui demandant de virer environ 220 000 euros à un fournisseur hongrois, de toute urgence, le jour même. Il l’a fait. La voix était celle d’un clone. L’argent avait disparu en moins d’une heure.
J’aimerais pouvoir vous dire que ce genre de cas est rare. Mais ce n’est pas le cas. C’est désormais une catégorie à part entière, avec sa propre rubrique dans les supports de formation aux risques de certaines entreprises, probablement juste à côté d’une illustration représentant un téléphone.
Comment protéger efficacement votre voix.
Bon. Passons maintenant à ce qui vous intéresse vraiment. Quelques habitudes peu glamour et un peu paranoïaques peuvent faire toute la différence.
Choisissez un mot de passe familial. Pas « banane », mais quelque chose que personne ne devinerait, et ne le prononcez jamais à voix haute lors d’un appel enregistré, d’un podcast ou d’un message d’accueil sur la messagerie vocale. Si un « membre de la famille » vous appelle pour vous demander de l’argent et omet de mentionner le mot de passe, raccrochez. Rappelez-le sur un numéro dont vous savez déjà qu’il est le sien.
Choisissez soigneusement le message d’accueil de votre messagerie vocale. Un simple « Vous avez composé ce numéro, veuillez laisser un message » vaut mieux qu’un message d’accueil enjoué où vous prononcez votre nom en entier, qui offre gratuitement aux escrocs des données d’entraînement.
Faites attention à ce que vous publiez. Cette vidéo Instagram de soixante secondes où on vous voit rire pendant un brunch est une aubaine pour quiconque constitue une base de données de clonage vocal. Je ne vous dis pas de vous taire sur Internet, mais plutôt de bien réfléchir avant de publier un enregistrement audio clair et non retouché de vous-même en train de parler pendant plus de quelques secondes en public.
Renseignez-vous auprès de votre banque sur l’authentification vocale. Certaines banques ont encore recours à la vérification par « empreinte vocale » pour leur service d’assistance téléphonique, et il vaut la peine de leur demander directement si cette méthode est toujours considérée comme sûre, ou si vous pouvez passer à un système basé sur un code PIN. Quelques établissements ont discrètement commencé à l’abandonner progressivement, précisément pour cette raison.
Prenez également l’habitude de vérifier verbalement les informations au travail, notamment en ce qui concerne les virements bancaires. Si « le patron » vous appelle pour exiger un paiement urgent, c’est justement le moment de prendre votre temps, et non de précipiter les choses.
Que faire si cela s’est déjà produit ?
Si vous soupçonnez quelqu’un d’avoir usurpé votre voix à des fins frauduleuses, conservez toutes les preuves possibles : relevés d’appels, horodatages, enregistrements, etc. Signalez l’incident sur reportfraud.ftc.gov, et si de l’argent a déjà été transféré, appelez immédiatement votre banque. Dans certains cas de fraude par virement bancaire, il existe un délai très court pendant lequel les fonds peuvent encore être récupérés avant qu’ils ne disparaissent sur un autre compte.
Parlez-en à votre famille, même si c’est gênant. C’est justement cette gêne qui pousse les gens à se taire sur ce genre de choses, et c’est justement ce silence qui permettra à cette même arnaque de toucher votre tante le mois prochain.
Mon point de vue, pour être honnête, plutôt sombre.
Je ne pense pas que ça soit une idée qui tienne la route. Ces outils sont trop bon marché, trop efficaces et trop ancrés dans des secteurs d’activité légitimes pour être interdits ou soumis à une réglementation stricte dans un avenir proche, quel que soit le nombre d’émissions consacrées à ce sujet sur les chaînes d’information en continu.
La véritable solution n’est donc pas technique. Pas vraiment. Elle est culturelle. Nous avons besoin de ce même réflexe instinctif consistant à se demander « est-ce vraiment eux ? », celui qui s’est fini par s’imposer avec les e-mails, celui qui nous empêche de cliquer sur un lien provenant de « votre banque » sans vérifier d’abord l’adresse de l’expéditeur. Il a fallu des années pour que cela devienne un réflexe. Nous en avons à nouveau besoin, sauf que cette fois-ci, il ne s’agit pas d’un e-mail bizarre avec des fautes de grammaire. C’est une voix. La voix de votre père. La voix de votre enfant. La vôtre, même.
C’est une habitude plus difficile à prendre, honnêtement, car tout au long de l’histoire de l’humanité, entendre la voix de quelqu’un signifiait que c’était bien lui. Point final, sans aucune réserve. Cette certitude s’est discrètement éteinte au cours des dernières années, sans annonce ni nécrologie.
Adaptez-vous en conséquence. Et vous pourriez peut-être arrêter de publier le message d’accueil de votre messagerie vocale, dans lequel vous donnez votre nom complet tel qu’il figure sur vos papiers d’identité et qui s’accompagne d’un petit air entraînant. C’est juste une idée.
Essayez donc. Enregistrez dès maintenant trois secondes de votre voix et réécoutez-les. De nos jours, ce petit extrait occupe à peu près la même place que votre clé de porte d’entrée. Ça vaut le coup de savoir où finissent ces copies.

