OpenAI a dévoilé un nouvel outil capable de recréer la voix de n’importe qui à partir d’un simple enregistrement. Consciente des dangers d’un tel dispositif, la start-up prend néanmoins des précautions avant son déploiement.

Pour quels usages ?

Après ChatGPT pour le texte, Dall-E pour les images et Sora pour la vidéo, OpenAI présente Voice Engine. Cette intelligence artificielle (IA) est en mesure, « à partir d’un texte et d’un échantillon audio de 15 secondes », de générer « une parole naturelle qui ressemble beaucoup au locuteur original ». Le modèle peut également parler dans différentes langues avec la voix qu’il imite.

La société travaille sur cette technologie depuis 2022, et s’en sert notamment pour générer les voix dans ChatGPT. L’agent conversationnel peut en effet répondre aux internautes vocalement plutôt que par écrit.

Selon OpenAI, Voice Engine présente de nombreux usages potentiels, comme l’aide à la lecture, la traduction ainsi que l’aide aux personnes souffrant de troubles soudains ou dégénératifs de l’élocution. Les entreprises pourraient également l’exploiter pour créer des livres audio ou même créer une station de radio automatisée.

La firme reconnaît aussi les dangers posés par son outil, c’est pourquoi elle fait le choix de ne pas le déployer pour le moment. « Nous reconnaissons que la production d’un discours qui ressemble à la voix des gens présente des risques sérieux, qui sont particulièrement importants en cette année électorale », indique-t-elle dans un billet de blog.

OpenAI ne veut pas se précipiter

Les experts sont de plus en plus nombreux à alerter sur la prolifération de deepfakes, vidéo comme audio. L’année 2024 s’impose comme le premier cycle électoral au cours duquel des désinformations générées par l’IA risquent d’être diffusées à grande échelle. Au mois de janvier, des milliers d’électeurs de l’État du New Hampshire ont par exemple reçu un appel généré par l’IA imitant la voix de Joe Biden, et les exhortant à ne pas se rendre aux urnes pour les primaires démocrates.

« Il s’agit d’un sujet sensible et il est important de bien faire les choses », indique Jeff Harris, chef de produit chez OpenAI, au sujet de Voice Engine. L’entreprise étudie des moyens de limiter les usages malveillants de son outil, par exemple avec un filigrane ou des paramètres empêchant les gens de l’utiliser avec les voix d’hommes politiques ou de célébrités.

« Il est important que les gens du monde entier comprennent où va cette technologie, que nous finissions par la déployer à grande échelle nous-mêmes ou non », estime la société.

OpenAI n’est pas le seul groupe à travailler sur une telle technologie ; c’est également le cas de Google ou de la start-up ElevenLabs, qui a récemment atteint le statut de licorne.