Sur ChatGPT, tout échange avec l’intelligence artificielle (IA) se fait à l’écrit. C’est le cas depuis les débuts de l’agent conversationnel, introduit en novembre 2022. Toutefois, cela va changer. Ce lundi 25 septembre, OpenAI a annoncé que les utilisateurs de son application mobile pourront bientôt converser avec l’IA à voix haute. Elle sera également en mesure d’analyser les images qui lui seront envoyées. Pour le moment, ces nouveautés ne seront accessibles qu’aux souscripteurs de ChatGPT Plus, une version payante du célèbre chatbot.
Cinq voix différentes
Pour proposer le chat vocal, OpenAI s’appuie sur plusieurs innovations. Parmi elles, Whisper, un modèle qui transcrit les paroles de l’utilisateur en texte. Un autre modèle de synthèse vocale exprime ensuite les réponses de ChatGPT oralement.
Inscrivez-vous à la newsletter
En vous inscrivant vous acceptez notre politique de protection des données personnelles.
Le défi reste encore d’humaniser le rendu. Pour cela, l’entreprise américaine a développé, avec l’aide de plusieurs comédiens professionnels, cinq voix synthétiques : Sky, Juniper, Cove, Ember et Breeze. Les adeptes du chatbot pourront opter pour celle qui leur convient le mieux. Ainsi, l’IA sera « capable de générer un son de type humain seulement à partir de texte et de quelques secondes d’échantillons de parole ».
Grâce à ces technologies, le chatbot pourra répondre oralement à des questions, lire des histoires, partager des informations sur un sujet… Le tout, sans que l’utilisateur n’ait à taper de longues phrases. L’objectif de cette nouvelle fonctionnalité est non seulement de simplifier le processus d’utilisation de l’outil, mais surtout de rendre l’interaction toujours plus humaine. En outre, elle permet de lever les barrières à l’accessibilité.
La puissance de tels modèles présente toutefois de nombreux risques de dérives et de fraudes, comme l’usurpation d’identité. « C’est pourquoi nous utilisons cette technologie pour alimenter un cas d’utilisation spécifique : le chat vocal », a insisté OpenAI. Le modèle ne sera donc pas disponible pour une utilisation dite “générale”.
Une IA désormais capable de traiter les images
En plus de la voix, ChatGPT se dote également de capacités de recherche multimodales. Désormais, les utilisateurs pourront importer des images dans une conversation pour qu’elles soient analysées par l’IA. Le but est d’offrir des réponses plus précises aux questions posées.
Il sera par exemple possible de soumettre une photo du contenu de son réfrigérateur pour avoir des idées de repas, ou encore envoyer une photo d’un problème de mathématiques pour obtenir de l’aide. Les possibilités sont nombreuses.
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
Avec ces nouvelles fonctionnalités plus interactives, OpenAI cherche à rattraper son retard sur ses concurrents, Bing Chat et Bard, qui ont tous les deux introduit des innovations similaires cet été.