Discuter à voix haute avec ChatGPT, c’est maintenant possible

Sur ChatGPT, tout échange avec l’intelligence artificielle (IA) se fait à l’écrit. C’est le cas depuis les débuts de l’agent conversationnel, introduit en novembre 2022. Toutefois, cela va changer. Ce lundi 25 septembre, OpenAI a annoncé que les utilisateurs de son application mobile pourront bientôt converser avec l’IA à voix haute. Elle sera également en mesure d’analyser les images qui lui seront envoyées. Pour le moment, ces nouveautés ne seront accessibles qu’aux souscripteurs de ChatGPT Plus, une version payante du célèbre chatbot.

Cinq voix différentes

Pour proposer le chat vocal, OpenAI s’appuie sur plusieurs innovations. Parmi elles, Whisper, un modèle qui transcrit les paroles de l’utilisateur en texte. Un autre modèle de synthèse vocale exprime ensuite les réponses de ChatGPT oralement.

Le défi reste encore d’humaniser le rendu. Pour cela, l’entreprise américaine a développé, avec l’aide de plusieurs comédiens professionnels, cinq voix synthétiques : Sky, Juniper, Cove, Ember et Breeze. Les adeptes du chatbot pourront opter pour celle qui leur convient le mieux. Ainsi, l’IA sera « capable de générer un son de type humain seulement à partir de texte et de quelques secondes d’échantillons de parole ».

Grâce à ces technologies, le chatbot pourra répondre oralement à des questions, lire des histoires, partager des informations sur un sujet… Le tout, sans que l’utilisateur n’ait à taper de longues phrases. L’objectif de cette nouvelle fonctionnalité est non seulement de simplifier le processus d’utilisation de l’outil, mais surtout de rendre l’interaction toujours plus humaine. En outre, elle permet de lever les barrières à l’accessibilité.

La puissance de tels modèles présente toutefois de nombreux risques de dérives et de fraudes, comme l’usurpation d’identité. « C’est pourquoi nous utilisons cette technologie pour alimenter un cas d’utilisation spécifique : le chat vocal », a insisté OpenAI. Le modèle ne sera donc pas disponible pour une utilisation dite “générale”.

Une IA désormais capable de traiter les images

En plus de la voix, ChatGPT se dote également de capacités de recherche multimodales. Désormais, les utilisateurs pourront importer des images dans une conversation pour qu’elles soient analysées par l’IA. Le but est d’offrir des réponses plus précises aux questions posées.

Il sera par exemple possible de soumettre une photo du contenu de son réfrigérateur pour avoir des idées de repas, ou encore envoyer une photo d’un problème de mathématiques pour obtenir de l’aide. Les possibilités sont nombreuses.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Avec ces nouvelles fonctionnalités plus interactives, OpenAI cherche à rattraper son retard sur ses concurrents, Bing Chat et Bard, qui ont tous les deux introduit des innovations similaires cet été.

Discuter à voix haute avec ChatGPT, c’est maintenant possible

Cinq voix différentes

Une IA désormais capable de traiter les images

Les géants de la tech chinois et américains main dans la main pour l’établissement de normes sur l’IA

La collaboration entre Microsoft et OpenAI ne poserait pas de problème de concurrence pour la Commission européenne

Adobe travaille sur la génération de contenus vidéos grâce à l’IA

OpenAI débarque au Japon avec un modèle GPT-4 adapté à la culture locale dans ses valises

OpenAI n’hésite pas à marcher sur les plates-bandes de Microsoft pour attirer des clients

ChatGPT-4 Turbo promet des conversations plus naturelles