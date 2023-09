Sur ChatGPT, tout échange avec l’intelligence artificielle (IA) se fait à l’écrit. C’est le cas depuis les débuts de l’agent conversationnel, introduit en novembre 2022. Toutefois, cela va changer. Ce lundi 25 septembre, OpenAI a annoncé que les utilisateurs de son application mobile pourront bientôt converser avec l’IA à voix haute. Elle sera également en mesure d’analyser les images qui lui seront envoyées. Pour le moment, ces nouveautés ne seront accessibles qu’aux souscripteurs de ChatGPT Plus, une version payante du célèbre chatbot.

Pour proposer le chat vocal, OpenAI s’appuie sur plusieurs innovations. Parmi elles, Whisper, un modèle qui transcrit les paroles de l’utilisateur en texte. Un autre modèle de synthèse vocale exprime ensuite les réponses de ChatGPT oralement.

Le défi reste encore d’humaniser le rendu. Pour cela, l’entreprise américaine a développé, avec l’aide de plusieurs comédiens professionnels, cinq voix synthétiques : Sky, Juniper, Cove, Ember et Breeze. Les adeptes du chatbot pourront opter pour celle qui leur convient le mieux. Ainsi, l’IA sera « capable de générer un son de type humain seulement à partir de texte et de quelques secondes d’échantillons de parole ».

Grâce à ces technologies, le chatbot pourra répondre oralement à des questions, lire des histoires, partager des informations sur un sujet… Le tout, sans que l’utilisateur n’ait à taper de longues phrases. L’objectif de cette nouvelle fonctionnalité est non seulement de simplifier le processus d’utilisation de l’outil, mais surtout de rendre l’interaction toujours plus humaine. En outre, elle permet de lever les barrières à l’accessibilité.

La puissance de tels modèles présente toutefois de nombreux risques de dérives et de fraudes, comme l’usurpation d’identité. « C’est pourquoi nous utilisons cette technologie pour alimenter un cas d’utilisation spécifique : le chat vocal », a insisté OpenAI. Le modèle ne sera donc pas disponible pour une utilisation dite “générale”.

En plus de la voix, ChatGPT se dote également de capacités de recherche multimodales. Désormais, les utilisateurs pourront importer des images dans une conversation pour qu’elles soient analysées par l’IA. Le but est d’offrir des réponses plus précises aux questions posées.

Il sera par exemple possible de soumettre une photo du contenu de son réfrigérateur pour avoir des idées de repas, ou encore envoyer une photo d’un problème de mathématiques pour obtenir de l’aide. Les possibilités sont nombreuses.

