Google avait prévu plusieurs évènements aux États-Unis courant décembre pour annoncer publiquement le lancement de son nouveau grand modèle de langage (LLM), mais les a finalement annulés. L’entreprise a préféré attendre quelques semaines avant de dévoiler Gemini, son intelligence artificielle (IA) dotée de « capacités multimodales impressionnantes » selon ses dires.
Google ne veut pas précipiter les choses avec Gemini
Lors de la sortie de ChatGPT en novembre 2022, Sundar Pichai, PDG du groupe, conscient de passer à côté de quelque chose en matière d’IA générative, avait tiré la sonnette d’alarme. Le dirigeant avait sommé ses collaborateurs de travailler sur un LLM de pointe pour doper un chatbot similaire. C’est ainsi qu’est né Bard, basé sur le modèle de langage LaMDA. Lors du Google I/O 2023 de mai, le géant technologique avait présenté une version plus pointue de son grand modèle d’intelligence artificielle, baptisée PaLM 2, qu’il a rapidement mobilisé pour doper son robot conversationnel.
Inscrivez-vous à la newsletter
En vous inscrivant vous acceptez notre politique de protection des données personnelles.
À l’occasion de son sommet annuel, l’entreprise était allée plus loin, présentant les prémisses de ce que serait Gemini, un modèle de langage plus avancé, capable de rivaliser avec celui de son concurrent OpenAI, GPT-4. En septembre dernier, l’entreprise avait décidé de lancer un programme de test proposant ce LLM avancé à un petit groupe d’entreprises, dans le but de corriger d’éventuelles erreurs et de le lancer d’ici la fin de l’année.
Cette phase d’expérimentation a permis de mettre en lumière un souci majeur. Selon The Information, Gemini avait du mal à répondre aux requêtes n’utilisant pas la langue anglaise. Face à cette difficulté, Sundar Pichai, le PDG du groupe, n’a pas pris de risque et a décidé de repousser sa sortie pour le mois de janvier, le temps que les équipes de DeepMind, la branche de l’entreprise spécialisée dans l’IA, puissent résoudre ce problème.
Pour Demis Hassabis, le cofondateur et dirigeant de DeepMind, Gemini est tout à fait capable de surpasser GPT-4. Lorsqu’il sortira, ce LLM sera capable de gérer un large éventail d’applications et d’utilisations, combinant différents types de données comme du texte, des images ou des vidéos. « Une fois peaufiné et rigoureusement testé pour sa sécurité, Gemini sera disponible en différentes tailles et capacités, » précisait la firme de Mountain View au printemps dernier. Le modèle sera utilisé dans Bard, Google Assistant et dans son moteur de recherche, mais pas avant plusieurs mois.