Google a officiellement présenté Gemini, son modèle de langage multimodal

Dans un billet de blog publié le 6 décembre, Sundar Pichai, PDG d’Alphabet, la maison mère de Google, et Demis Hassabis, PDG et cofondateur de DeepMind, la branche dédiée à l’intelligence artificielle (IA) du géant technologique, ont présenté Gemini. Ce nouveau grand modèle de langage (LLM) multimodal sera utilisé par la firme de Mountain View pour doper ses outils d’IA générative, et concurrencer les solutions proposées par d’autres acteurs du secteur, comme OpenAI.

Google propose trois versions de Gemini pour répondre à une large palette de besoins

« Rendre l’IA plus utile à tous, » tel est l’objectif de Google. Pour y répondre, le géant de la tech a proposé le grand modèle qu’il va décliner en trois versions. La première, Gemini Ultra constitue la version la plus large et la plus performante du LLM. Le deuxième, Gemini Pro, s’adapte à un large éventail de tâches en fonction des attentes et besoins de ses utilisateurs. Pour terminer, Gemini Nano sera utilisé pour des taches plus spécifiques et pour les appareils mobiles.

« Dès le départ, Gemini a été conçu pour être multimodal. Il peut généraliser, comprendre, fonctionner et combiner de manière transparente différents types d’informations, notamment le texte, le code, l’audio, l’image et la vidéo, » a souligné Sundar Pichai. Selon Google, Gemini Pro serait plus performant que GPT-3,5, mais la société n’a pas précisé si son nouveau modèle était aussi puissant que GPT-4. Pour ce qui est de la version Ultra, la firme de Mountain View a publié un livre blanc expliquant qu’en effectuant ses tests, son LLM aurait dépassé GPT-4 sur certains aspects.

Les équipes de DeepMind ont travaillé durant des mois pour peaufiner son nouveau modèle. Il avait même été envisagé de retarder le lancement de Gemini pour janvier prochain, compte tenu de ses difficultés à répondre à certaines requêtes non anglophones. Finalement, les équipes de développement du modèle ont été plus efficaces que prévu.

À partir du 13 décembre, les clients de l’entreprise pourront accéder à Gemini Pro via l’application Gemini présente dans le Google AI Studio et dans le Google Cloud Vertex AI. Cette version sera aussi incluse dans son moteur de recherche, ainsi que dans le robot conversationnel Bard, qui utilisait jusque-là une version modifiée de LaMDA ainsi que PaLM 2, un autre modèle de langage que le groupe a conçu au cours de l’année.

Les développeurs Android pourront se servir de Gemini Nano pour concevoir leurs outils à destination des appareils connectés. Le modèle Nano sera également inclus dans ses derniers smartphones Pixel 8 Pro afin de proposer de nouvelles fonctionnalités autour de l’IA générative. Enfin, Gemini Ultra sera exploité pour doper une version améliorée de son chatbot, baptisée Bard Advanced pour l’occasion. Ce nouvel outil sera disponible l’année prochaine et sera payant.

Google a officiellement présenté Gemini, son modèle de langage multimodal

Google propose trois versions de Gemini pour répondre à une large palette de besoins

Google se démène pour éviter le procès qui menace son activité publicitaire

Apple prêt à intégrer l’IA dans iOS 18

Propulsé par la publicité et le cloud, Google est sur un petit nuage

Google repousse à 2025 la fin des cookies tiers sur Chrome

Au pied du mur, Google restructure une fois de plus ses équipes d’IA

Dans la course à l’intelligence artificielle, Google va dépenser sans compter