Le 5 janvier 2021, OpenAI a présenté deux systèmes d’intelligence artificielle très innovants. DALL-E, un système capable de générer des images à partir d’un simple texte, et CLIP, un deuxième modèle capable d’apprendre à reconnaître des catégories d’objets très rapidement.

DALL-E : un modèle basé sur GPT-3

Peut-être que votre cerveau avait fait le lien, mais voici l’explication du nom de DALL-E : c’est bien la contraction du nom de l’artiste surréaliste Salvador Dali et du robot WALL-E. Une belle trouvaille qui colle parfaitement à la raison d’être de DALL-E, si tant est qu’il en ait une. Ce modèle d’intelligence artificielle a une mission simple : générer une image à partir d’un texte. Si sur le papier cela peut sembler effectivement très simple, c’est pourtant une tâche extrêmement complexe pour un robot.

DALL-E s’appuie sur GPT-3, un modèle de langage développé par OpenAI. La société explique que : « le modèle GPT-3 a montré que le langage peut être utilisé pour ordonner à un réseau de neurones d’effectuer diverses tâches de génération de texte. L’image GPT a montré que le même type de réseau neuronal peut également être utilisé pour générer des images de haute fidélité. Nous étendons ces résultats pour montrer que la manipulation de concepts visuels par le langage est désormais à portée de main ».

Ce modèle a connu un bad buzz monumental cet automne. Alors qu’elle était utilisée comme chatbot médical, l’intelligence artificielle a conseillé à un patient de se suicider… OpenAI avait pourtant prévenu Nabla, la société qui a utilisé GPT-3 dans ce cadre là, en disant que : « la santé se situe dans la catégorie des enjeux élevés car les gens se fient à des informations médicales précises pour prendre des décisions de vie ou de mort, et des erreurs dans ce domaine pourraient entraîner de graves préjudices ».

L’IA est capable de créer des variantes bluffantes

Quoi qu’il arrive, DALL-E ne risque pas de faire de telles erreurs. Du moins, elles n’auront certainement pas les mêmes conséquences. GPT-3 est un modèle initialement créé pour automatiser la rédaction de texte, qui s’appuie sur 12 milliards de paramètres. À partir de quelques mots clés, une image peut être générée. Le modèle s’appuie également sur des centaines de millions d’images et leurs légendes.

DALL-E a par exemple réussi à générer l’image suivante à partir de ce texte : « illustration d’un bébé radis blanc dans un tutu promenant un chien ». Un exemple qui permet de prouver que l’intelligence artificielle est capable d’effectuer des tâches complexes pour illustrer une idée particulièrement tordue. DALL-E a la capacité de manipuler et de réorganiser des objets dans des images générées.

Image générée par DALL-E

Il est intéressant de voir à quel point une simple idée peut permettre à l’intelligence artificielle de générer plusieurs illustrations avec de petites différences. Dans la plupart des tests réalisés, le résultat est assez bon. Néanmoins, nous ne savons pas encore réellement à quoi pourrait servir DALL-E dans le monde réel. Pour cette raison, OpenAI promet d’organiser prochainement une nouvelle conférence pour détailler les objectifs et les applications de sa dernière invention.