L'un des grands défis dans le domaine de l'IA est la réalisation d'un système intégrant une intelligente artificielle générale, ou IAG. Un tel système doit pouvoir comprendre et maîtriser toute tâche dont un être humain serait capable. Or, cette semaine, le laboratoire de recherche DeepMind vient justement d'annoncer la sortie de Gato, une IA susceptible d'apprendre et de gérer des centaines de tâches, rapporte Techcrunch.

Une IA plus polyvalente que jamais

Pour être exact, Gato est en mesure de mener à bien 604 missions très distinctes : sous-titrer une image, engager un dialogue, empiler des caisses à l'aide d'un bras-robot, jouer à d'anciens jeux Atari... L'appareil serait capable de réaliser des actions très différentes, alors que les exemples récents, comme celui d'Ithaca, se concentraient sur un type de tâches bien spécifiques.

Dans la même catégorie

Bien que les intelligences artificielles générales soient longtemps restées de l'ordre de la science-fiction, Gato n'est pas le premier en son genre. Google a commencé à utiliser dans son moteur de recherche un modèle unifié multitâche (ou MUM) capable d'interpréter à la fois du texte, des images et des vidéos, afin de réaliser plus efficacement une tâche. Dans le cas présent, d'affiner ou de corriger un champ de recherche. Du point de vue de l'architecture logicielle, Gato n'est d'ailleurs pas très différent de ses prédécesseurs.

La différence, comme le souligne Jack Hessel, un chercheur de l'institut d'IA d'Allen, réside plutôt dans la diversité des entrées que Gato peut interpréter et des tâches qu'il peut effectuer. Comme d'autres systèmes d'intelligence artificielle avant lui, il a appris en se basant sur des milliards de mots, d'images d'environnements réels ou simulés, mais aussi de pressions sur des boutons ou même de symboles. Une caractéristique offrant une plus grande polyvalence au système, les interactions entre ces différents types d'entrées démultipliant le nombre de services possibles.

Une intelligence humaine « probablement pas pour tout de suite »

Selon Jack Hessel, « nous avons déjà eu les preuves que des modèles uniques peuvent gérer des entrées étonnamment diverses. À mon avis, la question centrale en matière d'apprentissage multitâche est de savoir si ces tâches se complètent ou non. »

Cela dit, le système reste à perfectionner, avec des erreurs grossières. Lors d'une conversation, Gato précise que la capitale de la France est Marseille. Les empilements de boîte ne sont pas toujours parfaits, tout comme le sous-titrage des images. Pourtant, DeepMind affirme que dans 450 de ces tâches, Gato serait plus efficace qu'un expert plus de la moitié du temps.

De son côté, le professeur adjoint d'information à l'université d'Alberta, Matthew Guzdial, reste sceptique. Pour lui, « les gens qui disent que c'est une étape majeure vers l'IAG le surestiment quelque peu, car nous ne sommes toujours pas à l'intelligence humaine et nous n'y arriverons probablement pas tout de suite, à mon avis. Personnellement, je suis plutôt dans le camp de nombreux petits modèles, mais il y a certainement des avantages à ces modèles généraux en termes de performances sur des tâches en dehors de leurs données de formation. »