Après avoir développé une IA capable de réaliser des animations faciales à partir de données audio, Microsoft travaille sur l’analyse des images. Les scientifiques s’arrachent les cheveux sur cette question : comment permettre à une intelligence artificielle de déchiffrer une image ou de répondre à des questions écrites ? Microsoft pourrait bien avoir trouvé un début de réponse.

L’IA apprend de la même manière que les humains

En effet, l’intelligence artificielle développée par une équipe de chercheurs de l’entreprise est capable de répondre à des questions écrites ou de sous-titrer une image. Nous connaissons tous les assistants vocaux capables de répondre aux questions que nous posons de manière orale. Pourtant, la tâche se complique quand on enlève une composante de cette équation : la voix.

De fait, il est encore très difficile pour une intelligence artificielle d’analyser et de comprendre une question écrite. La compréhension dans ce format prend généralement beaucoup plus de temps et coûte plus cher. Pourtant, Microsoft semble avoir trouvé de premières pistes pour faire progresser la recherche. Ils ont conçu un système d’intelligence artificielle qui s’entraîne en analysant le texte et l’image d’une illustration en imitant la manière dont les humains améliorent leur compréhension du monde.

Les chercheurs ont développé un modèle de pré-entraînement en langage visuel, aussi appelé VLP. Ce dernier est capable de générer des descriptions d’images, mais aussi de répondre à des questions posées de manière écrite. Ils sont convaincus que cette intelligence artificielle pose les bases d’une nouvelle méthode qui serait un jour capable de permettre la parité entre la machine et l’Homme

Une architecture pour améliorer la compréhension de l’IA

Pour Hamid Palangi, chercheur chez Microsoft et auteur principal de cette étude : « donner un sens au monde qui nous entoure est une compétence que les êtres humains commencent à acquérir dès leur plus jeune âge… Plus nous interagissons avec notre environnement physique, mieux nous comprenons et utilisons le langage pour expliquer les éléments qui existent et les choses qui se passent dans notre environnement. Pour les machines, la compréhension des scènes et la compréhension du langage sont assez difficiles à perfectionner ».

L’équipe a cherché à surmonter les problèmes rencontrés par l’intelligence artificielle en créant une architecture comprenant un codeur et un décodeur (qui convertit les représentations du codeur en informations interprétables par l’homme). Ils disent que ce système a permis de mieux aligner les représentations des codeurs et des décodeurs.

Concrètement, ils ont utilisé le même modèle pour des objectifs différents comme le sous-titrage d’images et la réponse visuelle aux questions. Hamid Palangi ajoute que : « grâce à la conception intelligente de modèles et à la sélection intelligente de données, nous pouvons capitaliser sur les ressources publiques existantes pour atteindre des sommets encore plus élevés dans la compréhension du langage et des scènes, comme en témoigne le VLP ».