Une équipe de chercheurs du CSAIL au MIT a développé une IA capable d’identifier des objets présents sur une image à partir d’une description de celle-ci. En temps réel, le système met en exergue les éléments qui sont décrits.

L’IA qu’ils ont créé a une approche opposée aux technologies de reconnaissance vocale actuelles : elle ne nécessite pas de travail manuel en amont. Ainsi, elle apprend directement les mots depuis les extraits de voix ainsi que les objets présents sur une image. Ensuite, elle est capable de les associer.

Par exemple, une fois entraînée, vous pourrez lui demander de décrire une table, un cheval, ou une montagne. Cependant, le modèle actuel ne possède que quelques centaines d’objets dans sa base.

Dans le futur, les chercheurs du MIT espèrent pouvoir intégrer leur association de reconnaissance vocale et de reconnaissance d’objets dans des systèmes communs, ou d’en créer à partir de leur technologie. Leur idée permettrait alors d’économiser de longues heures de travail manuel, tout en créant de nouvelles possibilités.

« Nous voulions faire de la reconnaissance vocale d’une manière plus naturelle, en exploitant des signaux et des informations supplémentaires que les humains ont l’avantage d’utiliser, mais auxquels les algorithmes d’apprentissage automatique n’ont généralement pas accès. Nous avons eu l’idée de former un modèle d’une manière semblable à celle de faire découvrir le monde à un enfant et de raconter ce que l’on voit… » a précisé David Harwath un des chercheurs de l’équipe.

Dans leur article, les chercheurs ont présenté une application avec la photo d’une jeune fille en train de regarder dans une longue-vue, avec un phare en arrière-plan. Le système a appris à associer les zones de l’image qui correspondaient au phare, à la jeune fille, à ses vêtements, etc. Lorsqu’un de ces éléments est dicté à voix haute, l’IA le fait ressortir.

Cette IA identifie les objets que vous lui décrivez

Image utilisée par les chercheurs

« C’est un peu comme le Big Bang, où la matière était vraiment dispersée, mais ensuite fusionnée en planètes et étoiles. Les prédictions commencent à se disperser partout, mais au fur et à mesure de la formation, elles convergent vers un alignement qui représente des fondements sémantiques cohérents entre les mots prononcés et les objets visuels. »

Si l’on se projette, les chercheurs du MIT nous livrent une autre application qu’une simple intégration dans d’autres systèmes. Par exemple, aider à créer des identifications pour l’ensemble des langages du globe, et non plus la petite centaine actuellement proposée dans les projets d’étude. « Si le modèle apprend les signaux vocaux de la langue A qui correspondent aux objets de l’image, et apprend les signaux de la langue B qui correspondent à ces mêmes objets, il pourrait supposer que ces deux signaux – et les mots correspondants – sont des traductions l’un de l’autre. » De quoi internationaliser rapidement un outil vocal.

Il y a encore un gros travail pour faire évoluer le système élaboré par les chercheurs du MIT, mais il n’en est pas moins intéressant de souligner leur travail. Prendre les problématiques des reconnaissances vocales ou des reconnaissances d’objet à l’envers ouvre de nouveaux champs. On aime !