Une équipe de scientifiques du Watson Lab (le laboratoire d’intelligence artificielle au sein duquel des équipes du MIT et d’IBM collaborent) travaille sur une méthode capable d’améliorer l’interprétation IA des vidéos du monde réel, de manière bien plus rapide qu’avec les modèles qui existent à ce jour.

Accélérer le processus d’interprétation

Le MIT-IBM Watson Lab estime que ce système pourrait permettre à l’IA d’aller au-delà de toutes les utilisations que nous connaissons aujourd’hui. La reconnaissance faciale est de plus en plus présente dans notre quotidien. La France réfléchit même à imposer cette technologie pour que demain, nous puissions accéder aux services publics. Cette technique permet d’identifier des personnes, certes, mais le système sur lequel les chercheurs travaillent actuellement pourrait en améliorer les performances sur les appareils mobiles par exemple.

En effet, les chercheurs tentent de réduire la puissance de calcul nécessaire à l’interprétation des vidéos. Actuellement, grâce au machine learning, nous pouvons identifier des visages, améliorer l’imagerie médicale et réaliser de nombreuses actions. Pourtant, l’interprétation des vidéos reste un point noir pour les spécialistes du domaine. En effet, les modèles d’IA existants qui permettent l’analyse des vidéos sont souvent très lents. Le Watson Lab a réussi à développer une méthode qui réduit drastiquement la taille de ces modèles.

Un décalage temporel permet cet exploit

Pour parvenir à des tels résultats, l’astuce utilisée par les chercheurs consiste à modifier la façon dont les modèles IA de reconnaissance vidéo perçoivent le temps. Les membres du Watson Lab ont conçu un module de décalage temporel, qui donne au modèle un sens du temps qui passe sans le représenter explicitement. Les tests réalisés par les chercheurs montrent que la méthode développée est capable de former une intelligence artificielle à la reconnaissance vidéo 3 fois plus vite qu’avec les méthodes existantes.

Song Han, chercheur au MIT explique que : “le module de décalage temporel sur lequel nous travaillons pourrait faciliter l’exécution des modèles de reconnaissance vidéo sur les appareils mobiles. Notre objectif est de rendre l’intelligence artificielle accessible à tous. Demain, n’importe quel propriétaire d’un appareil mobile pourrait utiliser notre système. Pour cela, nous cherchons à concevoir un modèle d’intelligence artificielle efficace et qui consomme moins d’énergie”.