Dans un billet de blog publié le 13 octobre, Facebook présente un modèle d’intelligence artificielle capable de prédire ce qui va se produire grâce à une vidéo. Baptisé Anticipative Video Transformer (AVT), il pourrait très bien être intégré, à terme, dans des lunettes de réalité augmentée.

Une approche innovante

Comme l’explique l’entreprise, la plupart des approches dans le secteur de l’IA pour anticiper les actions peinent encore à prédire sur plusieurs séquences. C’est pour cela que l’AVT a été pensé pour fonctionner en deux temps au même moment, lui permettant ainsi de ne pas oublier le passé car il n’a pas à traiter les informations de manière séquentielle. Facebook explique :

« Nous entraînons le modèle à prédire les actions et les caractéristiques futures en utilisant trois pertes. Premièrement, nous classons les caractéristiques de la dernière image d’un clip vidéo afin de prédire l’action future étiquetée ; deuxièmement, nous régressons la caractéristique de l’image intermédiaire par rapport aux caractéristiques des images suivantes, ce qui entraîne le modèle à prédire ce qui vient ensuite ; troisièmement, nous entraînons le modèle à classer les actions intermédiaires ».

Grâce à cette approche, le modèle prédit les actions futures de 10 à 30 % mieux que les modèles formés uniquement avec une attention bidirectionnelle. Elle offre par ailleurs à l’IA une plus grande adaptabilité pour les prédictions à longue portée. En outre, cette dernière améliore ses performances au fur et à mesure que du contexte est incorporé à son modèle.

Différentes images permettant à une IA de prédire une action.

Ici, le modèle encode d’abord les caractéristiques visuelles de l’ouverture du robinet, puis celles de chaque tomate en train d’être lavée, et enfin prédit que la prochaine action sera de fermer le robinet. Image : Facebook

Quels usages ?

Facebook ne tourne pas autour du pot quant aux usages possibles pour son IA : « L’AVT pourrait être particulièrement utile pour des applications telles qu’un « coach d’action » en réalité augmentée ou un assistant personnel, en avertissant une personne qu’elle est sur le point de commettre une erreur dans l’accomplissement d’une tâche ou en réagissant à l’avance avec un message utile pour l’étape suivante. Par exemple, l’AVT pourrait avertir une personne que la casserole qu’elle s’apprête à prendre est chaude, en se basant sur les interactions précédentes de la personne avec la casserole ». L’IA pourrait également être utile en donnant des conseils lors du changement d’un pneu ou de l’assemblage d’un meuble, par exemple.

Bien sûr, le modèle n’en est encore qu’à ses balbutiements et il y a encore du chemin avant qu’il soit incorporé à une technologie, mais il y a déjà fort à parier que Facebook cherchera à implémenter un dispositif similaire dans ses lunettes de réalité augmentée, sur lesquelles ses chercheurs et ingénieurs travaillent actuellement. L’AVT nous laisse ainsi entrevoir à quoi pourraient ressembler les expériences et les possibilités offertes par les lunettes de réalité augmentée, qui devraient se démocratiser vers la fin de cette décennie.