Des chercheurs d’IBM ont publié un article décrivant Navsynth, le système d’intelligence sur lequel ils travaillent actuellement. Il est capable de générer des vidéos vues lors d’entraînement, ainsi que d’autres, jamais vues. Dans l’article, les chercheurs indiquent que l’approche exploitée n’est pas nouvelle, mais serait d’une meilleure qualité que toutes les techniques connues à ce jour. À terme, le système pourrait permettre de synthétiser des vidéos sur lesquelles d’autres IA s’entraînent.

L’intelligence artificielle d’IBM, différente des autres

Selon l’équipe de chercheurs d’IBM, la majorité des IA qui font des synthèses de vidéos exploitent les GAN, autrement dit les réseaux de neurones. Il s’agit là d’une technique performante qui tente de faire la différence entre les échantillons générés par l’IA et les échantillons naturels. Cependant, le point faible de ce système est “l’effondrement de mode”, il implique le générateur qui ne donne que des échantillons avec une diversité limitée.

Le système d’IBM est dit plus avantageux dans la mesure où il se compose d’une variable qui représente les fonctionnalités du contenu vidéo, il y a une variable spécifique à l’image, un générateur et un modèle d’apprentissage dans le système. Ce dernier découpe les vidéos afin de faire un constituant statique qui lui va capturer la partie constante de la vidéo commune à toutes les images. Le constituant transitoire, lui, capturera toutes les images dynamiques de la vidéo.

Un système qui produit des “vidéos plus attrayantes”

Dans leurs rapports, les chercheurs d’IBM affirment que leur système permet de produire des “vidéos visuellement plus attrayantes”, ces vidéos conserveraient des images plus nettes et donc plus de cohérence avec les images existantes.

Test de l'IA de IBM

Crédits : IBM

Comme c’est illustré ci-dessus, le système exploité par IBM a été entraîné, formé et validé sur trois ensembles différents de données accessibles au public : Chaid-CAD, qui comprend des modèles 3D de chaises, Weizmann Human Action composé de 90 vidéos différentes et une base de données dédiées au Golf, elle contient 20 000 vidéos de cette activité. Face à IBM, DeepMind, qui appartient à Google, peut avoir du souci à se faire…