Nvidia a présenté au début du mois une nouvelle intelligence artificielle destinée aux visioconférences. En partant d’une captation d’un visage dont l’angle ne bouge pas, le programme est mesure de l’animer en 3D et ainsi modifier l’angle du visage.

Cette annonce suit celle du lancement de Maxine plus tôt en octobre. C’est une plateforme lancée par Nvidia avec divers services permettant aux développeurs d’améliorer les traitements de l’image de leurs propres logiciels de visioconférence. Tous se reposent sur des systèmes d’intelligence artificielle pour renforcer les expériences des spectateurs ou des intervenants. On retrouve par exemple un programme qui permet d’améliorer la résolution d’une vidéo, réduire la bande passante, ajouter un fond d’écran virtuel, ou encore faire de la traduction en temps réel. Cette plateforme, tout comme l’usage des outils de visioconférence, est là pour rester. Voilà donc un nouveau produit tout droit sorti des équipes de recherche de Nvidia.

Une fois encore, c’est l’intelligence artificielle qui est mise à contribution. Ici, il s’agit de manipuler un visage pour changer son angle et l’animer. Cela peut sembler complexe, mais il s’agit là de créer des images qui n’existent pas, puisque selon l’angle de captation de l’image, une partie du visage n’est pas montrée.

Pour y arriver, l’outil de Nvidia place des points clés sur le visage du sujet. Au fil de la vidéo, ces points bougent, et un programme est alors en mesure de constituer une version 3D d’une vidéo avec un plan fixe.

Présentation du traitement des images par Nvidia

Les étapes de traitement de l’image sur programme de Nvidia. Image : Nvidia.

Créer des images qui n’existent pas, il faut dire que Nvidia est passée experte en la matière. Déjà en 2018, l’entreprise avait marqué les esprits avec la présentation d’un programme capable de créer des visages qui n’existent pas. Un modèle surprenant, qui peut également s’avérer problématique. Sur une toute autre pratique, elle avait lancé un outil capable de créer des vidéos avec un ralenti plus marqué, en créant les images par secondes supplémentaires nécessaires. Ces deux exemples reposent sur les GAN : generative adversarial networks, ou réseaux adverses génératifs en français. Un système d’apprentissage conceptualisé en 2014 et qui s’avère particulièrement performant dans synthétisation d’images.

En multipliant les services pour sa plateforme Maxine, Nvidia pourrait devenir un fournisseur de taille pour outils comme Microsoft Teams, Google Meet, ou Zoom. L’explosion de l’utilisation de la visioconférence, a ouvert grand la voie à ce type de solution, les protagonistes du secteur cherchant inlassablement à offrir la meilleure expérience possible. Du côté de Nvidia, en plus de la 5G, il s’agira d’un nouveau levier de revenus, déjà en augmentation de 57% au troisième trimestre 2020.