L’intelligence artificielle fait des prouesses. De nombreux chercheurs lui trouvent de plus en plus d’utilité, quel que soit le domaine testé. Cette fois-ci, une équipe de recherche de l’Université du Zhejiang et le Fuxi AI Lab de NetEase, a mis au point un système très intéressant, qui permet de générer une animation faciale à partir d’une piste audio. Leur innovation s’appelle Audio2Face et pourrait s’avérer très utile pour les professionnels de l’animation.

À partir du schéma inverse, il y a quelques semaines, Google dévoilait une intelligence artificielle capable de créer un poème à partir d’un simple visage. PoemPortraits, un projet qui puise son inspiration dans un réseau neuronal constitué de milliers de poèmes du 19e siècle, près de 25 millions de mots, pour être précis. L’application vous demande le mot de votre choix, à partir de ces deux éléments, l’IA fait un savant mélange et crée votre « portrait poème ». Croyez-nous, aussi étrange que cela puisse paraître, ça vaut le coup de prendre quelques minutes pour tester cette plateforme.

De leur côté, les chercheurs à l’origine de cette nouvelle intelligence artificielle, capable d’animer un visage à partir d’une piste audio, expliquent que : « notre approche dépend exclusivement d’une piste audio, il n’y a aucune autre entrée auxiliaire, comme les images. Par conséquent, l’animation des visages est assez difficile à réaliser. L’autre défi est que les mouvements faciaux impliquent des activations multiples de régions corrélées sur la surface géométrique d’un visage. Nous devons pourtant réussir à générer des mouvements réalistes chez nos avatars ».

Une IA génère des animations à partir de la lecture d'un texte.

Schéma de fonctionnement de l’intelligence artificielle.

Les chercheurs ont à tout prix voulu respecter deux critères essentiels : leurs avatars devaient garder une certaine vivacité et s’adapter en temps réel. À ce propos, le système d’intelligence artificielle créé par cette équipe ne prend en moyenne, que 0,68 millisecondes pour extraire les données d’une piste audio, et la traduire en mouvements. L’une des grandes difficultés résulte dans le clignement des yeux des avatars. En effet, ce mouvement ne résulte pas de la parole, il est donc difficile à appréhender pour l’IA.