Le défi de ces chercheurs de l’Université de Washington a été la traduction de l’audio en vidéo. Ou plutôt comment obtenir un résultat réaliste de la personne qui parle ? Plus particulièrement, comment rendre la bouche, les lèvres ou la mâchoire réaliste ? L’un des problème auxquels les chercheurs ont été confrontés est ce qu’on appelle uncanny valley, que l’on pourrait traduire vallée de l’étrange, ou que l’on pourrait aussi rapporter au concept d’inquiétante étrangeté développé par Lacan. Ce fameux problème s’appuie sur une théorie du japonais Masahiro Mori, un roboticien qui part du principe que plus un robot androïde ressemble à un être humain, plus ses imperfections paraissent laides à nos yeux. Cette sensation peut apparaitre avec des robots créés pour se fier à l’image humaine, à l’exemple des robots sexuels.

À Washington, une équipe de chercheurs a travaillé sur le sujet et a fait d’énormes progrès. Le sujet de leur test : Barack Obama. Tout simplement parce que ce dernier a été suffisamment médiatisé pour que les chercheurs aient beaucoup de sons et d’images sur lesquels se baser. Leur objectif : créer une bouche artificielle dont les mouvements des lèvres seraient synchronisés avec le son audio (ici, un discours d’Obama). Les chercheurs se sont appuyer sur 14h de vidéos de discours afin de former un réseau neuronal, qui a été utilisé pour que cette bouche puisse se calquer sur un son. Puis, une fois cette bouche artificielle synchronisée avec le son, il a fallu que les chercheurs synthétisent celle-ci avec une bouche réaliste matchant avec celle d’Obama. La bouche artificielle et synchronisée a donc été superposée sur celle d’une vidéo au son différent. Tout ce processus a été automatisé hormis une étape : il a fallu qu’un des chercheurs sélectionne deux images du visage d’Obama où ce dernier avait les dents du haut, puis les dents du bas, visibles. Cette étape a servi, une fois de plus, à apporter encore plus de réalisme au résultat.

Le programme n’est certes pas parfait car il y a parfois quelques petites erreurs, comme l’alignement de la bouche et du visage. Mais le résultat reste tout de même bluffant. La question est de savoir quels seront les champs d’application de cette technique quand celle-ci se démocratisera.

Source : Engadget