Meta a présenté, le 29 septembre, son nouveau projet d’intelligence artificielle (IA) « Make-A-Video ». Ce dernier permet de générer une courte vidéo à partir d’une phrase ou d’un texte. Il vient compléter les recherches de Meta sur l’élaboration d’images par le biais de l’intelligence artificielle. Pour l’instant, « Make-A-Video » est en phase d’expérimentation et est indisponible au grand public.

De la génération d’images à la génération de vidéos

Après avoir sorti « Make-A-Scene », une IA de génération d’images, en juillet dernier, Meta a décidé de monter la difficulté d’un cran et de s’attaquer à la génération de vidéos. Mark Zuckerberg écrit qu’« il est beaucoup plus difficile de générer des vidéos que des photos, car, en plus de générer correctement chaque pixel, le système doit également prédire leur évolution dans le temps ».

Pour créer ces vidéos d’une longueur maximale de 5 secondes, l’IA a été entraînée par un réseau de 10 millions de vidéos. Une première base de données lui permettait de savoir le nom de n’importe quels objets tandis qu’une seconde lui enseignait comment ceux-ci sont supposés se déplacer.

Un bébé panda qui fait de la balançoire

Pour obtenir ce résultat, « Make-A-Video » a appris à quoi ressemblait un panda, comment se comporte un bébé dans une balançoire et comment cette dernière bouge dans l’espace. Vidéo : Meta.

S’il est évident que ces films ont été élaborés par une intelligence artificielle, les premiers résultats sont prometteurs. Tanmay Gupta, un chercheur en vision artificielle à l’Allen Institute for AI, a fait remarquer au magazine américain MIT Technology Review que « Make-A-Video » a une bonne notion de la profondeur et de la lumière. Il nuance tout de même en expliquant « qu’il reste beaucoup de progrès à faire, surtout si ces systèmes doivent être utilisés pour le montage vidéo et la création de contenu professionnel ».

4 vidéos générées par l'IA

Des exemples de vidéos générées par l’IA à partir d’une phrase. Vidéo : Meta.

Quels dangers pour ces IA de génération ?

Entre Dalle-E et Midjourney, l’utilisation de l’IA pour produire des images continue de gagner en popularité depuis le début de l’année. Cependant, alors que ces technologies se développent de plus en plus vite, des inquiétudes commencent à apparaître. Ces craintes concernent notamment l’utilisation de « Make-A-Video » à des fins de désinformation ou de propagande.

Anticipant ces interrogations, les chercheurs de Meta ont indiqué (PDF) avoir retiré tous les mots ou les images à caractères offensants. Un porte-parole de l’entreprise a par ailleurs déclaré que « dans le cadre de la recherche de “Make-A-Video”, nous continuerons à explorer les moyens d’affiner et de réduire les risques potentiels ».