L’utilisation des deepfakes devient de plus en plus commune et représente un fléau contre lequel il n’est pas facile de lutter. Le 17 janvier, Venture Beat a fait part d’une étude réalisée par une équipe travaillant pour le géant de la technologie basé à Hong Kong, SenseTime. Les chercheurs ayant travaillé avec l’Université technologique de Nanyang et de l’Institut d’automatisation de l’Académie chinoise des sciences, ont pu réaliser des vidéos combinant des séquences audio, et des sources vidéo, indépendantes les unes des autres. Si le résultat est impressionnant, il peut toutefois générer quelques inquiétudes étant donné le contexte actuel.

Un contexte particulier qui ne peut être ignoré

Le 11 décembre 2019, Facebook lançait le Deepfake Dectection Challenge, concours dédié à la mise en place de systèmes permettant de détecter automatiquement les deepfakes. Face à un phénomène, qui, au départ ne pouvait s’apparenter qu’à un simple divertissement, l’ensemble des sociétés spécialisées dans la technologie, et des autorités, tentent désormais de prendre des mesures contre les dérives qu’elles peuvent engendrer.

On ne présente plus les deepfakes, principe qui consiste à modifier une vidéo en remplaçant le visage d’une personne par celui de quelqu’un d’autre. Si une application comme Snapchat en a fait une fonctionnalité amusante, il est clair qu’aujourd’hui les deepfakes peuvent désormais être à l’origine de faits préoccupants. Le fléau principal étant bien sûr la divulgation de fausses informations, contre lesquelles plusieurs pays, comme les États-Unis, la France, mais également la Chine tentent de prendre plusieurs mesures. Toutefois le problème est de taille, de par la quantité et la rapidité avec laquelle celles-ci peuvent être déployées.

Si jusque-là les deepfakes sont dans l’ensemble détectables à l’œil nu, quand celles-ci portent sur un sujet sensible ou sur une polémique donnée, les gens sont souvent guidés par leurs convictions, ainsi plus à même de croire ce qui les conforte dans leur croyance, rappelait Andrew Gully, directeur de la recherche technique chez Google.

Aussi, si les recherches présentées par l’équipe de SenseTime sont techniquement impressionnantes, elles pourraient rapidement devenir néfastes, puisque potentiellement réutilisables sous forme de deepfake.

Une prouesse technique qui doit faire l’usage de contrôles

L’entreprise chinoise, fondée en 2014, est désormais bien connue pour son utilisation de l’intelligence artificielle, et de la reconnaissance faciale. Tandis que ces domaines sont largement utilisés en Chine, notamment à travers la mise en place d’une vidéosurveillance généralisée, la société, soutenue financièrement par Alibaba, œuvre aussi à l’extérieur du pays. Voilà un an qu’elle a, par exemple, installé un centre de recherche dédié à la conduite autonome au Japon.

La technique que propose les chercheurs de SenseTime repose sur deux sources différentes, une source audio récupérée indépendamment d’une autre source vidéo. L’équipe dispose d’un système de traduction audio-expression, capable d’établir des paramètres d’expression faciale à partir du discours audio récupéré. Les paramètres sont en même temps combinés à une vidéo neuronale permettant de guider les régions de la bouche censées intervenir au moment de l’élocution du message audio, ainsi que le montre le schéma ci-dessous.

Schéma qui représente la méthodologie utilisée par les chercheurs de SenseTime

Le processus du système schématisé / Crédit : SenseTime – Linsen Song, Wayne Wu, Chen Qian, Ran He, Chen Change Loy.

Afin d’évaluer la qualité des vidéos générées par ce système fondé sur l’utilisation de l’intelligence artificielle, les chercheurs ont testé celles-ci, au travers d’une étude sur internet comprenant 100 participants : 184 vidéos ont ainsi été soumises au regard des gens. La moitié correspondait à des vidéos réelles, et l’autre moitié comprenait celles générées par le système des chercheurs.

Il en résulte que les vidéos « synthétisées », autrement dit synchronisées par l’équipe, ont été jugées réelles à 55%. Résultat plutôt encourageant d’après les chercheurs, qui attribuent leur réussite à la précision de leur système, capable de rétablir des détails comme « la texture des dents et du visage » ou bien encore « les coins de la bouche et les plis nasolabiaux ».

La vidéo synthétisée à partir d'une source audio et d'une source vidéo

Résultat final / Crédit : SenseTime

Les chercheurs ont dès lors pris les devants quant à un détournement possible d’un tel système. Il faut rappeler que les deepfakes sont reconnues comme un crime en Chine. Aussi préconisent-ils la mise en place d’une sauvegarde de ces vidéos synchronisées, afin d’en garder une trace pour les identifier comme telles. D’autre part, ils suggèrent d’imposer un cadre légal d’utilisation de ces vidéos, qui devraient être labellisées selon eux comme des vidéos générées par un système ayant permis de les éditer comme tel.