Facebook et l’intelligence artificielle, c’est une histoire qui avance plutôt vite. Le 5 février, les chercheurs de Facebook ont dévoilé une nouvelle technique d’empreinte numérique qui doit permettre aux développeurs de savoir si un modèle d’apprentissage automatisé a été formé à partir d’images déjà étiquetées.

Une nouvelle méthode de vérification des données “radioactives”

La nouvelle méthode développée par les chercheurs de Facebook permet aux développeurs de savoir exactement quelles images issues d’un ensemble ont été utilisées pour former un modèle d’apprentissage automatique. Les chercheurs ont appelé la méthode de vérification des données radioactives “car elle est analogue à l’utilisation de marqueurs radioactifs en médecine : des médicaments tels que le sulfate de baryum permettent aux médecins de voir plus clairement certaines conditions sur des tomodensitogrammes ou d’autres examens radiographiques”.

Concrètement, en apportant des modifications imperceptibles aux images, les chercheurs ont pu effectuer de minuscules changements. Par la suite, cela a permis aux équipes de faire correspondre les modèles avec les images utilisées pour les former.

Plus en détail, le fonctionnement de l’approche est le suivant : une photo est prise, et est ajoutée à votre bibliothèque d’images. Elle est alors considérée comme originale et en porte l’étiquette. Par ailleurs, si une photographie préfiligranée est étiquetée grille-pain, alors il faudra que l’image globale soit aussi étiquetée grille-pain, de façon à ce que le mot clé soit retrouvé dans l’ensemble des données.

Supposons ensuite que quelqu’un ait accès à ces images et que la personne s’en serve pour forme un système de classification d’images. Lorsqu’une intelligence artificielle verra une image, elle pourra prédire comment l’humain étiquettera cette image. Si vous rencontrez ce système d’intelligence artificielle, plus tard, et que vous reconnaissez vos images, vous pourrez observer vos images en filigrane dans le système et là, il sera indiqué si le système a été formé à l’aide d’images déjà étiquetées. Le marquage par étiquette est retranscrit par de légères perturbations grisées.

Facebook ne sait pas encore s’il partagera sa technique

L’équipe de chercheurs a d’ores et déjà testé sa technique sur ImageNet, une base de données comportant plus de 14 millions d’images. Les chercheurs ont remarqué qu’il était possible de détecter l’utilisation de données radioactives avec une grande confiance dans un modèle particulier, même lorsque seulement 1% des images a été étiqueté. Facebook a par ailleurs déclaré qu’il pourrait partager le code de sa technique de données radioactives, mais il n’est pas encore décidé.

À terme, c’est une technologie que le groupe américain pourrait utiliser à contre des entreprises ou des applications dans le même genre que Clearview. En effet, ce dernier s’est servi des photos trouvées sur les réseaux sociaux et plus largement sur le web pour son système de reconnaissance faciale, et celui-ci est notamment utilisé par certaines administrations américaines. Des éléments qui n’ont pas plu aux géants du numérique. Ces derniers se sont empressés de le lui faire savoir