Il est actuellement quasi-inévitable d’introduire des biais dans les modèles d’apprentissage automatique, et plus généralement dans ce que nous appelons l’intelligence artificielle (IA).

Surtout en matière de reconnaissance faciale. IBM compte sur une nouvelle base de données d’un million de visages dont les traits sont « plus représentatifs de ceux du monde réel ».

Utilisée pour tout

La reconnaissance faciale est utilisée pour tout, du déverrouillage de votre téléphone à votre porte.
Elle est aussi utilisée pour évaluer votre humeur ou, plus douteux, la probabilité que vous commettiez des actes criminels.

Le problème, c’est que même les meilleurs informaticiens travaillant sur le sujet échouent encore avec certains visages. Certaines couleurs de peau ou certains âges conduisent encore à des bugs désagréables.

Une étude de 2012 montrait ainsi que les algorithmes de reconnaissance faciale du fournisseur, Cognitec, avaient 5 à 10% de performance en moins sur les Afro-américains que sur les visages « caucasiens ». En 2011, les chercheurs ont montré que les modèles développés en Chine, Corée et Japon avaient du mal à distinguer des visages caucasiens de visages d’Asie de l’Est.

En plus, les bugs en matière de reconnaissance faciale font souvent jaser. Et en mal.
Comme cet événement où une femme d’affaires célèbre en photo sur la publicité de l’abribus avait été reconnue et vilipendée publiquement à la place de la véritable fautive qui traversait au feu rouge … devant l’affiche !
Cela a eu lieu en Chine où la prévention routière a recours à de drôles de méthodes : mettre la honte aux contrevenants en place publique. Si en plus, on se trompe de visage… on obtient l’effet inverse : tout le monde a rigolé.

Un problème de données

IBM a publié le 29 janvier des résultats de recherche accompagnés d’un « dataset » (Diversity in Faces), comprenant des méta-données sur 1 million d’images de visages humains. La source de ces visages vient de la base de données publiques (open data) Creative Commons YFCC-100M, compilant des données issues de Yahoo ! et Flickr. En tout 100 millions d’images ont été isolées, recadrées et analysées par IBM.

Destinées aux autres algorithmes

Ces données sont censées être ingérées par d’autres algorithmes d’apprentissage automatique. Elles sont à la fois diversifiées et étiquetées avec précision. Chacun des 1 million de visages de la base est accompagné de métadonnées décrivant des éléments tels que la distance entre les yeux, la taille du front, etc. Toutes ces mesures combinées créent le «masque» qu’un système utiliserait, par exemple, pour faire correspondre une image à une autre de la même personne.

Croisement de méta-données

Mais tous les croisements de méta-données ne sont pas forcément bons pour identifier des personnes, les problèmes étant liés au groupe ethnique donné ou un type d’âge.

L’équipe IBM a donc mis au point un dataset révisé qui comprend non seulement des éléments simples, tels que les distances entre certains traits, mais également la relation entre ces données.
Par exemple, le rapport entre cette surface au-dessus des yeux et cette région au-dessous du nez.

La couleur de la peau, ainsi que le contraste et les types de peaux, sont également inclus.

Le genre et l’âge : une approche intéressante.

Comment identifier le genre de la personne sans se tromper ?
Ce qui est intéressant dans l’approche, c’est que celui-ci ne relève plus d’une logique binaire : 0 ou 1, vrai ou faux, masculin ou féminin.

Il relève au contraire d’une fraction comprise entre 0 et 1. Le genre devient donc une échelle indiquant jusqu’à quel point les individus se présentent comme féminin ou masculin.

L’âge est également automatiquement estimé, mais pour ces deux dernières valeurs, une sorte de «vérification de la réalité» est incluse sous la forme d’un champ «d’annotation subjective» dans lequel il est demandé aux personnes d’étiqueter les visages d’hommes ou de femmes et deviner leur âge.

Coïncidence de l’annonce

Cette base de données est accessible sur simple demande, indique IBM et, coïncidence, cette annonce intervient à peine une semaine après que des chercheurs du MIT ont fait savoir que Rekognition, le système de reconnaissance faciale d’Amazon, a plus de mal à distinguer le genre de la personne parmi certaines ethnies que le font les services concurrents.