Dans le cadre d’un projet universitaire, deux étudiants de l’Université d’Harvard ont conçu un outil capable de parcourir de vastes ensembles de données de consommateurs lorsque celles-ci sont exposées à des brèches. Ils démontrent ainsi que malgré des éléments anonymisés, il est possible d’identifier des utilisateurs sans trop de difficultés. Ainsi, ils répondent aux faux propos de certaines entreprises, prétendant notamment que les données anonymisées stockées sont sécurisées.

Un outil capable d’analyser de grands ensembles d’informations

Dasha Metropolitanslo et Kian Attari, deux étudiants en ingénierie et en sciences appliquées ont développé un outil en mesure d’analyser de nombreuses données. Dans un communiqué de presse, les étudiants ont détaillé un peu plus le fonctionnement de leur outil et ont indiqué que “le programme prend une liste d’informations personnellement identifiables, comme une liste d’adresses mails ou de noms d’utilisateur, puis il recherche parmi les fuites toutes les données d’identification qu’il peut trouver pour chaque personne”.

L’outil développé a d’ores et déjà permis d’analyser des milliers d’ensembles de données, notamment des informations liées au piratage d’Experian en 2015, ou encore celles de MyHeritage. Parmi les informations analysées, nombreux étaient les éléments censés être anonymisés, mais les deux étudiants ont déclaré que l’identification des utilisateurs n’avaient pas vraiment été compliquée.

Une fuite de données est impuissante, mais plusieurs peuvent avoir un impact important

Dasha Metropolitansky a déclaré “une fuite individuelle est comme une pièce de puzzle. À elle seule, elle n’est pas particulièrement puissante, mais lorsque plusieurs fuites se rencontrent, elles peuvent alors former une image très claire de nos identités”. Et en effet, tandis que certaines entreprises vont stocker les informations de base quant à notre identité, d’autres vont par exemple garder en mémoire notre historique de navigation. Le tout rassemblé peut dévoiler beaucoup de choses à propos d’une personne.

Selon les deux étudiants, des données anonymisées peuvent aisément être liées à des données qui ne le sont pas. Facebook, par exemple, reçoit des données anonymisées car sensibles et d’autres qui ne le sont pas. Les deux jeunes pensent également que le public sous-estime considérablement l’impact sur la vie privée et la sécurité qu’ont ces fuites, piratages et violations.

Malgré les alertes, Metropolitansky et Attari ont finalement relevé que la majorité du public n’écoutait pas les avertissements : avec leur outil et en se basant sur l’observation de 96 000 mots de passe, seuls 26 000 étaient uniques. Et les enjeux liés à cela sont importants, surtout aux États-Unis, car il n’existe pas de loi liée à la vie privée sur Internet. Ainsi, lorsqu’une entreprise ne respecte pas ses engagements, en matière de protection de données et de sécurité, les sanctions sont bien trop souvent légères.