« Pour exploiter la puissance des données, nous devons d'abord briser les silos de données. Bien qu'il ne s'agisse pas d'un concept nouveau, la réalisation de cet objectif a été un défi constant dans l'histoire des données et de l'analyse, car son écosystème continue à être complexe et hétérogène », soutient Julia White, la vice-présidente de Microsoft Azure, dans un communiqué, publié le 3 décembre 2020, annonçant le lancement d’Azure Purview.

Rattaché au cloud de Microsoft, Azure Purview agit sur la gouvernance des silos de données - important stockage de données, dans ce cas, en pétaoctet - à différentes étapes. En d’autres mots, Azure Purview permet centraliser la gestion d’un grand volume de données, de nature variable, et de les répertorier automatiquement. Le tout vise à classer et cataloguer les données d’une organisation, qu’elles soient stockées sur un site internet, dans un cloud, sur un data center interne, sur des applications SaaS, ou encore dans Microsoft Power BI. En outre, Azure Purview apporte un historique détaillé sur chaque base de données, et gère les droits d'accès. Pour le moment, il est uniquement compatible avec les solutions Azure. Dès février 2021, il le sera avec d’autres fournisseurs cloud.

Grâce à l’intelligence artificielle, Azure Purview recherche automatiquement les informations d'identification personnelle, soit un ensemble de données qui permettent d'établir l’identité d’une personne physique ou morale. Azure Purview identifie également les données sensibles et non conformes, et respecte donc le règlement général sur la protection des données (RGPD). Il est intégré à Microsoft Information Protection, ce qui signifie qu’il respecte les règles du centre de conformité de Microsoft 365. La protection des données est un des enjeux centraux qui a fait naître ce projet, tout comme le recensement des données qui fait face à un accroissement de leur nombre et de leurs traitements.

« Nous pouvons prévoir si la livraison sera perturbée par les conditions météorologiques ou par la circulation, et remédier à cette perturbation »

Azure Purview se base sur Azure Synapse, une plateforme qui mêle de l’intégration de données, de l'analyse et du stockage. Azure Synapse a été conçue pour traiter des bases de données aux formats hétérogènes, et issues de sources différentes, parfois incompatibles entre elles. L’objectif est de réduire les ‘data lakes’, une méthode de stockage massif de données ayant subi peu, ou pas, de transformation, et qui a été poussée par l’usage cloud. En permettant d’identifier des données issues de sources différentes, Azure Purview s’inscrit dans la suite logique d’Azure Synapse.

Lancé il y a un an, Azure Synapse est actuellement utilisé par le service de livraison FedEx. L’entreprise s’est d’ailleurs appuyée sur cette technologie pour créer FedEx Surround, une plateforme de suivi logistique qui traite chaque jour 16 millions de colis, dont chacun fait l’objet d’au moins 10 scans, et qui croise, entre autres, des données météo et de trafic routier pour optimiser les livraisons. « Quand FedEx achemine des envois de valeur dans le monde, souvent, nous pouvons prévoir si la livraison sera perturbée par les conditions météorologiques ou par la circulation, et remédier à cette perturbation en acheminant la livraison depuis un autre endroit », explique Sriram Krishnasamy, vice-président des programmes stratégiques de FedEx. Jusqu’alors réservé à certains clients, Azure Synapse est désormais accessible à l’ensemble des utilisateurs d’Azure.

Né d’un projet interne à Microsoft, l’objectif d’Azure Purview réside dans la diminution de la charge de travail des data scientists. Le but étant qu’ils se consacrent à des tâches ayant une valeur ajoutée. « La prochaine étape concerne davantage les politiques de gouvernance », a déclaré Rohan Kumar, le vice-président de Microsoft Data Azure à Techcrunch.