Sans le vouloir, Microsoft a exposé une énorme quantité de données sur internet au travers d’un référentiel public GitHub entre le 20 juillet 2020 et le 24 juin 2023. Wiz, une société de cybersécurité spécialisée dans le cloud a alerté le géant technologique, le 22 juin dernier.

Wiz a mis en lumière un incident qui perdure depuis près de trois ans

Ce n’est que trois mois plus tard, le 18 septembre, que l’incident a été rendu public dans un billet de blog publié par Wiz. Comme le précise l’entreprise, « la sauvegarde comprenait des secrets, des clés privées, des identifiants et mots de passe, et plus de 30 000 messages Microsoft Teams provenant de 359 employés Microsoft, » pour un total de 38 téraoctets de données sensibles.

Si le niveau d’accès du référentiel GitHub pouvait bien être limité à certains types de fichier, il a été configuré de telle manière à ce qu’une personne possédant le lien du compte de stockage puisse avoir accès à l’intégralité de son contenu. Pendant près de trois ans, des chercheurs spécialisés en intelligence artificielle de la firme de Redmond ont alimenté le compte sans s’apercevoir que tout ce qu’ils y mettaient pouvait être consulté par n’importe qui.

Outre les données sensibles préalablement évoquées, Microsoft a également dévoilé les données de formation utilisées pour entraîner ses modèles d’intelligence artificielle. Ce n’est que le 24 juin 2023 que le groupe dirigé par Satya Nadella a révoqué l’accès public à ces données confidentielles.

Microsoft assume son erreur et tente de rassurer le grand public

De son côté, Microsoft a également publié un communiqué, déclarant « avoir enquêté dans le but de corriger un incident impliquant un employé de Microsoft qui partageait l’URL du référentiel GitHub public, tout en contribuant à développer des modèles d’apprentissage d’IA open source ». Pour Bloomberg, un porte-parole de Microsoft a déclaré « qu’aucune donnée client n’avait été exposée et qu’aucun service interne n’a été mis en danger ».

Il reste assez surprenant qu’une telle erreur n’ait pas été corrigée bien plus tôt. Pour Wiz, cet incident a mis en évidence les risques associés à la formation des grands modèles d’intelligence artificielle. En impliquant « de vastes ensembles de données sur lesquelles s’entraîner, les équipes de développement génère d’énormes quantités de données en retour qu’ils partagent avec leurs collaborateurs ». Il devient alors de plus en plus compliqué de surveiller ces échanges et transferts, et d’éviter des situations comme celle vécue par Microsoft.