Le 11 octobre 2023, la Commission nationale de l’informatique et des libertés (CNIL), a lancé une consultation sur le développement des intelligences artificielles (IA). 43 sociétés y ont répondu et ce lundi 8 avril, elle a publié ses premières recommandations. À travers 7 fiches, l’institution éclaire le cadre juridique et donne de bonnes pratiques. Il s’agit d’aider les professionnels à concilier développement d’une IA et respect du règlement général sur la protection des données (RGPD). Elle souhaite montrer que ce dernier ne freine pas l’innovation.

Le premier conseil de la CNIL : définir une finalité

La CNIL a tenu compte de l’AI Act, l’encadrement européen de la technologie, qui devrait être prochainement adopté. Pour développer et former une intelligence artificielle, d’incroyables quantités de données sont utilisées. Des données pouvant avoir un caractère personnel, sensible. La première fiche incite à définir un objectif précis derrière la création d’une IA. Cela afin de « limiter les données personnelles que l’on va pouvoir utiliser pour l’entraînement, afin de ne pas stocker et traiter des données inutiles ».

La CNIL a identifié plusieurs cas de figure. L’une de ces situations concerne le développement d’un système d’IA à usage général. Dans un tel cas, difficile de définir la finalité : une IA à usage général n’a pas d’objectif d’utilisation très précis. Pour la définir malgré tout, la CNIL recommande de préciser le type de système développé et ses conditions d’utilisation. Est-ce un grand modèle de langage (LLM) ? Un système de vision par ordinateur ? Un système d’IA générative pour du texte ? La CNIL recommande également de définir les capacités techniques et à risques.

Déterminer les responsabilités, choisir sa base légale

Avec la seconde fiche, la CNIL rappelle que l’acteur développant une IA doit connaître très précisément ses responsabilités vis-à-vis du RGPD. Deux statuts sont possibles. Le premier, c’est le responsable du traitement (RT). Le RT choisit pourquoi utiliser les données personnelles et comment. Le deuxième statut est celui de sous-traitant (ST). Ce dernier traite les données personnelles pour le responsable du traitement. Charge au RT de vérifier que le sous-traitant respecte ses consignes et le RGPD. La CNIL recommande ici de passer par un contrat de sous-traitance sur les données personnelles, censé fixer clairement des exigences. L’AI Act définissant également deux statuts, il est nécessaire de tenir compte des deux règlements pour déterminer les responsabilités de chacun durant le processus de développement d’une IA.

Dans sa troisième fiche, la CNIL rappelle que le développement d’une IA doit se faire selon une « base légale ». Le RGPD en définit six. Chacune entraîne des responsabilités et des obligations différentes, et autorise à traiter certaines données. L’institution recommande de « la déterminer en amont et de l’indiquer dans la politique de confidentialité des données ». Par exemple, l’une des bases légales est le consentement. Elle convient parfaitement si, pour développer une IA, les données recueillies le sont directement auprès des personnes concernées, et que ces dernières peuvent accepter ou refuser. Toutefois, cette base légale semble peu appropriée pour l’IA. La quantité de données nécessaire est généralement trop importante et elles sont souvent disponibles en ligne. Dans le cas de l’utilisation d’une base de données open source, difficile de contacter directement les personnes concernées et de leur demander leur consentement. Dans ce cas, la poursuite de l’intérêt légitime pourrait se révéler la base légale la plus appropriée.

Minimisation et légalité de la réutilisation des données personnelles

Il peut arriver qu’un acteur développant une IA souhaite réutiliser une base de données personnelle. La CNIL pousse alors à s’assurer que cette nouvelle utilisation est licite. Cela dépend des modalités de collecte et de la source de ces données. « Vous pouvez vouloir réutiliser les données que vous avez initialement collectées pour un autre objectif. Dans ce cas, si vous n’aviez pas prévu et informé les personnes concernées de cette réutilisation, vous devez vérifier que ce nouvel usage est compatible avec l’objectif initial », détaille la CNIL. Pour cela, un « test de compatibilité » doit être effectué. Si les données réutilisées sont open source, elle recommande une « analyse au cas par cas » afin de s’assurer que la création de la base de données concernée n’est pas illégale. Plusieurs éléments permettent de s’assurer qu’elle est légale. L’organisme derrière la mise en ligne de la base de données est censé s’être assuré « que cette publication respectait le RGPD, et en est donc responsable ».

La cinquième fiche – ou étape – de la CNIL a été baptisée minimisation. Les données personnelles utilisées doivent être « adéquates, pertinentes et limitées à ce qui est nécessaire au regard de l’objectif défini ». Elle renvoie donc à la première fiche sur la définition de la finalité. L’autorité administrative insiste sur le respect de ce principe, surtout lorsque les données utilisées sont sensibles, comme des données de santé. Elle recommande de ne pas utiliser systématiquement l’apprentissage automatique et d’avoir recours au moins de données personnelles possible. Cela permet de réduire les risques. Autres bonnes pratiques mises en avant : mener une étude pilote à petite échelle, avec des données fictives et anonymisées, ainsi que le recours à un comité éthique.

Définir une durée de conservation et réduire les risques

L’avant-dernière fiche a trait à la durée de conservation des données. Le RGPD impose une durée maximale de détention. Au bout d’un certain temps, les données utilisées doivent être supprimées ou archivées. Une durée de conservation de ces données doit donc être définie dès la phase de développement.

Enfin, la CNIL a dédié une fiche à l’analyse d’impact sur la protection des données (AIPD). Cette démarche permet d’évaluer les risques pour la protection des données personnelles et d’établir « un plan d’action pour les réduire à un niveau acceptable ». En d’autres termes, cela aide à définir des mesures de sécurité. La CNIL a dressé une liste de 5 critères, si au moins 2 sont remplis, alors elle recommande « fortement » de mener une AIPD lors du développement d’un système d’IA. Parmi ces critères, certains sont presque inévitables, tels que la collecte de données sensibles ou de données personnelles à grande échelle. L’AIPD doit être réalisée, même si aucun critère n’est rempli, pour les systèmes classés à haut risque par l’AI Act.

Ces premières recommandations sont amenées à être enrichies au fil du temps. La rapidité avec laquelle la CNIL les a élaborées démontre néanmoins le questionnement d’une partie de l’industrie de l’IA sur la façon de respecter le RGPD et l’AI Act sans freiner l’innovation. Cela illustre aussi toute la complexité derrière l’utilisation des données personnelles pour former des intelligences artificielles, et de la nécessité ou non du consentement.