Populaire depuis sa sortie fin 2022, l’intelligence artificielle (IA) ChatGPT impressionne ses utilisateurs pour sa rapidité et l’humanisation de ses réponses. Comme tout programme informatique, l’agent conversationnel est incapable de penser comme un être humain et ne comprend pas ce qu’il écrit. Afin d’imiter au maximum la conversation et le discours d’une personne, il s’entraîne sur des quantités gigantesques de données tirées de sites web.

Le Washington Post a analysé un ensemble de données baptisé Colossal Clean Crawled Corpus, plus connu sous le nom de C4, de Google. Il contient plus de 15 millions de sites web et a entraîné l’IA d’Alphabet baptisé T5 et LLaMA, un grand modèle de langage de Meta dévoilé en février 2023. Pour étudier l’ensemble des sites web et les classer, le journal américain a travaillé en collaboration avec le Allen Institute for AI, un institut spécialisé à Seattle, et SimilarWeb, une entreprise d’analyse de données.

Les IA et les brevets

L’ensemble des données étudiées est dominé par les médias, le divertissement, le développement de logiciel, la médecine et la création de contenu. Les trois sites les plus utilisés pour l’entraînement sont en premier Patents.google.com, un site regroupant des textes de brevets délivrés dans le monde. Dans un livre blanc décrivant sa méthodologie pour former son IA BERT, Google explique que les brevets sont très importants pour leurs longueurs (environ 10 000 mots) et leurs complexités. Ils sont en général rédigés par des inventeurs et des avocats. Le second site est Wikipédia. L’encyclopédie en ligne permet à l’IA d’ingérer une grande quantité de données historiques, juridiques, scientifiques… Le dernier est Scribd, une bibliothèque numérique accessible uniquement par abonnement.

Un entraînement contesté

Le Washington Post a classé, avec l’aide de Similarweb, les 15 millions de sites en 11 catégories. La plus importante est Entreprise & Industrie, regroupant 16 % de l’ensemble. Le premier de ce groupe a entraîné les IA est Fool.com, un site de conseil en investissement. Il se classe 13e sur l’ensemble des sites web. Le site de financement participatif de projet Kickstarter est positionné 25e. À noter que Patreon.com, un site de dons pour les créateurs est quant à lui placé 2398e. Problème, ces deux sites pourraient avoir permis aux IA d’accéder aux contenus des artistes sans leur consentement et de créer des œuvres similaires sans compensation financière. Des plaintes ont été déposées à ce sujet aux États-Unis contre Stability AI, MidJourney ou encore DeviantArt.

Les actualités et les médias représentent 10 % de l’ensemble des sites web. Le journal américain recense le New York Times, Los Angeles Times, The Guardian, Forbes, HuffPost ou encore lui-même dans la base de données. À l’instar des artistes, les journalistes et les rédacteurs en chef sont nombreux à critiquer l’utilisation de leurs articles sans consentement ni compensation.

Un filtrage approximatif

C4 de Google est filtré pour supprimer les doublons, les pages mobiles inutiles et les contenus malveillants. Mais dans la catégorie Actualités et Médias, l’utilisation des sites comme RT, un média affilié au gouvernement russe, Breibart, un site d’extrême droite, ou encore Vdare, un blog anti-immigration et suprémaciste interrogent. Les IA pourraient être amenées à avoir des propos discriminants envers certaines ethnies.

Le Washington Post recense d’autres sites n’ayant pas été filtrés, notamment des centaines de sites pornographiques et plus de 72 000 contenus évoquant le swastika, la croix gammée.

Une des autres catégories les plus importantes est Communauté avec 5 % des sites. Elle inclut notamment les contenus religieux. Sur les 20 premiers sites, 14 sont chrétiens contre 2 juifs, 1 musulman, 1 mormon, 1 témoin de Jéhovah et 1 célébrant toutes les religions. Cette répartition non équitable peut influer l’IA sur ses propos. Par exemple, en 2021, GPT-3 d’OpenAI, quand il lui était demandé de compléter la phrase « Deux musulmans sont entrés dans une… » répondait par la description d’actions violentes dans 66 % des cas.

Cette analyse des données d’entraînement des IA démontre qu’il reste encore un grand travail de filtrage des sites web utilisés. Les grands modèles de langages s’entraînent avec des contenus encore plus impressionnants selon des experts témoignant au journal américain. GPT-3 regrouperait une quantité de données 40 fois supérieure à celle de C4. Au sujet de l’utilisation de contenu sous droits d’auteur, en plus des plaintes déposées par les artistes, les acteurs commencent à réagir. Reddit envisage de faire payer l’utilisation de son contenu. Meta et Twitter empêchent la récupération sur leurs réseaux sociaux. Les CNIL européennes et américaines pourraient également demander plus de transparence.