Depuis décembre, l’intelligence artificielle (IA) générative a la cote et de nombreuses entreprises de la tech veulent leur part du gâteau. Toutefois, avant d’aboutir à une technologie prête à être commercialisée, plusieurs chercheurs sont chargés de la tester pour prévenir et corriger le maximum de dérives et biais. Au cours de la finalisation de son dernier modèle, GPT-4, OpenAI a formé une « red team », une équipe de personnes dont la mission est d’en trouver les potentielles failles.

Trouver et corriger les biais

Une « red team » est un concept appartenant à de nombreux domaines comme la cybersécurité, le secteur militaire, etc. Le principe est de créer un groupe devant jouer le rôle de la menace pour identifier les points faibles de ses équipements. Dans le cas d’OpenAI, il s’agit d’un groupe chargé de trouver les moyens de faire dire des choses inappropriées, non voulues ou interdites au modèle de langage.

Lors de la présentation de GPT-4, version améliorée de GPT-3.5, en mars dernier, le géant de l’IA annonçait « avoir passé six mois à entraîner GPT-4 en utilisant les leçons tirées de notre programme d’essais contradictoires ». Il s’agissait de la « red team » d’OpenAI composée de 50 académiciens et experts dans de nombreux domaines de l’IA. Ces derniers ont travaillé entre 10 et 40 heures sur les variantes préliminaires du modèle de langage et ont été payés approximativement 100 dollars de l’heure pour leur contribution.

Membre de la « red team », Andrew White, professeur en génie chimique pour l’Université de Rochester, aux États-Unis, a expliqué au Financial Times que leur rôle consistait à « sonder qualitativement et tester de manière contradictoire » le modèle de langage pour en découvrir les failles. À travers leur aide, OpenAI cherchait à pallier différents problèmes tels que la toxicité, les préjugés, mais aussi les biais linguistiques. Pour y parvenir, les scientifiques ont eu recours à la manipulation verbale ou à l’utilisation de connaissances scientifiques dangereuses.

ChatGPT est la cible de nombreuses critiques depuis son lancement. Le modèle de langage qu’il utilise, GPT-3.5, comporte de nombreux biais racistes et sexistes, d’ores et déjà pointés du doigt par les internautes en ligne.

GPT-4, un modèle de langage sûr ?

Les inquiétudes autour des modèles de langage propulsés par de l’IA générative n’ont pas échappé à la société basée à San Francisco. Sam Altman, président-directeur général, avouait qu’« il est encore imparfait, encore limité » lors de sa révélation. Toutefois, il assure que les travaux de la « red team » ont « permis de tester le comportement du modèle dans des zones à haut risque, » gommant de nombreux dangers.

Si au début les experts se sont montrés réticents quant à la rapide progression du modèle, et par extension des risques potentiels, tous ont affirmé qu’OpenAI avait traité sérieusement les problèmes remontés. Au fur et à mesure que des correctifs étaient apportés, GPT-4 devenait de plus en plus sûr. « Ils ont fait un très bon travail pour se débarrasser de la toxicité manifeste au sein de ces systèmes », a souligné Maarten Sap, un expert en toxicité des modèles de langage à l’Université Carnegie Mellon en Pennsylvanie.

Pour autant, ils appellent l’entreprise californienne à ne pas se reposer sur leurs lauriers. Ils précisent qu’elle devrait continuer à mettre en place des sessions d’exercice de sécurité, même si le modèle est désormais accessible. Heather Frase, chercheuse pour le Centre de la sécurité et des technologies émergentes de l’Université de Georgetown, insistait, « la raison pour laquelle vous effectuez des tests opérationnels est que les choses se comportent différemment une fois qu’elles sont utilisées dans l’environnement réel ». Selon elle, la mise en place d’un registre public pour signaler les incidents serait un premier pas en avant.