OpenAI a eu recours à une « red team

Depuis décembre, l’intelligence artificielle (IA) générative a la cote et de nombreuses entreprises de la tech veulent leur part du gâteau. Toutefois, avant d’aboutir à une technologie prête à être commercialisée, plusieurs chercheurs sont chargés de la tester pour prévenir et corriger le maximum de dérives et biais. Au cours de la finalisation de son dernier modèle, GPT-4, OpenAI a formé une « red team », une équipe de personnes dont la mission est d’en trouver les potentielles failles.

Trouver et corriger les biais

Une « red team » est un concept appartenant à de nombreux domaines comme la cybersécurité, le secteur militaire, etc. Le principe est de créer un groupe devant jouer le rôle de la menace pour identifier les points faibles de ses équipements. Dans le cas d’OpenAI, il s’agit d’un groupe chargé de trouver les moyens de faire dire des choses inappropriées, non voulues ou interdites au modèle de langage.

Lors de la présentation de GPT-4, version améliorée de GPT-3.5, en mars dernier, le géant de l’IA annonçait « avoir passé six mois à entraîner GPT-4 en utilisant les leçons tirées de notre programme d’essais contradictoires ». Il s’agissait de la « red team » d’OpenAI composée de 50 académiciens et experts dans de nombreux domaines de l’IA. Ces derniers ont travaillé entre 10 et 40 heures sur les variantes préliminaires du modèle de langage et ont été payés approximativement 100 dollars de l’heure pour leur contribution.

Membre de la « red team », Andrew White, professeur en génie chimique pour l’Université de Rochester, aux États-Unis, a expliqué au Financial Times que leur rôle consistait à « sonder qualitativement et tester de manière contradictoire » le modèle de langage pour en découvrir les failles. À travers leur aide, OpenAI cherchait à pallier différents problèmes tels que la toxicité, les préjugés, mais aussi les biais linguistiques. Pour y parvenir, les scientifiques ont eu recours à la manipulation verbale ou à l’utilisation de connaissances scientifiques dangereuses.

ChatGPT est la cible de nombreuses critiques depuis son lancement. Le modèle de langage qu’il utilise, GPT-3.5, comporte de nombreux biais racistes et sexistes, d’ores et déjà pointés du doigt par les internautes en ligne.

Yes, ChatGPT is amazing and impressive. No, @OpenAI has not come close to addressing the problem of bias. Filters appear to be bypassed with simple tricks, and superficially masked.
And what is lurking inside is egregious. @Abebab @sama
tw racism, sexism. pic.twitter.com/V4fw1fY9dY

— steven t. piantadosi (@spiantado) December 4, 2022

GPT-4, un modèle de langage sûr ?

Les inquiétudes autour des modèles de langage propulsés par de l’IA générative n’ont pas échappé à la société basée à San Francisco. Sam Altman, président-directeur général, avouait qu’« il est encore imparfait, encore limité » lors de sa révélation. Toutefois, il assure que les travaux de la « red team » ont « permis de tester le comportement du modèle dans des zones à haut risque, » gommant de nombreux dangers.

here is GPT-4, our most capable and aligned model yet. it is available today in our API (with a waitlist) and in ChatGPT+.https://t.co/2ZFC36xqAJ
it is still flawed, still limited, and it still seems more impressive on first use than it does after you spend more time with it.

— Sam Altman (@sama) March 14, 2023

Si au début les experts se sont montrés réticents quant à la rapide progression du modèle, et par extension des risques potentiels, tous ont affirmé qu’OpenAI avait traité sérieusement les problèmes remontés. Au fur et à mesure que des correctifs étaient apportés, GPT-4 devenait de plus en plus sûr. « Ils ont fait un très bon travail pour se débarrasser de la toxicité manifeste au sein de ces systèmes », a souligné Maarten Sap, un expert en toxicité des modèles de langage à l’Université Carnegie Mellon en Pennsylvanie.

Pour autant, ils appellent l’entreprise californienne à ne pas se reposer sur leurs lauriers. Ils précisent qu’elle devrait continuer à mettre en place des sessions d’exercice de sécurité, même si le modèle est désormais accessible. Heather Frase, chercheuse pour le Centre de la sécurité et des technologies émergentes de l’Université de Georgetown, insistait, « la raison pour laquelle vous effectuez des tests opérationnels est que les choses se comportent différemment une fois qu’elles sont utilisées dans l’environnement réel ». Selon elle, la mise en place d’un registre public pour signaler les incidents serait un premier pas en avant.

OpenAI a eu recours à une « red team » pour tester GPT-4

Trouver et corriger les biais

GPT-4, un modèle de langage sûr ?

Les géants de la tech chinois et américains main dans la main pour l’établissement de normes sur l’IA

La collaboration entre Microsoft et OpenAI ne poserait pas de problème de concurrence pour la Commission européenne

Adobe travaille sur la génération de contenus vidéos grâce à l’IA

OpenAI débarque au Japon avec un modèle GPT-4 adapté à la culture locale dans ses valises

OpenAI n’hésite pas à marcher sur les plates-bandes de Microsoft pour attirer des clients

ChatGPT-4 Turbo promet des conversations plus naturelles

OpenAI a eu recours à une « red team » pour tester GPT-4

Trouver et corriger les biais

GPT-4, un modèle de langage sûr ?

Les géants de la tech chinois et américains main dans la main pour l’établissement de normes sur l’IA

La collaboration entre Microsoft et OpenAI ne poserait pas de problème de concurrence pour la Commission européenne

Adobe travaille sur la génération de contenus vidéos grâce à l’IA

OpenAI débarque au Japon avec un modèle GPT-4 adapté à la culture locale dans ses valises

OpenAI n’hésite pas à marcher sur les plates-bandes de Microsoft pour attirer des clients

ChatGPT-4 Turbo promet des conversations plus naturelles

OFFRE EXCEPTIONNELLE