Des chercheurs tirent la sonnette d’alarme sur les déviances de GPT-3

Quelles sont les capacités et les limites techniques des traitements de langage naturel ? Quels sont les effets sociétaux de leur utilisation généralisée ? Voici les deux questions auxquelles se sont intéressés des chercheurs spécialisés dans l’IA lors d’une conférence, ils essayent désormais d’y répondre dans une étude. En effet, les traitements de langage naturel, avec en tête GPT-3 d’OpenAI, dont Microsoft possède l’exclusivité, sont loin d’être faillibles et possèdent des biais racistes et sexistes. Dans le même temps, ils vont être exploités dans de plus en plus de branches professionnelles, rappelle VentureBeat.

Seulement quelques mois pour agir

Lorsque GPT-3 a été dévoilé par les équipes d’OpenAI, nombreux s’inquiétaient déjà de ses usages en interne, et il semblerait qu’ils avaient raison. Incroyablement puissant, l’outil est capable de générer du texte grâce au machine learning. Tandis que Google a également développé un modèle encore plus performant, le groupe EleutherAI souhaite quant à lui recréer GPT-3 en open-source sous le nom de GPT-Neo. Actuellement, GPT-3 est uniquement disponible via une API commerciale.

Pour les chercheurs d’OpenAI et de l’université de Stanford à l’origine de l’étude baptisée « Comprendre les capacités, les limites et l’impact sociétal des grands modèles de langage », il est urgent de prendre des mesures concrètes et de définir des standards afin de contrer les défiances de ces outils. « Les développeurs pourraient n’avoir que de six à neuf mois jusqu’à ce que d’autres puissent reproduire leurs résultats. Il a été largement convenu que ceux qui sont à la pointe de la technologie devraient utiliser leur position pour établir de manière responsable des normes dans ce domaine émergent. Cela suggère en outre l’urgence d’utiliser la fenêtre temporelle actuelle, pendant laquelle peu d’acteurs possèdent de très grands modèles de langage naturel, pour développer des normes et des principes appropriés que les autres pourront suivre », expliquent-ils dans leur papier.

Les modèles de traitement de langage naturel héritent des pensées des humains

Si les experts s’inquiètent autant, c’est parce que ces modèles sont entraînés sur d’immenses quantités de texte émanant de Wikipédia ou encore de Reddit. En conséquence, ils héritent des pensées biaisées de certaines personnes présentent sur ces sites et développent des penchants sexistes, racistes, islamophobes ainsi que validistes. GPT-3 n’échappe pas à la règle : en août dernier, le chercheur Abubakar Abid a réalisé une étude sur l’islamophobie du modèle, qui associait constamment les musulmans à la violence ou au terrorisme, comme le montre le tweet ci-dessous :

I’m shocked how hard it is to generate text about Muslims from GPT-3 that has nothing to do with violence… or being killed… pic.twitter.com/biSiiG5bkh
— Abubakar Abid (@abidlabs) August 6, 2020

D’ailleurs, l’éminente chercheuse en intelligence artificielle Timnit Gebru, licenciée par Google à la fin 2020, avait alerté sur la manière de former les traitements de langage naturel. Selon elle, leur entraînement sur des textes mal choisis est très « risqué », car il a des conséquences directes sur les populations marginalisées.

Pourtant, ces outils sont de plus en plus utilisés sur la toile et dans le monde professionnel, ce qui peut avoir des conséquences dangereuses comme la diffusion de fausses informations. Sur Reddit par exemple, le modèle GPT-3 a propagé des théories du complot en développant des idées sur les Illuminati. Ce même modèle, utilisé en tant que chatbot médical, a conseillé à un patient de se suicider.

Comment éviter le pire ?

Dans leur papier, les chercheurs évoquent trois différents moyens d’améliorer ces modèles et d’éviter qu’ils n’affectent la société car entraînés convenablement, ils sont d’une très grande utilité. Ils évoquent ainsi la formation d’un modèle distinct qui agit comme un filtre pour le contenu généré par un modèle de langage, le déploiement d’une série de tests de biais pour tester les modèles avant de les autoriser à être utilisés par qui que ce soit et enfin, ils préconisent de les interdire dans certains cas d’usage.

Le doctorant Abubakar Abid détaille une méthode différente pour faire face à ce problème : « L’autre approche serait de modifier ou d’affiner d’une manière ou d’une autre le biais de ces modèles, et je pense que c’est probablement une meilleure direction parce qu’alors vous pourriez diffuser un modèle affiné dans le monde ». En effet, lors de ses recherches sur les déviances islamophobes de GPT-3, il s’est rendu compte qu’il était possible de « rediriger l’attention du modèle » à l’aide d’adjectifs spécifiques.

« Grâce à ces expériences, je pense que nous avons vu de manière manuelle qu’il est possible d’atténuer le biais, mais pouvons-nous automatiser ce processus et l’optimiser ? Je pense que c’est une question de recherche ouverte très importante », affirme le chercheur. Si aucune approche n’est encore évidente, les experts doivent faire vite avant que ces modèles ne soient déployés à plus grande échelle et aient un impact dans de nombreux domaines.

Des chercheurs tirent la sonnette d’alarme sur les déviances de GPT-3

Seulement quelques mois pour agir

Les modèles de traitement de langage naturel héritent des pensées des humains

Comment éviter le pire ?

OFFRE EXCEPTIONNELLE