Le modèle de traitement de langage GPT-3 est révolutionnaire. Capable de générer du texte grâce au machine learning, il est doté de 175 milliards de paramètres. Il possède néanmoins des failles dangereuses qui ont poussé des experts en IA à tirer la sonnette d’alarme quant à la démocratisation de son utilisation. Dans une nouvelle étude, des chercheurs des universités de Berkeley, d’Irvine et du Maryland décrivent toutefois un moyen pour l’améliorer.

En effet, le chercheur Abubakar Abid a démontré que le modèle avait des tendances islamophobes, notamment en associant constamment les musulmans à la violence ou au terrorisme. C’est aussi le cas des employés d’OpenAI, entreprise ayant créé GPT-3, ont eux-mêmes eu des inquiétudes à propos de leur modèle en interne, et ont affirmé qu’il possédait d’importants biais racistes mais aussi sexistes.

Dans leur papier, paru sur arXiv le 19 février dernier, les chercheurs ont ainsi remarqué que des choix différents en matière de format, de texte d’entraînement et d’ordre pouvaient entraîner des fluctuations dans la précision du modèle de traitement de langage, explique VentureBeat. Par exemple, le simple fait de changer d’ordre des mots portant sur le ressenti d’une personne a entraîné GPT-3 à déduire ce qu’elle ressentait avec 93% d’efficacité, contre 54% auparavant.

Ils assurent avoir identifié plusieurs éléments provoquant des biais dans le modèle. Ce qu’ils appellent un « label majoritaire » l’entraîne à prédire des réponse apparaissant souvent vers la fin des textes, tandis qu’un autre biais le pousse à proposer des mots fréquemment utilisés dans les textes avec lesquels il s’entraîne, plutôt le terme « États-Unis » que « Sainte-Lucie », par exemple.

Sans surprise donc, les chercheurs affirment qu’un changement des textes d’entraînement de GPT-3 pourrait largement éviter les déviances dont il fait preuve : « La précision du GPT-3 dépend fortement à la fois de la sélection et de la permutation des exemples de formation ». Ils expliquent en outre qu’il est nécessaire de « calibrer » le format et les exemples pour augmenter sa précision :

« Si l’on remplace « étonnant » par « N/A », le modèle prédit 62% de positif. Nous ajustons ensuite les paramètres de calibrage de manière à ce que l’entrée sans contenu ait des scores uniformes pour chaque réponse. Cette procédure de calibrage contextuel permet un bon réglage des paramètres de calibrage sans données de formation supplémentaires ».

Ce papier est loin d’être anodin : les traitements de langage naturel sont voués à être introduits dans de nombreux domaines. Il est impératif de corriger leurs biais et leurs failles avant qu’ils n’aient de vraies répercussions dans le monde réel.