Des chercheurs affiliés à Microsoft, partenaire privilégié d’OpenAI, ont étudié la fiabilité des grands modèles de langage (LLM), dont GPT-3,5 et GPT-4. Il est possible que le modèle puisse être programmé pour ignorer les mesures de sécurité intégrées et ainsi produire des messages potentiellement incorrects, partiaux ou discriminatoires.
GPT-4, contrairement aux LLM précédents, serait plus à même de suivre des instructions malveillantes
Même si les chercheurs ont constaté que « GPT-4 est généralement plus fiable que GPT-3.5 sur les benchmarks standards », le dernier LLM d’OpenAI « reste plus vulnérable compte tenu des invites qui visent à le jailbreak ». Concrètement, certains utilisateurs peuvent mettre au point des outils ou des procédés, conçus pour un usage malveillant et visant à contourner les sécurités de GPT-4. Le modèle de langage aurait plus tendance, contrairement à ses prédécesseurs, « à suivre ces instructions trompeuses ».
Inscrivez-vous à la newsletter
En vous inscrivant vous acceptez notre politique de protection des données personnelles.
Dans un billet de blog, Microsoft a précisé pourquoi il travaillait sur la recherche de telles failles. « L’équipe de recherche a cherché à savoir si les vulnérabilités potentielles qu’ils ont identifiées n’avaient pas d’impact sur les services actuellement destinés aux clients, » déclare la firme de Redmond. Bien entendu, après avoir identifié puis testé ces failles, elles ont été corrigées pour éviter que des personnes malveillantes puissent les exploiter.
Parallèlement à leurs travaux, les chercheurs ont proposé en open source sur GitHub, le code qu’ils ont utilisé pour comparer les différents modèles de langage. « Notre objectif est d’encourager d’autres membres de la communauté des chercheurs à utiliser et à développer ce travail tout en empêchant potentiellement les actions néfastes d’adversaires qui exploiteraient les vulnérabilités pour causer du tort », ajoutent-ils.
OpenAI joue généralement la carte de la sécurité avec ses outils
Avant la sorte de GPT-4, lors de la phase de finalisation du modèle, OpenAI avait formé une « red team », une équipe de personnes dont la mission était d’en trouver les potentielles failles. Malgré la mise en place d’une telle mesure, Sam Altman, PDG de l’entreprise, avouait lui-même que son outil « était encore imparfait, encore limité ». Toutefois, il avait assuré que les travaux de la red team avaient « permis de tester le comportement du modèle dans des zones à haut risque, » et d’effacer de nombreux dangers.
Depuis le lancement de ChatGPT, OpenAI n’a eu à faire qu’un seul bug. En mars dernier, une faille de sécurité permettait aux utilisateurs du chatbot de voir les titres de conversations d’autres usagers. Pour la première fois depuis son lancement, le service a été interrompu afin que le problème puisse être résolu. Suite à cet incident, la société avait lancé son bug bounty, encourageant toute personne trouvant une faille dans l’un de ses outils, à la faire connaître pour remporter une récompense allant jusqu’à 20 000 dollars.
L’entreprise reste confiante au point de proposer GPT-4 pour modérer du contenu sur le web. Un défi de grande taille qui permettait indéniablement de savoir si certains contenus discriminatoires passeraient les mailles du filet sous la modération du plus puissant des modèles de langage d’Open AI.