Dans le but d’identifier toutes les failles de sécurité présentes dans ses outils d’intelligence artificielle, OpenAI a décidé de lancer un bug bounty. Le principe est simple : faire appel à des spécialistes de la cybersécurité ou à des passionnés du secteur afin qu’ils détectent des bugs logiciels. S’il en existe, la personne ayant identifié la faille remporte une récompense.

OpenAI tente de débusquer un maximum de bugs dans ses outils

Quelques semaines seulement après qu’un bug permettait à certains utilisateurs de ChatGPT d’espionner les conversations d’autres personnes, OpenAI a décidé de passer à l’action. À l’instar de grands groupes comme Google, Apple ou encore Blablacar, l’entreprise américaine spécialisée dans l’intelligence artificielle a ouvert un bug bounty.

Dans un billet de blog, OpenAI explique le lancement de son initiative, « Comme pour toute technologie complexe, nous comprenons que des vulnérabilités et des failles peuvent apparaître. Nous pensons que la transparence et la collaboration sont essentielles pour faire face à cette réalité. C’est pourquoi nous invitons la communauté mondiale des chercheurs en sécurité, des hackers éthiques et des passionnés de technologie à nous aider à identifier et à corriger les vulnérabilités de nos systèmes ».

Bien entendu, ChatGPT est en ligne de mire, mais les intéressés pourront également travailler sur DALL-E 2, le générateur d’images d’OpenAI. Avant d’investir massivement dans le but d’assurer et de sécuriser au maximum ses modèles d’IA, la société va donc attendre que d’éventuels bugs soient détectés. Il sera possible de les recenser sur la plateforme Bugcrowd.

De 200 à 20 000 dollars en fonction de la gravité de la faille

En fonction des problèmes signalés et de leur impact sur l’utilisation de l’outil sur lequel ils ont été détectés, des récompenses seront allouées. Pour une faille d’une faible gravité, 200 dollars seront versés, alors que près de 20 000 dollars seront proposés à la personne qui découvrira un bug facilement exploitable par des cybercriminels par exemple.

Néanmoins, OpenAI a précisé les types de bugs qui ne l’intéressaient pas. La découverte d’une faille minime liée « au contenu des invites et des réponses du modèle sont strictement hors de portée et ne seront pas récompensées à moins qu’ils n’aient un impact de sécurité supplémentaire ». Plus simplement, tous les contournements de sécurité permettant de faire en sorte que le modèle puisse dire des choses malveillantes ou discriminatoires ne sont pas considérés comme des failles de sécurité aux yeux de l’entreprise.

Pour l’heure, 14 vulnérabilités ont été découvertes, et près de 18 000 dollars ont déjà été versés aux personnes ayant mis en lumière ces bugs. Les équipes d’OpenAI laissent un délai de quelques heures entre l’envoi du bug et leur réponse afin de vérifier la véracité de la faille et le temps de la patcher. Plusieurs règles ont été mises en place afin d’éviter que ces erreurs ne puissent être divulguées au grand public avant qu’elles ne soient corrigées.