OpenAI a lancé un webcrawler baptisé GPTBot pour améliorer ses modèles d’intelligence artificielle. Le dispositif parcourt la toile afin de collecter des informations sur les sites Web.

Un programme utilisé par les moteurs de recherche

Un webcrawler est un programme informatique conçu pour parcourir automatiquement Internet de manière méthodique et systématique. Son objectif principal est de collecter des informations à partir de sites Web afin de les indexer, de les analyser ou de les traiter ultérieurement. Les moteurs de recherche comme Google les utilisent pour explorer le contenu, extraire les données et créer des index de recherche.

Dans un billet de blog, OpenAI, entreprise qui a créé ChatGPT, a annoncé avoir lancé l’un de ces programmes pour améliorer la performance de ses modèles de langage, notamment en termes de précision et de sécurité.

« Les pages Web explorées avec l’agent GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès payant, qui sont connues pour recueillir des informations personnelles identifiables ou qui contiennent du texte qui viole nos politiques », précise la firme.

Cette annonce intervient alors que le passif d’OpenAI avec la vie privée et les données personnelles est déjà mouvementé. Au mois de mars, une fuite de données a par exemple exposé les conversations de certains utilisateurs de l’agent conversationnel. Depuis, l’entreprise permet à ses usagers de désactiver l’historique de leurs chats avec le modèle, mais de nombreux régulateurs continuent de pointer du doigt ses pratiques.

Comment empêcher GPTBot d’accéder à ses données ?

L’Italie n’a pas hésité à bloquer ChatGPT pendant plusieurs semaines sur son territoire, et d’autres pays ont également mis en garde OpenAI. En ce qui concerne GPTBot, l’entreprise prend ses précautions. Elle explique que les sites web peuvent choisir de restreindre son accès ou l’empêcher d’accéder à leur plateforme, soit partiellement, soit en se retirant complètement.

Pour interdire à GPTBot d’accéder à un site, il faut ajouter GPTBot au fichier robots.txt du site, de cette manière : User-agent: GPTBot ; Disallow: /.

Pour ceux qui veulent personnaliser cet accès et autoriser GPTBot à accéder uniquement à certaines parties d’un site, il faut ajouter ce code : User-agent: GPTBot ; Allow: /directory-1/ ; Disallow: /directory-2/.

Les données utilisées pour former les IA sont l’un des points phares de l’AI Act, la législation européenne qui vise à réglementer l’usage de l’intelligence artificielle. Les entreprises seront ainsi contraintes de préciser d’où viennent les informations utilisées pour entraîner les modèles.