OpenAI lance un webcrawler pour améliorer ses modèles

OpenAI a lancé un webcrawler baptisé GPTBot pour améliorer ses modèles d’intelligence artificielle. Le dispositif parcourt la toile afin de collecter des informations sur les sites Web.

Un programme utilisé par les moteurs de recherche

Un webcrawler est un programme informatique conçu pour parcourir automatiquement Internet de manière méthodique et systématique. Son objectif principal est de collecter des informations à partir de sites Web afin de les indexer, de les analyser ou de les traiter ultérieurement. Les moteurs de recherche comme Google les utilisent pour explorer le contenu, extraire les données et créer des index de recherche.

Dans un billet de blog, OpenAI, entreprise qui a créé ChatGPT, a annoncé avoir lancé l’un de ces programmes pour améliorer la performance de ses modèles de langage, notamment en termes de précision et de sécurité.

« Les pages Web explorées avec l’agent GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès payant, qui sont connues pour recueillir des informations personnelles identifiables ou qui contiennent du texte qui viole nos politiques », précise la firme.

Cette annonce intervient alors que le passif d’OpenAI avec la vie privée et les données personnelles est déjà mouvementé. Au mois de mars, une fuite de données a par exemple exposé les conversations de certains utilisateurs de l’agent conversationnel. Depuis, l’entreprise permet à ses usagers de désactiver l’historique de leurs chats avec le modèle, mais de nombreux régulateurs continuent de pointer du doigt ses pratiques.

Comment empêcher GPTBot d’accéder à ses données ?

L’Italie n’a pas hésité à bloquer ChatGPT pendant plusieurs semaines sur son territoire, et d’autres pays ont également mis en garde OpenAI. En ce qui concerne GPTBot, l’entreprise prend ses précautions. Elle explique que les sites web peuvent choisir de restreindre son accès ou l’empêcher d’accéder à leur plateforme, soit partiellement, soit en se retirant complètement.

Pour interdire à GPTBot d’accéder à un site, il faut ajouter GPTBot au fichier robots.txt du site, de cette manière : User-agent: GPTBot ; Disallow: /.

Pour ceux qui veulent personnaliser cet accès et autoriser GPTBot à accéder uniquement à certaines parties d’un site, il faut ajouter ce code : User-agent: GPTBot ; Allow: /directory-1/ ; Disallow: /directory-2/.

Les données utilisées pour former les IA sont l’un des points phares de l’AI Act, la législation européenne qui vise à réglementer l’usage de l’intelligence artificielle. Les entreprises seront ainsi contraintes de préciser d’où viennent les informations utilisées pour entraîner les modèles.

OpenAI lance un webcrawler pour améliorer ses modèles

Un programme utilisé par les moteurs de recherche

Comment empêcher GPTBot d’accéder à ses données ?

Les motivations derrière le tout premier investissement de Microsoft chez OpenAI dévoilées

Les hallucinations de ChatGPT enfreignent le RGPD, s’insurge l’ONG Noyb

L’IA porte la croissance de Microsoft qui doit construire de nouveaux centres de données

Apple prêt à intégrer l’IA dans iOS 18

Les géants de la tech chinois et américains main dans la main pour l’établissement de normes sur l’IA

La collaboration entre Microsoft et OpenAI ne poserait pas de problème de concurrence pour la Commission européenne

OpenAI lance un webcrawler pour améliorer ses modèles

Un programme utilisé par les moteurs de recherche

Comment empêcher GPTBot d’accéder à ses données ?

Les motivations derrière le tout premier investissement de Microsoft chez OpenAI dévoilées

Les hallucinations de ChatGPT enfreignent le RGPD, s’insurge l’ONG Noyb

L’IA porte la croissance de Microsoft qui doit construire de nouveaux centres de données

Apple prêt à intégrer l’IA dans iOS 18

Les géants de la tech chinois et américains main dans la main pour l’établissement de normes sur l’IA

La collaboration entre Microsoft et OpenAI ne poserait pas de problème de concurrence pour la Commission européenne

OFFRE EXCEPTIONNELLE