Le New York Times vient d’interdire l’utilisation de son contenu pour entraîner les systèmes d’intelligence artificielle (IA). Une décision qui intervient alors que de plus en plus d’entreprises développent leurs propres modèles.

La formation des IA en question

Depuis le 3 août dernier, le célèbre média américain a apporté des changements forts à ses conditions d’utilisation. Désormais, les textes, les photographies, les images, les clips audio et vidéo, les métadonnées ainsi que les compilations se trouvant sur son site ne peuvent plus être exploitées dans le développement de « tout programme logiciel, y compris, mais sans s’y limiter, l’entraînement d’un système d’apprentissage automatique ou d’intelligence artificielle (IA) ».

Les modèles d’IA s’appuient sur des contenus et des données, y compris des articles journalistiques et des œuvres d’art protégées par le droit d’auteur, comme principale source d’information pour leur formation. Dans certains cas, ce contenu est reproduit mot pour mot. Par exemple, OpenAI a récemment dévoilé un webcrawler baptisé GPTBot qui parcourt la toile afin de collecter des informations sur les sites Web et améliorer les modèles de langage de l’entreprise.

Certains éditeurs craignent que les IA mettent à mal leurs sources de revenus en publiant du contenu réutilisé sans mentionner la source. Ils redoutent également que ces modèles contribuent à la désinformation à cause de leur propension à « halluciner ».

Un accord entre Google et le New York Times

Cette annonce du New York Times intervient quelques mois après que le média ait signé un accord de 100 millions de dollars avec Google. Celui-ci permet au géant de la Silicon Valley de diffuser le contenu du journal sur certaines de ses plateformes au cours des trois prochaines années. Les deux entreprises vont travailler ensemble sur des outils de distribution de contenu, d’abonnement, de marketing, de publicité et d’« expérimentation ».

Il est également important de noter qu’une coalition de médias a récemment réclamé un cadre réglementaire pour l’IA. Ces derniers souhaitent la mise en place de mesures qui exigeraient la transparence des ensembles de données de formation, ainsi que le consentement des détenteurs de droits avant leur utilisation pour entraîner les modèles. Le New York Times a décidé de quitter la coalition ce dimanche 13 août.

Les données utilisées pour former les IA sont l’un des points phares de l’AI Act, la législation européenne qui vise à réglementer l’usage de l’intelligence artificielle. Lorsqu’elle entrera en vigueur, certaines entreprises devraient être contraintes de préciser d’où viennent les informations utilisées pour entraîner les modèles.