C’est l’un de ces dilemmes où tout le monde a raison et où tout le monde perd. D’un côté, des médias voient leurs archives aspirées sans permission pour nourrir les modèles de langage de la Silicon Valley. De l’autre, un outil de préservation historique (la Wayback Machine) pris entre deux feux et menacé de devenir un gruyère documentaire.
Le mécanisme consiste à bloquer l’archiviste pour atteindre le pilleur
L’Internet Archive stocke plus de mille milliards de pages web depuis 1996. Des articles de CNN, du New York Times, du Guardian, de USA Today… Un trésor pour les historiens, les chercheurs, les fact-checkeurs. Et aussi, malheureusement, un buffet à volonté pour les boîtes d’IA.
📩 L’actu digitale évolue vite. Restez à jour.
Recevez la newsletter quotidienne, gratuitement.
En vous inscrivant vous acceptez notre politique de protection des données personnelles.
Le contenu archivé est accessible via des URL et des API. Les entreprises d’IA s’en servent pour entraîner leurs modèles, sans négocier de licence ni verser de compensation. Selon Originality AI, une bonne partie de ces archives a déjà été repérée dans des jeux de données utilisés pour l’entraînement de grands modèles. Pour des médias qui poursuivent déjà OpenAI et Perplexity en justice, le fait de laisser cette porte ouverte revient à alimenter l’adversaire par la fenêtre.
241 sites d’information dans le monde entier bloquent au moins l’un des quatre robots d’exploration de l’Archive.
Une vingtaine de médias ont ciblé nommément ia_archiverbot, le robot numéro un de la Wayback Machine, pour lui couper l’accès. Une part importante des sites bloqués appartient à USA Today Co, le plus gros éditeur de presse américain. De ce fait, des centaines de journaux locaux sont en train de disparaître des archives du web.
L’Archive se dit victime collatérale
Mark Graham, directeur de la Wayback Machine, refuse d’endosser le rôle du coupable. Son organisation n’entraîne aucun modèle d’IA. Elle stocke, elle préserve, elle rend accessible. Ce sont les entreprises tierces qui exploitent ce stock via les interfaces techniques. L’Archive a d’ailleurs pris des mesures à savoir des restrictions sur les téléchargements massifs et des limitations de l’extraction automatisée.
Graham rappelle aussi un point que les médias gagneraient à ne pas oublier. Sans la Wayback Machine, un article modifié après publication (citation retirée, erreur gommée, paragraphe reformulé) ne laisse aucune trace.
Un compromis qui reste à inventer
Certains titres, comme le Guardian, cherchent un entre-deux en limitant l’accès plutôt qu’en le verrouillant totalement. L’ONG Fight for the Future a lancé une pétition signée par une centaine de journalistes qui dénoncent ces blocages au moment même où les archives publiques n’ont jamais été aussi menacées.
Les médias se battent contre les bonnes cibles (OpenAI, Perplexity), mais frappent au mauvais endroit. Le fait de bloquer l’Internet Archive ne protège pas le droit d’auteur. Cela détruit la mémoire collective. Les entreprises d’IA trouveront d’autres sources. Par contre, les historiens n’ont pas de plan B.
