Internet Archive tente de protéger des milliards de pages web menacées de disparition

Brewster Kahle a fondé Internet Archive en mai 1996 avec une ambition assez folle. L’objectif est de photographier le web en entier et le garder pour toujours. Trente ans plus tard, la Wayback Machine stocke 210 pétaoctets de données et a franchi le billion de pages archivées fin 2025. Deux cents personnes font tourner le tout depuis une ancienne église de San Francisco reconvertie en salle de serveurs.

Le web efface ses propres traces, et personne d’autre ne les sauve

Quand l’administration Trump a supprimé des centaines de pages gouvernementales en janvier 2025, la Wayback Machine était le seul endroit où ces informations pouvaient être consultées. Des journalistes retrouvent des articles modifiés. Des chercheurs exhument des données publiques effacées. Des citoyens identifient ce que leurs élus ont réellement partagé des années plus tôt.

Sauf que ce rôle de mémoire universelle est attaqué de toutes parts.

L’IA prend deux fois et ne donne rien

Les entreprises d’intelligence artificielle puisent dans les archives de la Wayback Machine pour entraîner leurs modèles quand les sites d’origine leur ferment la porte. Les éditeurs de presse ont réagi en bloquant aussi les robots d’Internet Archive. Plus de 240 sites d’information dans le monde ont coupé l’accès. Les captures de pages de presse ont baissé de 87 % entre mai et octobre 2025. Reddit a suivi en août.

Et pendant que l’IA aspire les contenus, elle assèche le marché du stockage. Western Digital a confirmé être en rupture sur les disques de 28 à 30 To pour toute l’année 2026. Les data centers achètent tout. Les prix ont doublé, parfois triplé depuis septembre 2025. Internet Archive, qui ingère 100 téraoctets par jour et fonctionne uniquement grâce aux dons, encaisse le choc sans filet. La Wikimedia Foundation subit la même pression.

Une fondation suisse pour distribuer la mémoire

Face à ces menaces, Internet Archive vient de créer une fondation à Saint-Gall, en Suisse, lancée le 5 mai dans les archives de l’abbaye millénaire. La structure travaille avec l’UNESCO et l’Université de Saint-Gall sur un projet ambitieux. Il faut conserver des instantanés de modèles d’IA avant qu’ils ne soient retirés, pour garder une trace de ce que ces systèmes savaient à un moment donné.

Cette fondation rejoint Internet Archive Canada et Internet Archive Europe. L’organisation répartit désormais sa mémoire sur plusieurs juridictions, continents, cadres juridiques. Une manière de rendre la bibliothèque plus difficile à fermer d’un seul coup.

L’IA se nourrit des archives du web tout en rendant leur conservation matériellement impossible. L’industrie qui dépend le plus de la mémoire numérique est en train de la rendre inabordable pour ceux qui la protègent.

Internet Archive tente de protéger des milliards de pages web menacées de disparition

Le web efface ses propres traces, et personne d’autre ne les sauve

L’IA prend deux fois et ne donne rien

Une fondation suisse pour distribuer la mémoire

Pour aller plus loin