Vous avez probablement déjà atterri sur l’un de ces sites. Un ton étrangement lisse, des phrases qui s’enchaînent sans aspérité, une politesse de robot qui vous met mal à l’aise sans que vous sachiez exactement pourquoi. Cette tendance avance à une vitesse que même les chercheurs n’avaient pas anticipée.

De zéro à 35 % en trente mois

L’étude, intitulée The Impact of AI-Generated Text on the Internet, s’appuie sur les archives de la Wayback Machine pour comparer des échantillons de sites créés entre août 2022 et mai 2025. Avant le lancement de ChatGPT fin 2022, la proportion de sites classés comme produits ou assistés par une IA était nulle. Trente mois plus tard, elle atteignait 35 %. Un tiers du web neuf.

Jonáš Doležal, chercheur à Stanford et co-auteur du papier, ne cache pas sa stupéfaction. Le web tel qu’on le connaît a été façonné sur trente ans par des millions de contributeurs humains. L’IA en a remodelé un tiers en moins de trois.

Un Web faux, uniforme et creux ?

Ils ont testé six hypothèses et deux se sont vérifiées.

  • Le web devient effectivement moins divers dans son vocabulaire et plus positif dans son ton.
  • Les quatre autres avec davantage de mensonges, moins de sources citées, un appauvrissement sémantique, une disparition des voix singulières n’ont pas été confirmées.

Le résultat le plus contre-intuitif concerne la désinformation. L’équipe a fait vérifier par des fact-checkeurs humains des affirmations extraites de sites générés par IA. Il n’y a pas d’explosion de fausses informations réellement vérifiables. L’IA pourrait gonfler le volume d’affirmations impossibles à vérifier avec les outils actuels. Et puis, comme il le note avec un cynisme bienvenu, Internet n’a jamais été un temple de la vérité.

Un web uniformément optimiste et poli, où les aspérités disparaissent, où chaque phrase respire la bienveillance artificielle, c’est sans doute moins dangereux que la désinformation.

Vers un suivi en temps réel

L’équipe travaille avec l’Internet Archive pour que cette recherche ponctuelle devienne un outil de surveillance continue. L’objectif consiste à suivre l’évolution mois par mois, par catégorie de site et par langue.

Si un tiers du web neuf est déjà synthétique, l’humain va-t-il perdurer sur Internet ou sera-t-il totalement remplacé ?