Le fichier robots.txt créé par Martijn Koster, fête aujourd’hui ses 25 ans. M. Koster est également connu pour être à l’origine du développement du premier moteur de recherche. Il a aussi commencé à rédiger une proposition d’interprétation : Robots Exclusion Protocole (REP). De plus en plus, les intégrateurs web ont placé le fichier robots.txt à la racine de leurs sites, si bien que les crawlers l’ont interprété d’après la réglementation proposée par Martijn Koster.

À l’occasion de cet anniversaire, Google décide de passer un palier en standardisant ce fichier. De ce fait, tous les robots crawlers devront interpréter de la même manière les fichiers robots.txt.

Suite à cette déclaration, Google a apporté quelques propositions afin d’améliorer le Robots Exclusion Protocole. Évidemment, la firme de Mountain View continuera de se baser sur l’idée initiale de Martijn Koster, tout en définissant plus précisément quelques règles inévitables avec l’avancée du web. Sur son blog officiel, Google liste 4 points qui devraient évoluer :

« Tout protocole de transfert basé sur URI peut utiliser robots.txt. Il n’est plus limité à HTTP et peut également être utilisé pour FTP ou CoAP.

Les développeurs doivent analyser au moins les 500 premiers kibytes d’un fichier robots.txt. La définition d’une taille de fichier maximale garantit que les connexions ne sont pas trop longues, allégeant ainsi la charge inutile des serveurs.

Un nouveau temps maximum de mise en cache de 24 heures ou une valeur de directive de cache si disponible, donne aux propriétaires de sites Web la flexibilité de mettre à jour leur fichier robots.txt quand ils le souhaitent, et les robots ne surchargent pas les sites Web avec les requêtes robots.txt. Par exemple, dans le cas de HTTP, les en-têtes Cache-Control pourraient être utilisés pour déterminer le temps de mise en cache.

La spécification prévoit maintenant que lorsqu’un fichier robots.txt auparavant accessible devient inaccessible en raison d’une panne de serveur, les pages interdites connues ne sont pas explorées pendant une période de temps raisonnablement longue. »