Pour gérer vos consentements :
Categories: RisquesSécurité

Sécurité IT : cette vitrine nommée robots.txt

Exploités par les sites Internet pour le référencement dans les moteurs de recherche, les fichiers robots.txt peuvent révéler bien des secrets.

C’est le principal enseignement à tirer d’une expérimentation menée par Thiébaud Weksteen.

Ce chercheur en sécurité informatique s’est penché sur ces documents texte généralement situés à la racine du serveur Web et spécifiant quelles parties du site doivent être parcourues par les robots. Conçus pour des machines, ils sont tout à fait interprétables par des humains, moyennant quelques outils logiciels.

Thiébaud Weksteen a d’abord récupéré une liste de fichiers robots.txt. A ces fins, il a utilisé un service gratuit listant les résultats d’indexation sur un grand nombre de noms de domaines… et ouvert à tous. En l’occurrence, le projet Common Crawl, porté par l’organisation à but non lucratif du même nom.

Les résultats sont divisés en archives de 1 Go, pesant 4 Go après décompression. Il en existe plus de 33 000 pour l’index de février 2015.

Un script sur mesure a permis de récupérer ces archives, puis de les décompresser et d’extraire les noms d’hôtes tout en triant les extensions grâce à une liste blanche pour éviter les faux positifs.

Les noms d’hôtes récupérés ont ensuite été insérés dans le logiciel open source Burst, qui a permis de télécharger les fichiers robots.txt. Sur les 59 558 parcourus à cet effet, 59 436 ont envoyé une réponse. Dans 35 376 cas, le fichier robots.txt était « conforme », car contenant au moins une instruction standard.

En analysant ces fichiers, Thiébaud Weksteen a découvert de nombreuses fautes de syntaxe… ou tout simplement d’orthographe dans certaines commandes comme Disallow, régulièrement écrit Disalow. Il a surtout noté le recours fréquent à des instructions non standardisées et la présence de nombreux commentaires.

Ce dernier point pose un souci particulier : les commentaires sont susceptibles de fournir des indices sur les technologies utilisées par les serveurs ou encore sur certains dossiers isolés des robots d’indexation.

L’examen des instructions Disallow est tout aussi riche en enseignements. Illustration sur le site de la Knesset, Chambre législative israélienne : le fichier robots.txt contient des références à plus de 10 000 documents qui ne doivent pas être indexés.

Problème : la plupart sont encore trouvables en ligne. En passant par un service de traduction, on s’aperçoit qu’il s’agit de comptes rendus de réunions à teneur parfois très confidentielle.

Autre exemple : ces 9000 documents du gouvernement américain (state.gov) qui ont subitement disparu des moteurs de recherche au printemps 2013… mais que l’on peut retrouver grâce à des services comme Internet Archive.

Crédit photo : Rueangrit Srisuk – Shutterstock.com

Recent Posts

Avec Phi-3-mini, Microsoft va-t-il convertir les PME à la GenAI ?

Microsoft lance Phi-3-mini, un petit modèle de langage (SLM) qui s'adresse aux entreprises ne disposant…

4 jours ago

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

4 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago