Derniers articles

Quelles sont les doses d'ondes électromagnétiques reçues {…}

Lire la suite

Partenaire depuis cinq ans de Bouygues Telecom, Ericsson va dé {…}

Lire la suite

À l'heure où Free bouleverse le marché mobile français, l {…}

Lire la suite

Le célèbre portail personnalisé Netvibes devient aujourd’hui l {…}

Lire la suite

Derniers articles

Le site de rencontres français le plus en vogue actuellement a {…}

Lire la suite

Le cyberactiviste le plus connu de la planète a été mis à l’ho {…}

Lire la suite

Le célèbre ex Beatles a ouvert à tous les internautes l’accès {…}

Lire la suite

“On vous quitte pour Free”, c’est le titre de la chanson humor {…}

Lire la suite

Derniers articles

Chrome 17 est dorénavant en vie, finie la bêta, la nouvelle ve {…}

Lire la suite

« Quelqu’un a un chargeur d’iPhone ? » est sans doute la quest {…}

Lire la suite

Les rumeurs concernant une éventuelle voiture fabriquée par Ap {…}

Lire la suite

Le prochain film d’action épique « Battleship » d’Universal Pi {…}

Lire la suite

Derniers articles

Le spécialiste de la relation client Salesforce.com lance Desk {…}

Lire la suite

Après une intense phase de restructuration, AMD va maintenant {…}

Lire la suite

La semaine dernière, quelques minutes avant que ne démarre la {…}

Lire la suite

Les professionnels du Web sont familiers avec les outils du E- {…}

Lire la suite

[x]Fermer

Actualité

googlepicasso

Sites web : les fichiers robots.txt avantagent Google

Des chercheurs ont découvert que les fichiers Robots.txt avaient tendance à avantager les robots d’indexation de Google.

Selon une nouvelle étude, les webmasters qui contrôlent l’accès automatique à leur site via des fichiers ‘robots.txt’ avantagent Google par rapport aux autres moteurs de recherche. Cette affirmation est le résultat d’une étude de plus de 7 500 sites Web réalisée par les chercheurs de la Penn State University.

C. Lee Giles, professeur en sciences et technologies de l’information à Penn State, responsable de l’équipe de recherche qui a mis au point le moteur de recherche BotSeer pour cette étude, a qualifié de « surprenant » le biais pro-Google.


« Nous pensions que les fichiers ‘robots.txt’ traitaient tous les moteurs de recherche de la même manière ou qu’ils désavantageaient peut-être certains robots malveillants », explique-t-il. « Nous avons donc été étonnés de découvrir une forte corrélation entre les robots avantagés et la part de marché des différents moteurs de recherche. »

Les fichiers ‘Robots.txt’ ne sont pas un standard officiel, mais par accord informel, ils permettent de réguler les robots d’indexation (également appelés « spider ») qui analysent le Web en permanence. Les webmasters utilisent les fichiers disponibles dans un répertoire du site Web pour limiter l’accès des robots d’indexation aux informations non-publiques.

Les fichiers ‘Robots.txt’ sont également utilisés pour réduire la charge sur les serveurs qui peut entraîner un déni de service et conduire à la fermeture du site Web. Mais certains webmasters et administrateurs écrivent des fichiers ‘robots.txt’ qui ne bloquent pas les accès de façon homogène.

Selon les chercheurs, ces fichiers offrent un accès à Google, Yahoo et MSN mais limitent l’accès aux autres moteurs de recherche. Si l’étude n’explique pas pourquoi les webmasters ont choisi d’avantager Google, les chercheurs affirment que ce choix a été fait en toute connaissance de cause. Ne pas utiliser de fichier ‘robots.txt’ revient à donner à tous les robots un égal accès à un site Web.

« Les fichiers ‘Robots.txt’ sont écrits par les webmasters et les administrateurs qui spécifient intentionnellement Google comme le moteur de recherche favori », explique le professeur Giles.

Tous les sites ne possèdent pas de fichier ‘robots.txt’, mais leur nombre est en augmentation. Sur les 7 500 sites analysés par les chercheurs, environ quatre sur dix possédaient ce type de fichier, contre moins d’un sur dix en 1996.

Adaptation de l’article Google bots get the red carpet treatment de Vnunet.com en date du 19 novembre 2007.

Derniers commentaires




3 Responses to Sites web : les fichiers robots.txt avantagent Google

  • Le 20 novembre 2007 à 11:33 par eric clairet

    On pourrait croire qu’un fichier robot.txt amène à être mieux classé sur Google alors qu’en fait on voit que les webmaster choisissent de favoriser le passage du spider de google sur leur site et filtrent les spiders des moteurs à la popularité anecdotique. Quelle conclusion en tirer ? Que Google représente une part de marché si importante qu’on doit lui dérouler le tapis rouge ? Oui, certainement. Reste à évoquer le respect de ce fichier robots.txt par les spiders. C’est une autre histoire.

  • Le 20 novembre 2007 à 20:54 par Johan

    Vous ne parlez que de Google, mais vous dites en plein milieu de l’article « Selon les chercheurs, ces fichiers offrent un accès à Google, Yahoo et MSN mais limitent l

  • Le 20 novembre 2007 à 20:54 par Johan

    Vous ne parlez que de Google, mais vous dites en plein milieu de l’article « Selon les chercheurs, ces fichiers offrent un accès à Google, Yahoo et MSN mais limitent l

Laisser un commentaire

  • Les champs obligatoires sont indiqués avec *,
    Votre adresse de messagerie ne sera pas publiée.

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>