Pour en finir avec les liens morts?

Cloud
Information - news

Error 404″. Il n’est pas un internaute qui n’ait déjà eu affaire à ce message sibyllin, indiquant que le document que l’on cherche n’existe plus. Deux chercheurs de Berkeley viennent de proposer une méthode pour les retrouver automatiquement.

Selon Andrei Broder, vice président chez Altavista, un lien sur cinq mène à l’irritant message « Error 404, page not found » (page inaccessible). L’essence même du Web repose sur les liens hypertextes, c’est-à-dire ceux sur lesquels on clique pour passer d’une page à une autre. Quand ça marche, le procédé est quasiment magique. En revanche, lorsque l’on tombe sur un lien mort, qui ne mène donc nulle part, cela devient particulièrement frustrant. Deux chercheurs de l’université de Berkeley, en Californie, viennent de proposer une méthode qui pourrait éviter un grand nombre de ces liens sans issue.

Leur réflexion repose sur un postulat de base très simple qui veut qu’en règle générale, le document vers lequel pointait le lien n’a pas disparu. C’est plutôt l’adresse du document qui a changé. L’idée est donc d’adjoindre à l’adresse d’une page Web, autrement appelée URL pour Uniform Resource Locator, un certain nombre de mots décrivant de façon précise et quasi unique le contenu du document que l’on souhaite atteindre. Une des découvertes majeures des deux scientifiques, Robert Wilensky et Thomas Phelps, est qu’un maximum de cinq mots suffirait pour désigner à coup sûr un document de façon unique. Le principe repose sur la sélection des mots qui sont les plus fréquemment utilisés dans le document tout en étant les moins utilisés dans tous les autres documents du Web. Un état désigné par les termes anglais « term frequency and inverse document frequency value ». Selon les auteurs de la recherche, le calcul d’une telle valeur est très facilement automatisable. Il suffit de compter le nombre d’occurrences de chaque mot dans un document, de classer les résultats par ordre décroissant, et d’interroger un moteur de recherche pour chacun d’eux afin d’en connaître la fréquence d’utilisation sur le Web. On obtient en fin de course une signature « lexicale » unique. Selon les chercheurs Wilensky et Phelps, 5 mots sont un maximum et un plus petit nombre devrait suffire.

Une fois déterminée cette signature unique, il suffit de l’ajouter à l’adresse URL classique. Selon les deux chercheurs, cette méthode dite de « liens robustes » répond à tous les impératifs de la navigation sur Internet. Une grande efficacité tout d’abord, sans pour autant trop influer sur les performances si le lien fonctionne normalement, ce qui est vrai dans 80 % des cas tout de même.

Le seul problème, finalement, est la nécessité de modifier, même de façon minime, les butineurs pour qu’ils soient capables de lancer une recherche sur un moteur avec les mots clés accolés à l’URL. Et il faudra également créer les liens incluant les mots clés. Ce qui demanderait certainement une certaine discipline de la part des créateurs de pages.

Andrei Broder, qui a également travaillé dans ce domaine, pense pour sa part qu’un document peut être identifié de façon unique à l’aide de 8 mots. Le principal risque de la méthode, explique-t-il, tient au fait que la signature lexicale peut reposer sur des mots qui peuvent disparaître des documents, comme les mots mal orthographiés et corrigés après la définition de la signature.