Pour gérer vos consentements :
Categories: Mobilité

Misterbot adopte la technologie de recherche open source Nutch

Le petit moteur francophone Misterbot a adopté la technologie open source Nutch. Objectif : se différencier des grands outils disponibles sur le marché français. « On constate de plus en plus qu’une immense partie des moteurs se sont rapprochés du modèle de Google pour classer leurs résultats quasiment dans le même ordre et qu’il y a un intérêt pour un type de recherche complémentaire », justifie Sylvain Milon, le créateur de Misterbot et de sa régie publicitaire Misterbot.com.La principale originalité de cette technologie réside dans la transparence de son activité d’indexation. Un lien « Pertinence » figurant en bas de chaque résultat indique pourquoi « ce site a été sélectionné plus qu’un autre pour répondre à votre requête », précise Sylvain Milon. Il ajoute que Nutch offre un autre avantage pour un outil de recherche francophone, avec son « système de plug-in linguistique qui permet de déterminer la langue d’une page et donc de restreindre l’indexation aux contenus rédigés dans une langue donnée ».Créé en 2001 par SM Conseils, Misterbot s’appuyait à l’origine sur un script open source en langage C++, Aspseek, avec lequel il a indexé plus de 34 millions de pages Web en quatre ans. En adoptant Nutch, un programme en Java, le moteur redémarre actuellement entièrement son indexation et espère accroître ses capacités de crawling. « Contrairement à ASPSeek, qui ne peut gérer qu’un seul serveur, Nutch présente l’intérêt de pouvoir gérer un ensemble très important de serveurs. Il s’appuie pour cela sur la technologie MapReduce développée par Google », s’enthousiasme Sylvain Milon.A l’origine de NutchCette technologie de recherche est issue d’un projet communautaire coordonné depuis 2003 par le développeur américain Doug Cutting (un ex-employé du moteur Excite). Elle est déjà exploitée par d’autres moteurs comme l’américain Mozdex ou le belge Illico Presto. Un groupe de développeurs français travaille en outre actuellement sur une déclinaison « gauloise » de cette initiative, baptisée Frutch (pour « FRench nUTCH »).A noter, enfin, que le projet Nutch a bénéficié en 2003 d’un soutien financier de la part d’Overture, la régie publicitaire rachetée par Yahoo durant cette même année. Ce dernier l’a testée sur un serveur dédié avant d’interrompre son projet fin 2004.

Recent Posts

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

3 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago

Microsoft Teams : comment fonctionne le double usage « pro-perso »

Microsoft Teams évolue dans une version « unifiée » qui permet de combiner les usages…

2 mois ago