LexiMine couple la linguistique et la statistique

Cloud

Trop d’informations tue l’information. Pour optimiser la recherche comme l’analyse de données, LexiQuest, l’éditeur de logiciels de recherche d’informations pour Internet et Intranet, lance LexiMine, un outil inédit de classification automatique d’informations en langage naturel.

LexiQuest commercialise trois gammes : LexiGuide pour faire de la recherche intelligente d’information à partir d’une requête rédigée en langage courant, LexiSez pour dialoguer sur un site Web grâce à un assistant capable de répondre à des questions, LexiMine pour extraire et filtrer des informations clés pour l’entreprise. La version 1 de Leximine, récemment annoncée, se dédie aux applications d’intelligence économique et de gestion de la connaissance (knowledge management).

Concrètement, LexiMine permet d’extraire, de classer et de visualiser automatiquement sous une forme cartographique, les informations dans de grandes bases de documents sur Internet et Intranet. Point fort ? LexiMine allie trois algorithmes statistiques et un processeur linguistique. « Cette combinaison de la linguistique (méthode traditionnellement française, ndlr) et de la statistique (méthode américaine) permet d’extraire des chaînes de caractères et de travailler sur des concepts », explique Olivier Jouve, Directeur des Produits de « Text Mining » de LexiQuest. L’analyse linguistique s’effectue au moyen d’un dictionnaire électronique (en anglais et en français, bientôt en espagnol et en allemand) pour extraire les termes pertinents (mots-composés, expressions, noms de personnes, de produits ou de sociétés, etc.).

Comment cela fonctionne ? Indiquez les sources et Leximine aspire 300 à 400 000 pages en une heure. Puis passe à l’étape critique : « Leximine analyse les textes pour extraire les noms de personnes, de produits, des entreprises, etc. » explique Olivier Jouve. « L’extracteur linguistique fait la différence entre une personne et une entreprise. Et l’analyse statistique permet de mettre en relation des phénomènes conjoncturels, important lorsque l’on fait de la veille, par exemple » ajoute-t-il. Aussi, l’utilisateur change dynamiquement d’algorithme statistique en fonction de son objectif : « Organise » pour ordonner un domaine, « Découverte » pour naviguer dans un domaine inconnu et « Track » pour déceler des signaux faibles. Les statistiques de « mots associés » permettent la détection des signaux faibles (par exemple, pétrole et Guerre du Golfe), et les statistiques de « co-occurrence » d’établir les relations fortes entres des thèmes (par exemple : pétrole et Total). En outre, LexiMine permet d’archiver les cartes pour observer leurs évolutions.

Développé en Java et fonctionnant sous Windows NT, Linux et Unix Solaris, LexiMine 1.0 cible également les grands sites portails qui veulent intégrer un moteur de recherche performant. Un serveur LexiMine 1.0 est disponible à partir de 150 000F HT et son prix varie alors en fonction du nombre de couches linguistiques.

LexiMine V2 est prévu pour juin pour environ 250 000 F HT et intègrera des fonctions de paramétrages plus pointues pour satisfaire les besoins des Grands Comptes qui font de l’intelligence économique et de la gestion de connaissance. Ou encore les grands cabinets de consultants. Olivier Jouve indique aussi que LexiQuest travaille à la diffusion en ASP (Application Service Providing) de LexiMine. Mais pour le moment, le coût de cet outil pourra paraître prohibitif aux plus petites structures qui se tournent alors vers les produits comme Umap et Kartograph de Trivium, Péricles de Datops ou encore Autonomy qui analyse les termes comme les contextes (voir édition du 25 janvier 2000).

Pour en savoir plus :

* Lexiquest

* Une liste d’agents intelligents par l’Abeille, un site sur l’intelligence économique