Pour gérer vos consentements :
Categories: Cloud

Google propose son index « N-gram » sur DVD

Google a annoncé qu’il allait mettre son index « N-gram » à disposition de la communauté scientifique. Six DVD seront nécessaires pour stocker le billion (million de million) de mots tirés de son analyse textuelle des contenus trouvés sur le web. « N-gram » (ou n-gramme) est un modèle de prédiction, qui trouverait son origine à travers les travaux sur la Théorie de l’information de Claude Shannon.

L’équipe de traduction automatique de Google (Google Machine Translation Team) exploite ce modèle dans le cadre de ses recherches et particulièrement dans la traduction automatique, l’extraction d’informations, la correction orthographique ou encore la reconnaissance vocale.

L’index de Google est composé de 1 011 582 453 213 mots courants et complété par plus d’un milliard (1 146 580 664) de séquences de 5 mots apparues plus de 40 fois et de 13 millions (13 653 070) de mots uniques (après nettoyage des termes trouvés moins de 200 fois). Bref, l’index de Google est une mine d’or pour la recherche linguistique.

« Nous pensons que l’ensemble des chercheurs doit avoir accès à une telle masse d’information », précise la Google Machine Translation Team sur son blog, » cela fera avancer la recherche […]. » Google, qui fournira sa base de donnée à qui la demandera, estime notamment que cela permettra aux équipes de recherche de travailler sur un pied d’égalité, quelles que soient leurs ressources informatiques.

Google n’a pas précisé la date de lancement pour la distribution de son indexe, ni les conditions commerciales des son accès. Seule précision : son  » N-Gram » sera annoncé à partir du site de l’Institut des données linguistiques (LDC).

Recent Posts

Avec Phi-3-mini, Microsoft va-t-il convertir les PME à la GenAI ?

Microsoft lance Phi-3-mini, un petit modèle de langage (SLM) qui s'adresse aux entreprises ne disposant…

1 jour ago

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

4 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago