Twitter annonce l’indexation de tous les tweets diffusés en mode public depuis la création de la plateforme de micro-blogging en 2006. Ce qui représente un volume de plusieurs centaines de milliards de messages en 140 caractères, qui est désormais archivé et qui sera prochainement mis à la disposition des internautes en consultation par requête moteur.
Cette mémoire de Twitter permet de replonger dans les archives de l’actualité ou de thématiques fortes à travers des hashtags associés comme #TEDGlobal (cycles de conférences de prospective), #JapanEarthquake (séisme et tsunami du Japon de mars 2011) ou #HongKong (mouvement actuel de contestation au régime chinois).
« Notre moteur de recherche excelle pour brasser l’actualité brûlante et couvrir les évènements en temps réel et notre infrastructure d’indexation des recherches reflète cette tendance forte d’englober le présent. Mais notre objectif à terme a toujours été de permettre aux gens de chercher à travers tous les tweets publiés », précise un collectif de managers et de chercheurs chez Twitter.
Sachant que le projet d’indexation intégrale des tweets a a démarré en 2012 et qu’il a été supervisé par Yi Zhuang et Paul Burstein. Des schémas de conception technique sont divulgués dans la contribution blog dense synthétisant ce vaste projet.
Pour parvenir à ce degré d’indexation, Twitter a conçu une infrastructure mêlant des capacités de modularités, d’adaptation de montée en charge (« scability », sachant que l’index ingurgite plusieurs milliards de nouveaux tweets par semaine), une certaine rationalité en termes de coûts d’exploitation (l’ensemble de l’index en temps réel est hébergé en technologies mémoire vive RAM à faible latence et à réactualisation rapide), une interface simple et un développement imprégné d’une dimension incrémentale (plusieurs paliers franchis en exploitant une architecture multi-tier).
—-
Utilitaire ITespresso.fr : Savez-vous où se trouve la 4G près de chez vous ?
—
Crédit photo : Twitter
Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…
Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…
Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…
La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…
Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…
Microsoft Teams évolue dans une version « unifiée » qui permet de combiner les usages…