Pour gérer vos consentements :

Big data : LinkedIn verse dans l’open source pour développer WhereHows

Au tour de LinkedIn de miser sur l’open source pour améliorer un outil développé en interne.

La société Internet américaine confie à la communauté sa solution WhereHows, qui associe un entrepôt de métadonnées et des outils de découverte.

Selon l’équipe Data chargée du projet, il s’agit de « créer un référentiel central et un portail pour les processus, les utilisateurs et les connaissances autour de l’élément le plus important de tout système big data : les données elles-mêmes ».

En l’état actuel, WhereHows* regroupe les métadonnées liées à 50 000 jeux de données représentant l’équivalent de 15 Po répartis sur différents clusters. Mais aussi à 14 000 commentaires, ainsi qu’à 35 millions d’opérations sur les données et d’éléments concernant la ligne de données.

Principal objectif pour LinkedIn : disposer d’une vue unifiée de ses silos de données en unifiant la grande diversité des environnements big data constitués au fil du temps.

Le réseau social professionnel travaille effectivement avec de nombreuses sources et bassins d’information. Ses flux de production sont pilotés par différents moteurs d’ordonnancement et de multiples moteurs de transformation sont exploités pour créer et traiter des données dérivées.

Cette spécialisation garantit l’accès au meilleur outil pour chaque tâche, mais elle ne permet pas de donner facilement un sens au flux de données global.

C’est là qu’intervient WhereHows, dont la mise en place a débuté après la construction d’un data warehouse regroupant les données essentielles des différents silos.

Le chantier, encore loin d’être finalisé, devrait s’accélérer par la voie de l’open source. Pour l’heure, l’entrepôt est accessible via une API et une interface Web. Celle-ci inclut des fonctions de recherche, de visualisation des liens de parenté et de collaboration – des annotations, par exemple.

Il est question d’intégrer, dans le court terme, des systèmes de provisionnement et de gestion du cycle de vie des données, comme Nuage et Gobblin.

* L’architecture de WhereHows se compose du référentiel, d’un serveur Web qui récupère les données au travers des deux interfaces (Web app, API) et d’un serveur back-end qui cherche périodiquement les métadonnées sur d’autres systèmes.

Crédit photo : hin255 – Shutterstock.com

Recent Posts

Avec Phi-3-mini, Microsoft va-t-il convertir les PME à la GenAI ?

Microsoft lance Phi-3-mini, un petit modèle de langage (SLM) qui s'adresse aux entreprises ne disposant…

2 jours ago

IA et RGPD : sont-ils compatibles ?

Quelle part d’incertitude faut-il accepter dans la mise en conformité des IA avec le RGPD…

3 semaines ago

Windows 10 : quel coût pour le support étendu ?

Microsoft a dévoilé les prix des mises à jour de sécurité étendues pour Windows 10.…

4 semaines ago

Cybersécurité : la plan de Docaposte pour convaincre les PME

Docaposte a sélectionné une douzaine de spécialistes français pour créer un Pack cybersécurité spécialement étudié…

1 mois ago

Surface Pro 10 : plus autonome et un peu plus réparable

La Surface Pro 10 sera disponible le 9 avril en France. Passage en revue de…

1 mois ago

Office 2024 : ce qu’on sait de la prochaine version

Que réserve Office 2024 ? Une première version de test officielle sera disponible en avril.…

1 mois ago