Big Data : mythes et réalités

Data-stockage
Blog proposé par Dell EMC

Au-delà des algorithmes analytiques et prédictifs, on définit souvent le Big Data par les 3 ou 5 V : volume, variété, vitesse, véracité et valeur. Même s’ils fleurent bon le marketing, ces termes recèlent quelques enseignements précieux.

Tout a commencé avec les 3 V : Volume, variété, vitesse. Trois mots censés résumer les problématiques posées par la gestion de l’information et démontrer l’incapacité des outils d’analyse en place de traiter de tels volumes, aussi variés et à grande vitesse.

dell

Les 3 V originaux du Big Data

L’objectif des 3 V visait aussi, et surtout, à prouver l’intérêt de recourir aux technologies Big Data pour remédier à ces situations face auxquelles les solutions de datawarehouse ou datamarts classiques se révèlent impuissantes ou très onéreuses.

Volume

E-mails, documents bureautiques, transactions commerciales ou dans les ERP, tweets, photos, senseurs et capteurs : combien d’informations sont produites chaque seconde ? Selon une étude de l’institut IMS Research, il y aura plus de 22 milliards d’appareils connectés à internet d’ici 5 ans et ces derniers généreront près de 3 trillions d’octets d’information par jour. Les entreprises ne parlent plus en gigaoctets, mais déjà en téraoctets, voire en pétaoctets.

Concrètement, comment tirer des enseignements sur une marque ou un produit en analysant plusieurs téraoctets de tweets produits chaque jour et en quelques minutes ? Comment analyser plusieurs dizaines de millions compteurs électriques en temps réel pour anticiper une panne ? C’est ce type de questions auxquelles s’attaquent les technologies Big Data. Et les datawarehouses traditionnels ne sont pas conçus pour ce type d’analyse.

Variété

Traditionnellement, l’informatique analytique traite les données structurées issues des bases de données. Or, plus de 80 % des informations produites sont dites non structurées : textes, images, vidéos, voix, capteurs, etc. Le Big Data se propose d’effectuer des analyses sur l’ensemble des informations, structurées ou non. Corréler toutes ces informations permet de prendre de meilleures décisions et de fiabiliser les tendances en analyse prédictive.

Voici quelques exemples des bénéfices de la corrélation de ces informations : analyser les comportements d’achat en temps réel pour mieux conseiller et augmenter le volume de transactions, améliorer sa relation client sur tous les canaux, dégager les tendances pour définir des modèles statistiques et améliorer ses produits ou services, ou profiler anonymement ses consommateurs…

Vitesse

Lorsqu’il s’agit de détecter de la fraude au niveau international ou de proposer la meilleure offre au client selon son profil au moment même de son achat, attendre deux minutes est souvent intolérable. La vitesse est donc l’une des caractéristiques du Big Data qui utilise des technologies de pointe éprouvées pour obtenir des performances inédites : traitement massivement parallèle, In-Memory, clustering, etc.

Au départ réservé aux traitements différés de gros volumes de données en mode batch, le Big Data intègre aujourd’hui le streaming de données et le temps réel, y compris avec la possibilité de ne rien stocker. Ainsi, il devient possible d’analyser des millions de transactions commerciales par jour pour détecter d’éventuelles fraudes. Ou encore de corréler en temps réel les informations issues des réseaux sociaux et du CRM (logiciel de gestion de la relation client) pour qualifier précisément un client.

Deux nouveaux V : objectif business

Les premiers projets Big Data ont souvent bluffé leurs initiateurs par leurs performances et leur capacité à effectivement intégrer de grands volumes de données très variées. Mais ils ont aussi mis en lumière deux autres V, l’un pour la qualité de l’information, l’autre pour la valeur intrinsèque apportée à l’entreprise. Bref : la fin de l’expérimentation pour ouvrir la voie à la l’opérationnalisation.

Véracité

À quoi bon analyser un grand volume de données s’il l’on ne peut s’assurer de la fiabilité de l’information ? Des mécanismes de vérification de la véracité et de la qualité des données sont donc intégrés aux processus Big Data, impliquant généralement les utilisateurs finaux, pour mériter la confiance des utilisateurs métiers. Une grande rigueur dans la sélection des sources de données, leur collecte, leurs recoupements et leur enrichissement, s’avère cruciale. Sans oublier les obligations légales selon le secteur de l’entreprise.

Valeur

Ce dernier V est certainement celui qui devrait arriver en tête lors du lancement d’un projet Big Data. Quelle valeur cette application apportera-t-elle à l’entreprise ou à l’activité pour laquelle elle est développée ? La création de valeur pour l’entreprise et ses clients est effectivement au cœur du sujet Big Data. Néanmoins, la capacité de ces technologies à dévoiler des résultats ou des tendances inattendus ou inédits contribue fortement à son succès auprès des utilisateurs qui sont de plus en plus demandeurs. Et n’est-ce pas là une preuve de la valeur créée ?

Exemple avec l’analyse en temps réel des opérations informatiques. Celle-ci permet de détecter instantanément les pannes et même de les anticiper, via des outils de supervision avec alertes. Non seulement les incidents sont détectés, mais bien souvent leur origine probable est aussi mentionnée. Système informatique optimisé, productivité améliorée : forte valeur ajoutée.