Bad data : le faux ami dissimulé dans vos données

Big dataData-stockage
shutterstock_228162115
Blog proposé par Dell EMC

Données incomplètes, fausses ou inexploitables, les bad data sont de faux amis qui se cachent dans les vastes gisements de données et qu’il faut absolument éradiquer. Faute de quoi elles nuiront aux prises de décisions nées du Big Data.

Parties intégrantes du big data, les bad data sont de faux amis qui se cachent dans les vastes gisements de données et qu’il faut absolument éviter. Il s’agit de données incomplètes, fausses ou inexploitables, qu’il convient de repérer avant qu’elles ne nuisent aux prises de décisions.

bd_bad_data

« La bonne information, à la bonne personne, au bon moment, pour prendre les bonnes décisions ». Cette célèbre phrase du professeur d’université américain Michael Porter sur les enjeux de l’intelligence économique est plus que jamais d’actualité aujourd’hui. Car si tout le monde parle des promesses que nous réservent les gisements de données internes ou externes, structurées ou non, de plus en plus de voix s’élèvent pour nous mettre en garde contre les risques liés aux bad data, ces données fausses, incomplètes ou susceptibles d’être mal interprétées. Le danger ? Prendre pour argent comptant ces mauvaises données qui se cachent dans les big data, et en tirer des conclusions erronées qui risquent de mener l’entreprise dans la mauvaise direction.

Nombreux sont les articles qui rappellent qu’au cours d’une analyse, une petite erreur d’interprétation sur un mot au départ peut générer une grande différence de résultat à l’arrivée. On ne compte plus les incidents boursiers engendrés par une interprétation hâtive ou erronée de certains chiffres ou les problèmes posés par des bases de contacts incomplètes ou obsolètes.

“Toute donnée est potentiellement mauvaise
si elle est regardée sous le mauvais prisme.”

Des analyses plus poussées

« Du big data au bad data, le pas est vite franchi et le paradoxe évident : si la granularité des données est aujourd’hui beaucoup plus forte, la fiabilité finale des chiffres ne s’est pas forcément accrue », écrit par exemple Didier Le Menestrel, président de La Financière de l’Echiquier, société française spécialisée dans la gestion de fonds, dans un billet de blog. Il invite les investisseurs à privilégier « les fourchettes », plutôt que les « chiffres exacts », et à relativiser les indicateurs toujours plus nombreux en les comparant à d’autres statistiques « moins prisées mais parfois plus pertinentes ».

D’un point de vue technologique, les solutions sont multiples : elles passent principalement par de nouveaux outils d’analyse des données, l’intégration des données stockées jusqu’alors dans des silos distincts, l’optimisation du stockage de ces données et la mise en place d’infrastructures évolutives, qui vous garantiront un accès à la demande à toute la puissance de calcul utile pour traiter en temps réel de très larges corpus de données. Ces changements aideront à conduire des recherches ad hoc et à identifier plus facilement les « bonnes » questions.

Bad un jour, bad toujours ?

Face à la croissance exponentielle des data, l’éradication pure et simple des bad data semble illusoire. D’une part, toute donnée peut être mauvaise si elle est regardée sous le mauvais prisme. Et d’autre part, une bad data est parfois aussi une « B.A.D. Data » (« Best Avalailable Data »), qui s’ignore. Autrement dit, cette dernière a peut-être simplement besoin d’être enrichie et vérifiée par un « data scientist » pour devenir « la meilleure info à disposition ». Pour le cabinet français Jems Research, « la solution consiste à fiabiliser ces mauvaises données en supprimant les doublons, en redressant celles qui sont mal formées ou incomplètes pour les amener au même niveau de qualité que les autres ». Même une bad data peut avoir bon fond.

>>> Pour plus d’information, rendez-vous sur Tech Page One