Des données en pleine forme

Le 31/05/2023 (Mis à jour le 05/06/2023 ) Edouard Lesca

25860667_7088807.jpg

L'organisation des données est clé pour faciliter leur accès. (Source : Freepik)

Vous croulez sous les données au point de craindre de les détériorer ou ne pas parvenir à les valoriser suffisamment. Il est temps de prendre en main leur organisation. La définition d’une structure à adopter s’impose.

Quelles sont les attentes

Avant de se lancer dans la structuration ou la restructuration de ses données, mieux vaut réfléchir aux besoins auxquels cela doit répondre. On peut distinguer trois types d’attentes :

1 - créer et mettre à jour : il faut évidemment une structure qui permettent de créer et mettre à jours ses données, autrement dit les gérer ;
2 - historiciser : garder un historique des données et de leur enrichissement ;
3 - accéder aux données pour les interroger, les manipuler, les analyser.

Ces besoins correspondent à des structures différentes.

Structure transactionnelle

Une structure de gestion relève d’un modèle de données transactionnel - en informatique, une transaction est mise en œuvre via une suite d'opérations qui font passer la base de données d'un état A, antérieur à la transaction, à un état B postérieur (par exemple une réservation, un achat ou un paiement). Dans la mesure du possible, ce modèle doit limiter les redondances.
Si son point fort est la gestion, son point faible est l’accès aux données, limité en volume et répétitif.

Structure data vault

D’une certaine façon, il est question ici de stockage, mais en dehors de toute contrainte d’outil ou de technologie. L’objectif de cette modélisation est de représenter correctement les objets métiers (par exemple : produit, magasin, employé, client, vente) dans la globalité d’une organisation.

Sont aussi stockés, d’une part, les relations entre ces différents objets métiers (“links”) et, d’autre part, les attributs de ces objets et l’historique de leurs évolutions (“satellites”).

Revers de la médaille : cette structuration serait moins agile pour l’opérationnel, tant pour la gestion que pour l’usage des données, limité en nombre.

Structure dimensionnelle

Cette modélisation ambitionne de simplifier les accès aux données. Elle doit pouvoir faire face à de très nombreuses demandes d’accès, celles-ci étant prévisibles ou non. On parle de structure dimensionnelle en étoile : au centre, les faits, et autour, les dimensions décrivant ces faits.

Au passage, l’historique des données est ici aussi conservé, mais pas de la façon la mieux optimisée. En particulier, la traçabilité est difficile à assurer de façon fiable. De plus, cette modélisation peine à intégrer un nombre important de sources.

Quelle structure choisir

Difficile de dire si pour tel environnement, tel contexte métier, une structure est forcément mieux adaptée qu’une autre et s’impose.

En fait, la plupart du temps, on penche volontiers pour un mix de ces trois types de modélisation : elles répondent à des besoins que l’on rencontre simultanément presque dans toutes les organisations.

Une architecture adéquate permet leur agencement dans cette intention. Seront ainsi concentrées les données brutes - données sources et données retraitées en fonction de règles techniques (typiquement, un format de date) -, l’historicisation et les données prêtes à l’usage, requêtables. Les usagers métier pourront alors s’en donner à coeur joie.

D’autant s’ils peuvent aussi bénéficier d’une solide intégration avec leur environnement opérationnel et recourir à des outils de data visualization. Pour leur part, les data scientists travailleront avec des outils d’analyse spécifiques.

Pour en savoir plus, téléchargez gratuitement le supplément Archimag "Data : Comment les gérer et les mettre au services de vos activités ?" en cliquant ici !