Des données en pleine forme

  • 25860667_7088807.jpg

    data-organisation-stockage-donnees-donnee.jpg
    L'organisation des données est clé pour faciliter leur accès. (Source : Freepik)
  • Vous croulez sous les données au point de craindre de les détériorer ou ne pas parvenir à les valoriser suffisamment. Il est temps de prendre en main leur organisation. La définition d’une structure à adopter s’impose.

    Quelles sont les attentes

    Avant de se lancer dans la structuration ou la restructuration de ses données, mieux vaut réfléchir aux besoins auxquels cela doit répondre. On peut distinguer trois types d’attentes :

    1 - créer et mettre à jour : il faut évidemment une structure qui permettent de créer et mettre à jours ses données, autrement dit les gérer ;
    2 - historiciser : garder un historique des données et de leur enrichissement ;
    3 - accéder aux données pour les interroger, les manipuler, les analyser.

    Ces besoins correspondent à des structures différentes.

    Structure transactionnelle

    Une structure de gestion relève d’un modèle de données transactionnel - en informatique, une transaction est mise en œuvre via une suite d'opérations qui font passer la base de données d'un état A, antérieur à la transaction, à un état B postérieur (par exemple une réservation, un achat ou un paiement). Dans la mesure du possible, ce modèle doit limiter les redondances.
    Si son point fort est la gestion, son point faible est l’accès aux données, limité en volume et répétitif.

    Structure data vault

    D’une certaine façon, il est question ici de stockage, mais en dehors de toute contrainte d’outil ou de technologie. L’objectif de cette modélisation est de représenter correctement les objets métiers (par exemple : produit, magasin, employé, client, vente) dans la globalité d’une organisation.

    Sont aussi stockés, d’une part, les relations entre ces différents objets métiers (“links”) et, d’autre part, les attributs de ces objets et l’historique de leurs évolutions (“satellites”).

    Revers de la médaille : cette structuration serait moins agile pour l’opérationnel, tant pour la gestion que pour l’usage des données, limité en nombre.

    Structure dimensionnelle

    Cette modélisation ambitionne de simplifier les accès aux données. Elle doit pouvoir faire face à de très nombreuses demandes d’accès, celles-ci étant prévisibles ou non. On parle de structure dimensionnelle en étoile : au centre, les faits, et autour, les dimensions décrivant ces faits.

    Au passage, l’historique des données est ici aussi conservé, mais pas de la façon la mieux optimisée. En particulier, la traçabilité est difficile à assurer de façon fiable. De plus, cette modélisation peine à intégrer un nombre important de sources.

    Quelle structure choisir

    Difficile de dire si pour tel environnement, tel contexte métier, une structure est forcément mieux adaptée qu’une autre et s’impose.

    En fait, la plupart du temps, on penche volontiers pour un mix de ces trois types de modélisation : elles répondent à des besoins que l’on rencontre simultanément presque dans toutes les organisations.

    Une architecture adéquate permet leur agencement dans cette intention. Seront ainsi concentrées les données brutes - données sources et données retraitées en fonction de règles techniques (typiquement, un format de date) -, l’historicisation et les données prêtes à l’usage, requêtables. Les usagers métier pourront alors s’en donner à coeur joie.

    D’autant s’ils peuvent aussi bénéficier d’une solide intégration avec leur environnement opérationnel et recourir à des outils de data visualization. Pour leur part, les data scientists travailleront avec des outils d’analyse spécifiques.

    Pour en savoir plus, téléchargez gratuitement le supplément Archimag "Data : Comment les gérer et les mettre au services de vos activités ?" en cliquant ici !

     

    À lire sur Archimag
    Les podcasts d'Archimag
    La mise à disposition des décisions de justice en Open Data a vu le jour grâce à la loi pour une République numérique votée en 2016. Les articles 20 et 21 prévoient la mise en open data des quatre millions de décisions de justice produites chaque année par les tribunaux français. Camille Girard-Chanudet est chercheuse en sociologie au sein du Centre d’étude des mouvements sociaux. En 2023, elle a soutenu une thèse devant l’École des hautes études en sciences sociales (EHESS) : "La justice algorithmique en chantier, sociologie du travail et des infrastructures de l’intelligence artificielle". Dans ce cadre elle a rencontré les équipes de la Cour de cassation qui procèdent à l’anonymisation des décisions de justice.

    Serda Formations Data 2023