Article réservé aux abonnés Archimag.com

Vrac numérique : des outils pour le cerner

  • vrac-numerique-outils.jpg

    vrac-numerique-outils
    Dans leurs démarches, Alfresco comme Zeenea entendent répondre à une préoccupation de gouvernance de l’information ou des données. La conformité, notamment en matière de données personnelles (RGPD), en dépend. (Freepik/@rawpixel.com)
  • Ce ne sont pas les outils qui sont responsables du vrac numérique. Du côté de la gestion de contenu, on se plie pourtant en quatre pour permettre à l’utilisateur de ne pas en subir les conséquences. Quand d’autres solutions attaquent le problème sur le flanc de la donnée. Voici trois outils dédiés au vrac numérique, décortiqués dans le détail : Alfresco, Zeenea et Archifiltre (gratuit et libre).

    Temps de lecture : 5 minutes

    mail Découvrez Le Brief de la Démat, la newsletter thématique gratuite d'Archimag dédiée à la transformation numérique des organisations !


    Sommaire du dossier :

    Vrac numérique ou chaos ? Chez Alfresco, qui propose des solutions de gestion de contenu, on fait plus volontiers référence au chaos, en mettant en avant un chiffre communiqué par l’AIIM (Association for intelligent information management) : 75 % des organisations l’identifient comme un problème majeur. À tel point que, pour l’éditeur, « c’est du quotidien ».

    De fait, les volumes explosent. Guillaume Bodet, CEO et cofondateur de Zeenea, start-up spécialisée en management des métadonnées, le confirme : « La tendance pour les organisations est de se dire qu’il vaut mieux avoir trop de données que pas assez, ne sachant pas forcément desquelles elles auront besoin demain ». Dès lors, que faire ?

    vrac-numerique-outils-zeenea-studioenlightenedLire aussi : Traiter un vrac numérique : mode d'emploi

    Des préoccupations différentes

    Selon les types d’utilisateurs, les préoccupations ne sont pas les mêmes, observe Alfresco. Pour les utilisateurs finaux, métier, la question est de retrouver l’information, de s’assurer de ne pas perdre tel document.

    Pour l’IT, les gestionnaires de l’informatique, il s’agit de garantir que l’infrastructure tienne la charge. Quant aux archivistes, ils veulent pouvoir conserver l’information (par exemple, celle qui a une valeur juridique) ou obtenir sa destruction quand elle est prévue. Les premiers veulent garder la main sur leurs informations et ne pas être contraints ; les derniers voudraient faire respecter des règles de nommage, de classement.

    Le module d’archivage d’Alfresco met tout le monde d’accord. L’utilisateur continue de voir son document à sa place habituelle, il peut le consulter et le manipuler. L’archiviste reste sur son plan de classement, fait jouer le cycle de vie, lance un audit, garde une traçabilité. En fait, pour un même emplacement physique, plusieurs lisibilités logiques sont permises. Aucun contenu n’étant déplacé ou dupliqué, l’IT doit également y trouver son compte.

    Une condition préalable est requise : avoir une vue d’ensemble sur les contenus. Alfresco se félicite de pouvoir se connecter, via ses API, à toutes sortes d’outils et interfaces métier. De quoi permettre d’exploiter les données qui s’y trouvent. Ce système marche en local comme dans le cloud.

    enlightenedLire aussi : Vrac numérique : un chantier qui ne s'improvise pas

    Un inventaire de toutes les données

    Chez Zeenea, on travaille directement sur les métadonnées, explique Guillaume Bodet. Son « smart data catalog » donne un inventaire de toutes les données de l’entreprise. Il est constitué en actionnant des robots qui scannent son système d’information et ses bases de données, quels que soient leurs types ; les données sont ainsi récupérées et mises à la disposition des utilisateurs.

    Si la première cible est celle des data scientists ou analysts, progressivement, l’exploitation des données se démocratise pour être à la portée des opérationnels. Le catalogue donne une description des données, mais ne présente pas les données « physiques ». En particulier, on ne va pas le confondre avec une arborescence de documents qui répondrait à un certain plan de classement.

    Le catalogue se veut exhaustif, il voit même ce qu’un vrac numérique peut laisser sous le tapis.

    Dans leurs démarches, Alfresco comme Zeenea entendent répondre à une préoccupation de gouvernance de l’information ou des données. La conformité, notamment en matière de données personnelles (RGPD), en dépend.

    enlightenedLire aussi : Archivage électronique : comment mettre en place et gérer son système numérique

    Repérer les doublons

    Au niveau du document, les versions sont gérées par Alfresco ; grâce à l’historique, on peut purger les versions obsolètes, cela peut même être automatisé. Plus généralement, la solution Alfresco génère pour un document son empreinte unique. C’est à ce niveau que sont repérés des doublons éventuels. Le système de fichiers traite le dédoublonnage, soit au niveau logique — on supprime une vue —, soit au niveau physique — on supprime un document.

    On peut mettre en place un workflow dédié aux documents à détruire, grâce auquel les utilisateurs apporteront leur validation de la suppression.

    Avec Zeenea, on peut dédoublonner, même si ce n’est pas l’objectif numéro un de la solution. La solution détecte les similarités, les données en doublon ou « alternatives », ce sur quoi l’utilisateur peut prendre la main.

    enlightenedLire aussi : Comment collecter des archives numériques en 10 points clés

    Plan de classement virtuel

    Plusieurs plans de classement cohabitent dans une entreprise : par domaines de métiers, pour l’équipe IT, en fonction des obligations de conformité, etc. Chacun — il peut s’agir d’un service — est plus ou moins rigoureux dans l’élaboration et le respect de son plan de classement. Alfresco laisse toute latitude aux utilisateurs.

    Parallèlement, les smart folders (dossiers intelligents) facilitent le regroupement et l’accès aux fichiers en fonction de leur « nature » plutôt que de leur emplacement. Cela revient à un plan de classement virtuel qui se construit en dynamique à l’occasion d’une recherche d’information. Un peu comme si l’on tenait compte de la psychologie de l’utilisateur : difficile de lui imposer un plan de classement très ordonné, il risquerait de s’en détourner et de garder l’information… sur son disque dur.

    Le smart data catalog de Zeenea, pour sa part, peut suggérer des plans de classement. Mais, grâce aux vues compréhensibles qu’il génère, son intérêt est surtout d’autoriser une navigation sur les données.

    Donner de la cohérence à un vrac numérique peut nécessiter de renommer des documents. C’est possible chez Alfresco en allant, pour ce faire, jusqu’à extraire des informations d’un document, et en recourant éventuellement à des scripts.

    Zeenea n’intervient pas à ce niveau.

    enlightenedLire aussi : Bureautique : comment éviter de se noyer sous les documents ?

    Archifiltre : visualiser et améliorer son arborescence

    Archifiltre est un outil gratuit et libre. Il est développé par une start-up d’État faisant partie de la fabrique numérique des ministères sociaux.

    Il a pour objet de permettre la visualisation d’arborescences de fichiers, ceci à partir de volumes pouvant atteindre plusieurs téraoctets. L’utilisateur opère des recherches, repère des redondances, enrichit les métadonnées, déplace des éléments de l’arborescence — sans incidence sur les répertoires sources.

    De quoi bien préparer les éléments pour leur versement au format d’archivage voulu.

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    vrac-numerique
    L’entassement croissant et pas toujours cohérent de documents sur les serveurs est un phénomène qui touche les entreprises comme les administrations. Quelle est l’origine de ce vrac numérique ? Comment se manifeste-t-il ? Quelle est son ampleur ? Pour faire face, à quelle théorie archivistique peut-on se rattacher ? En pratique, une méthode rigoureuse permet de le résorber. De plus, différentes sortes d’outils logiciels sont à disposition pour cette gestion. Retour d’expérience au ministère des Armées.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Le chiffre du jour
    1
    est en moyenne signalée toutes les semaines dans les établissements de santé depuis janvier 2021. Les hôpitaux ont subi 27 cyberattaques majeures - qui ont effectué tout ou partie de leurs systèmes d'information - en 2020.
    Publicité

    supplement-confiance-numerique-270500.png