Article réservé aux abonnés Archimag.com

Traiter un vrac numérique : mode d'emploi

  • traiter-vrac-numerique-methode.jpg

    vrac-numerique-methode
    "Tous les métiers doivent être sensibilisés au traitement du vrac numérique", estime Marie Jenner, consultante AMOA au sein du cabinet Serda Conseil. (Freepik/@wayhomestudio)
  • On ne se jette pas tête baissée dans un vrac numérique. Son traitement répond à une méthode pratique et à un certain nombre d’exigences rigoureuses. Marie Jenner, consultante AMOA au sein du cabinet Serda Conseil, présente cette méthode complète pour traiter un vrac numérique : les questions à se poser avant de l'aborder, comment l'évaluer, comment identifier et supprimer les doublons, les règles de nommage, les outils dédiés et bien d'autres conseils très utiles !

    Temps de lecture : 6 minutes

    mail Découvrez Le Brief de la Démat, la newsletter thématique gratuite d'Archimag dédiée à la transformation numérique des organisations !


    Sommaire du dossier :

    marie-jenner-vrac-numeriqueQuelles questions faut-il se poser au moment d’aborder un vrac numérique ?

    Avant de se lancer dans le traitement d’un vrac numérique, il est crucial de se poser les bonnes questions et ne pas se lancer tête baissée dans un tel chantier. Cette étape d’analyse prend un certain temps car il faut comprendre le vrac numérique, et analyser sa structure…

    Une fois effectué, ce travail permet de dégager les tendances et les grandes orientations de travail pour le traitement du vrac.

    Ce travail est organisé autour de quatre grandes questions :

    1. La volumétrie du vrac : est-elle de 5 gigaoctets ou de 10 téraoctets ? En fonction de cette volumétrie, on ne choisira pas les mêmes outils pour traiter ce vrac numérique.
    2. La proportion et la nature des documents concernés : formats bureautiques, fichiers photo, vidéo… Là aussi, les orientations de travail dépendront de la réponse.
    3. La structure du vrac numérique : car l’arborescence bureautique n’est pas la même selon qu’il s’agit d’un vrac produit par une personne partie à la retraite ou par un service de l’organisation. Il faut donc entrer dans la logique du producteur et comprendre les missions qu’il menait au sein de l’organisation.
    4. L'identification des versions provisoires et les doublons que l’on pourra éliminer tout de suite.

    Une fois que ces quatre points sont éclaircis, on peut entrer dans le traitement du vrac.

    enlightenedLire aussi : Archivage électronique : comment mettre en place et gérer son système numérique

    Comment évaluer un vrac numérique ?

    Il faut établir une grille d’évaluation avec une série de critères correspondant à la logique de l’organisation.

    Cette grille d’évaluation peut contenir par exemple des critères historiques, des critères de preuve, des critères réglementaires (durée de conservation, sort final…), des critères de valorisation attachée à un document ou à un sujet particulier, des critères de contexte politique par exemple, des critères liés à des risques d’obsolescence technique (évolution des formats, déménagement…), des critères de positionnement de la personne (souvent le service archives) qui réalise le traitement du vrac.

    La question des doublons se pose régulièrement : comment les identifier et les éliminer ?

    Il existe des outils très efficaces pour identifier les doublons.

    La procédure est simple : il suffit d’importer le vrac numérique dans un outil qui repère les doublons en comparant l’empreinte numérique des documents à leur empreinte numérique. Chaque document bureautique possède une empreinte unique et invisible pour l’utilisateur. Un document qui a fait l’objet d’un copier-coller a toujours la même empreinte.

    Un second filtre de dédoublonnage peut être appliqué sur le nommage du document. Pour ce second filtre, l’intervention humaine est indispensable.

    enlightenedLire aussi : Vrac numérique : comment mettre en place une stratégie simple et moderne de records management

    Justement, quelles règles de nommage faut-il mettre en place ?

    Il existe beaucoup de règles de nommage, mais je préconise de ne mettre en place que quatre ou cinq règles au maximum. L’objectif étant d’inciter tous les collaborateurs à appliquer les mêmes règles.

    Il faut d’abord définir une forme de nommage avec un ordre des éléments. Par exemple : typologie de document, objet du document, date, version. Ce qui donne par exemple : CR_COPIL_20210209_V0.3.

    Il faut ensuite se tenir à cet ordre des éléments de nommage et se limiter à un nombre raisonnable de caractères dans la description du dossier : 32 caractères au maximum.

    Il convient ensuite d’éliminer tous les signes diacritiques : espaces, accents, majuscules, points… Ces signes diacritiques ont en effet pour conséquence de bloquer la chaîne de nommage au moment de l’archivage ou de l’importation des documents dans une base de données.

    Enfin, il faut définir avec les usagers un nombre limité de sous-dossiers pour ne pas avoir une arborescence trop développée et inexploitable. Un maximum de cinq sous-dossiers est conseillé pour avoir une bonne vision d’ensemble.

    enlightenedLire aussi : Xelians s’appuie sur l’IA pour mettre fin au vrac numérique

    Quelles sont les erreurs les plus communément commises dans le traitement du vrac numérique ?

    Trois erreurs sont souvent commises. La première consiste à utiliser un vocabulaire trop spécialisé ou trop interne ; la personne qui sera en charge du traitement risque d’être perdue par un nommage trop expert. Il faut ensuite éviter de déléguer ce traitement à quelqu’un qui connaît mal l’activité de l’organisation : un stagiaire, par exemple… Troisième erreur : attendre d’avoir trop de fichiers pour lancer un projet de traitement.

    Combien de temps faut-il prévoir pour le traitement d’un vrac numérique ?

    Il est difficile d’estimer le temps nécessaire car cela dépend du volume et du contenu du vrac.

    Faisons une comparaison entre le papier et le numérique : on estime que cinq années sont nécessaires pour traiter 5 kilomètres linéaires d’archives papier ; on estime par ailleurs qu’un téraoctet correspond à une fourchette de 3 à 30 kilomètres d’archives papier (tout dépend de la nature des fichiers numériques).

    Je recommande de segmenter le vrac numérique en plusieurs parties pour le traiter progressivement.

    enlightenedLire aussi : Les archivistes face au management des données

    Des solutions documentaires existent-elles pour traiter les vracs numériques ?

    Ces solutions sont de deux types : les solutions open source et les solutions propriétaires.

    Parmi les solutions open source, citons Octave, développé par le Service interministériel des archives de France (Siaf), qui est très bien pour détecter les doublons, ajouter des métadonnées, renommer et restructurer le vrac. Mais il ne faut pas oublier qu’il a été développé par des archivistes et qu’il s’appuie sur des normes archivistiques dans une logique d’archivage.

    Autre outil open source, Archifiltre a été développé par la mission des archives du ministère des Affaires sociales. Lui aussi a été développé par des archivistes, mais, contrairement à Octave, il part du vrac numérique produit par les producteurs pour arriver jusqu’à l’archivage.

    Signalons également Resip, développé par les Archives nationales, qui est une brique du programme Vitam dédié à l’archivage électronique de l’État.

    Du côté des logiciels propriétaires, citons par exemple Everteam qui est orienté sur l’enrichissement du vrac numérique par les métadonnées. C’est une autre manière de traiter le vrac numérique.

    Quel type de solution faut-il privilégier ?

    Tout dépend du moment où l’on se trouve dans le traitement du vrac. Octave est indiqué si l’on a des besoins d’archivage, Archifiltre est utile pour obtenir une première vue d’ensemble et procéder à l’analyse du vrac.

    Je préconise d’utiliser d’abord Archifiltre pour faire un état des lieux et qui est en mesure de traiter des volumes importants. Le vrac peut ensuite être segmenté et traité par Octave. En fin de course, le vrac traité par Octave peut être importé dans un système d’archivage électronique au format Seda.

    enlightenedLire aussi : Archivage électronique : Octave, l'outil libre développé par les Archives de France, s'enrichit d'une nouvelle version

    Les métiers non liés au document doivent-ils être sensibilisés de façon à éviter le vrac numérique ?

    Tous les métiers doivent être sensibilisés à ce traitement car ce vrac numérique est constitué de leur propre production. Cela signifie qu’il faut évangéliser les producteurs sur ces enjeux documentaires.

    L’utilisation d’outils comme Octave ou Archifiltre est à la portée de tout le monde. Un système de couleurs permet de signaler les doublons et les renommages peuvent être automatisés en quelques clics seulement.

    À titre d’exemple, les documentalistes et les archivistes sont formés en une journée pour utiliser Octave. Pour les producteurs, une demi-journée est suffisante pour s’entraîner sur un petit vrac numérique. Il est également possible de s’exercer sur ses archives personnelles en téléchargeant gratuitement Octave.

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    vrac-numerique
    L’entassement croissant et pas toujours cohérent de documents sur les serveurs est un phénomène qui touche les entreprises comme les administrations. Quelle est l’origine de ce vrac numérique ? Comment se manifeste-t-il ? Quelle est son ampleur ? Pour faire face, à quelle théorie archivistique peut-on se rattacher ? En pratique, une méthode rigoureuse permet de le résorber. De plus, différentes sortes d’outils logiciels sont à disposition pour cette gestion. Retour d’expérience au ministère des Armées.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    supplement-confiance-numerique-270500.png