Contrairement à une sauvegarde (dont on espère qu’elle ne servira jamais), l’archive est l’avant-dernière étape du cycle de vie de l’information avant sa potentielle destruction. Mais l’archive est vivante, construite pour être consultée, récupérée, étudiée. Pour répondre à des besoins légaux ou d’analyse, l’archive doit être référencée et accessible.
"Les archives sont l’ensemble des documents, quels que soient leur date, leur forme et leur support matériel, produits ou reçus par toute personne physique ou morale […] dans l’exercice de leur activité", précise le code du Patrimoine. Elles agissent donc comme une mémoire. Et, quels qu’en soient sa forme ou son support, un document contient des informations. Qu’il s’agisse d’un papier, de sa version scannée, d’un PDF, d’une ligne de base de données ou d’un fichier Excel, les mêmes informations y figurent. Pourtant, les personnes, les processus et les outils pour les archiver diffèrent. Est-ce normal ? Cela ne devrait-il pas évoluer ?
Vous produisez un rapport, l’imprimez et l’envoyez en interne. Sans doute vous demandera-t-on d’en imprimer un exemplaire afin de l’archiver. Les personnes responsables de la documentation et des archives se chargeront de le référencer, de le classer et de le conserver en archive. Au format PDF ou Word, ce même rapport suivra-t-il le même circuit ? Sans doute pas. Vous l’enverrez par e-mail à son destinataire ou le déposerez dans un répertoire partagé et il y a de grandes chances qu’il ne soit pas capturé et donc jamais archivé, sauf si une personne en fait la demande express.
Lire aussi : Protection des données en entreprise : quelle stratégie à l'ère de l'IA ?
Mais alors, si ce sont des données, est-ce différent ?
Et si, maintenant, il ne s’agissait plus d’un rapport, mais d’un ensemble de données que vous avez préparé et conservé dans une table de base de données ou de fichier CSV. Se préoccupera-t-on de les archiver ? Certainement pas. Pourtant, cela peut être tout aussi important de conserver cette trace dans le temps, de la référencer et de pouvoir y accéder dans le futur.
Parlons maintenant de mise à jour. S’il est modifié, votre rapport imprimé sera versionné et une nouvelle version sera elle aussi conservée. On gardera donc l’historique de ce rapport. Qu’en sera-t-il d’une version précédente de votre fichier Excel ? Qui gardera la trace d’une base de données avant qu’une simple requête SQL la modifie pour toujours ? Et hop ! Une colonne supprimée sans aucun archivage !
Le monde du document a pris de bonnes habitudes, notamment celle de conduire des opérations d’archivage qui désignent "l’ensemble des actions, procédures et outils mis en œuvre pour collecter, organiser, conserver et éventuellement restituer des documents dans le temps, en respectant leur intégrité, leur accessibilité et leur valeur probante". Soumettez cette définition à un administrateur de base de données et guettez son regard : il y a de grandes chances qu’il vous réponde que ses bases de données sont sauvegardées tous les jours, alors que cela n’a aucun rapport.
L’archivage des données n’est pas un réflexe pour la plupart des développeurs informatiques, formés à des axiomes tels que : la donnée est volatile, la donnée est immatérielle, donc elle n’est pas un document, etc. Aucune procédure d’archivage des données n’existe dans la majorité des entreprises. Seule exception notable : certains systèmes financiers ou progiciels de comptabilité, par exemple, dans lesquels la suppression ou la modification de données est théoriquement impossible après un enregistrement. "Théoriquement", car, lorsque l’on travaille chez un éditeur de logiciels, les consultants se transmettent les "portes dérobées" permettant d’aller directement modifier ou supprimer des données. Le métier d’archiviste n’a que très peu franchi le seuil du développement informatique.
Lire aussi : Dossier data gouvernance : prenez le pouvoir sur vos données !
Les archivistes sont hyper compétents, mais peinent à le faire savoir
Or, les archivistes existent depuis des millénaires et c’est grâce à leur travail que l’on a pu retrouver des documents très anciens contenant des données, comme les tablettes d’Uruk, datant d’il y a 5 000 ans environ, qui contenaient l’historique de comptes, listes de biens, sur des céréales et des animaux. Mais votre fichier client de l’année dernière, lui, a peut-être été définitivement effacé…
Légende : Données relatives à la distribution de rations datant de la phase Uruk III (v. 3200-3000 av. J.-C.) conservées sur une tablette administrative protocunéiforme, aujourd’hui au British Museum. (Neuroforever/Wikipédia)
Toute la problématique vient de la numérisation de notre civilisation et de l’ensemble des interactions humaines. Et c’est pour cela que le métier d’archiviste de document devrait évoluer vers celui d’archiviste de données - on parle d’ailleurs déjà, outre-Atlantique, de "data archivist". La quantité de documents produits (papier ou numérique) se stabilise, mais la quantité de données collectées et stockées dans des bases de données explose. Internet des objets, réseaux sociaux, web… Toutes ces interactions donnent naissance à des informations dont la durée de vie est actuellement très limitée. Est-ce une bonne chose ?
Ne devrait-on pas utiliser l’expertise des archivistes et leur permettre de la transférer dans les départements qui produisent de l’information, afin que ceux-ci acquièrent les bonnes pratiques de l’archive ? Et ne devrait-on pas former les archivistes aux métiers de la donnée afin qu’ils la fusionnent avec leurs compétences existantes ?
Archivage des données : proposition de méthode en 8 étapes
Étape 1 : identifier les parties prenantes
Lister qui est responsable des archives traditionnelles, et, du côté informatique, des bases de données, de leurs sauvegardes, du cycle de vie de la donnée. Sans oublier les métiers qui produisent et conservent de plus en plus de données.
Étape 2 : mettre en place un vocabulaire commun
S’appuyer sur des normes, telles qu’ISO 24143, pour définir de manière transverse ce que sont une donnée, une information, un actif informationnel, un document, un stockage, une sauvegarde, une archive, une destruction, etc. Produire une ontologie que toutes les parties prenantes s’engageront à utiliser.
Étape 3 : traiter l’aspect juridique
On impliquera à cette occasion le DPO, le RSSI, la conformité, etc. L’objectif est d’identifier l’ensemble des réglementations auxquelles est soumise l’organisation et leur impact sur les documents et les données. On découvrira ainsi que certaines lois peuvent se révéler incohérentes : comment garantir la valeur probante d’une archive si, d’un autre côté, le RGPD impose l’exercice du droit à l’oubli à la demande d’une personne ? Des positions devront être prises en interne, documentées et formalisées.
Étape 4 : identifier les données et informations qui devraient être archivées
On s’appuiera sur la démarche de gouvernance des données et sur le catalogue qui aura été mis en place à cette occasion. Si vous ne disposez malheureusement pas d’un catalogue de données, vous ferez remarquer qu’il sera compliqué de respecter des processus sans avoir identifié à quoi ils s’appliquent. L’archivage de données est une corde supplémentaire à l’arc de la gouvernance des informations.
Étape 5 : définir une stratégie d’archivage pour chacun des types de données identifiés
Ici, l’expertise des archivistes sera pleinement utilisée, tout comme leur connaissance des processus existants, qui seront peut-être en partie dupliqués pour certaines données. On pensera "cycle de vie de l’information" en l’étendant à cette nouvelle phase d’archivage et de récupération qui en découlera. Il y a de grandes chances que les stratégies d’archivage des documents électroniques puissent s’appliquer à ces nouvelles données.
Étape 6 : choisir et mettre en place les outils informatiques adaptés
Ici, c’est l’expertise du département informatique qui sera aux commandes.
Étape 7 : tester et mettre en production
S’assurer que tout fonctionne dans les bonnes conditions de sécurité et de conformité réglementaire et que les processus soient opérationnels, tant pour archiver que pour récupérer.
Étape 8 : informer le comité de gouvernance
Des indicateurs permettront de suivre le bon fonctionnement du projet. Parmi les KPIs possibles, citons le nombre de données archivées, le pourcentage par rapport au total, le nombre de cycles de mises à jour, la fréquence des demandes d’accès, le nombre de violations des processus constatés, etc. Un tableau de bord de pilotage de la fonction apportera une vision globale aux archivistes, qu’ils soient de documents ou de données.
Une fois ces étapes franchies, on ne devrait plus distinguer l’archivage de données et l’archivage de documents. Un processus unifié archive les informations nécessaires, en toute conformité, quel que soit leur support ou leur type… Et cela tombe bien, puisqu’il s’agit de la définition initiale de l’archivage !