archives et instruments de recherche : sous le sceau du numérique

 

La révolution numérique gagne du terrain dans le monde des archives. Aujourd’hui, les instruments de recherche entament leur dématérialisation, avec l’appui du standard EAD. Lentement mais sûrement, les services d’archives migrent du catalogue papier à son équivalent numérique. La recherche dans les archives ne sera plus jamais comme avant.

Vienne, 2004 : le Congrès international des archivesi s’était emparé du dossieri des instruments de recherche numérisés et y avait consacré pléthore de débats. Des ateliers, des séminaires, des réunions de travail avaient fixé un objectif : utiliser et promouvoir la normei EADDTD, standard basé sur le langage XML. L’EAD est utilisé en particulier par les services d’archives, les bibliothèques et les musées pour les inventaires d’archives.">i afin de parvenir à un standard capable de faciliter la recherche dans les fonds patrimoniaux. Il est vrai que l’essor des archives mises en ligne est un fait majeur pour de nombreuses institutions culturelles. Ainsi, il était devenu nécessaire de proposer des instruments de recherche numérisés et normalisés à l’intention des professionnels comme du grand public.
 
repère incontournable
 

La norme EAD est devenue un incontournable sujet de discussion et ses avantages sont nombreux : création de nouveaux instruments de recherche (IR), échange et portabilité des IR, possibilités de recherche dans le sommaire, l’indexationi ou le texte intégral, compatibilité avec les opérations de conversion rétrospective, choix de l’encodagei en fonction des besoins et des moyens…
Certains pays n’ont pas attendu l’initiative du Congrès international des archives pour y songer. La France avait, dès 2002, plaidé pour l’adoption du standard EAD via une circulaire ministérielle. Quelques années plus tôt, en 1999, le Conseil ministériel de la recherche plaidait pour l’examen de « l’utilisation de la DTDDocument Type Definition Document permettant de décrire un modèle de document SGML, HTML ou XML. Il indique les noms des éléments pouvant apparaître et leur contenu (sous-éléments et attributs). Définit ce qui est valide.">i EAD mise au point par les Archives nationalesi américaines afin de fournir un cadre à un plan de développement de la documentationi électronique dans les services d’archives ». Ces décisions partaient d’un constat simple : les archivistes ne disposaient pas de catalogues informatisés contrairement à leurs confrères bibliothécaires.
La France détient une ancienne et volumineuse variété d’archives. Que l’on songe par exemple au fonds d’archives diplomatiques détenues par le ministère des Affaires étrangères, probablement le plus important et l’un des plus prestigieux du monde. Que l’on pense également au Centre historique des archives nationales (CHAN), qui conserve les archives de la France depuis les Mérovingiens jusqu’à 1958. Ces deux exemples, parmi d’autres, constituent l’une des richesses de notre pays. Mais le caractère hétérogène des documents est souvent un obstacle aux campagnes de numérisation. D’une façon générale, les archives françaises forment un corpus disparate et peu normalisé, avec des imprimés et, de plus en plus, des documents électroniques structurés de façon inégale.
 
la France avance...en ordre dispersé
 

De nombreux observateurs estiment que la France avance en ordre dispersé dans le domaine de la numérisation des instruments de recherche. Le déploiement de tels outils bute sur des obstacles aussi bien techniques que psychologiques : coexistence de plusieurs systèmes, faiblesse des outils de publication, nécessité de former les archivistes à de nouvelles pratiques et à un nouveau vocabulaire…Il a fallu deux années à la direction des archives de France (Daf) pour décider de préconiser l’utilisation du standard EAD dans les services d’archives français. Peu d’institutions ont franchi le Rubicon : la base Bora (Base d’orientation et de recherche dans les archives), créée à l’initiative de la Daf, recense l’ensemble des fonds privés conservés dans les services d’archives publics ; les Écrits du forprivé – mémoires, autobiographies, livres de raison… – conservés dans différents sites d’archives nationales, départementales et communales ; le Centre des archives d’outre-mer (Caom) qui conserve les fonds des ministères chargés de l’empire colonial du XVIIe au XXe siècles ; citons encore le tout récent portaili de la Nouvelle-France dédié à la fondation du Québec, dont les bases de données contiennent la description et la reproduction de documents d’archives conservés en France et au Canada. Plus récemment, le 1er décembre 2007, le catalogue collectifi des archives et des manuscrits de l’enseignement supérieur, Calames, a également migré vers la norme EAD. Ces réussites ne sauraient cependant dissimuler le travail qui reste à faire auprès des services d’archives non informatisés. Un tiers seulement des archives départementales ont fait l’objet d’une campagne de numérisation. Encore ce chiffre concerne-t-il la numérisation des documents primaires… Les instruments de recherche numérisés, eux, sont encore plus marginaux. Mais selon Claire Sibille, chargée de l’innovation technologique et de la normalisation au sein de la Daf, le pli est pris et de nombreuses actions sont lancées afin « de favoriser le développement de systèmes d’informationi utilisant des formats d’échange » [lire entretien de Claire Sibille]

la norme EAD
L’EAD (Encoded archival description ou Description archivistiquei encodée) est un standard d’encodage DTD (définition de type de document) permettant de structurer en XMLeXtended markup language. Métalangage extensible dérivé de SGML permettant de structurer des données. Le XML (Extensible Markup Language ou langage de balisage extensible) est un standard du World Wide Web Consortium qui sert de base pour créer des langages balisés spécialisés. Il est suffisamment général pour que les langages basés sur XML puissent être utilisés pour décrire toutes sortes de données et de textes.">i les instruments de recherche archivistiques : inventaires, répertoires, catalogues de collection… La première version de ce standard a été publiée en 1993 par l’université de Berkeley (États-Unis) afin de combler les insuffisances des formats Marc">i. Le standard EAD utilise le langage XML (extension mark up language ou langage de balisage extensible), un outil ouvert et indépendant de toute structure logicielle. L’EAD s’adapte à tout type d’archive, quels qu’en soient le support, la forme et le volume, ainsi qu’aux différents types d’instruments de recherche, sauf aux guides et aux bordereaux de versement. Elle est compatible avec la norme générale et internationale de description archivistique Isad-G dont elle reprend tous les éléments d’information. En France, l’Afnori dispose d’un groupe de travail chargé de vérifier les développements de cette norme.
Plusieurs sites proposent de suivre l’actualité de la norme EAD. :
www.archivesdefrance.culture.gouv.fr
www.loc.gov/ead/
www.archivists.org/saagroups/ead/ 
 

interfacei
 

Si le standard EAD est de plus en plus en plus utilisé en France et à l’étranger, il n’en reste pas moins inabouti du point de vue de l’interface. Selon Christophe Jacobs, ingénieur en édition électronique au centre de ressourcesi numériques Telma33 du Centre national de la recherche scientifique, « il n’existe pas encore d’interface d’accès à tous les instruments de recherche dans les services d’archives français, ni même au niveau international ». Au-delà de la question de l’interface, les évolutions techniques du XML permettent à l’EAD d’améliorer ses fonctionnalités : saisie plus cohérente des données, enrichissement de l’EAD par d’autres DTD (définitions de types de document), règles de gestion dans un document unique…
Côté éditeurs, la numérisation des instruments de recherche donne lieu à de nouvelles fonctionnalités. Chez Ever-Team, la version 2.2 de la plate-forme de gestion de contenus Flora propose aux utilisateurs de mettre à disposition d’autres utilisateurs l’ensemble de ses résultats de recherche grâce aux paniers partagés. En résulte la possibilité de partager un lot de notices à traiter. La prise en compte de la norme EAD par Flora 2.2 permet également d’agréger toutes sortes de données sans distinction de provenance et de générer des flux XML dynamiques. Parmi les institutions ayant déployé cette plateforme de gestion de contenus, citons la Bibliothèque nationale de France avec la réinformatisationSIGB).">i du Catalogue collectif de France afin de localiser plus de 20 millions de documents et la base « archives et images » de la Bibliothèque de documentation internationale contemporaine
.Autre éditeur à investir les IR numérisés, Archimaine a fait le choix de mettre gratuitement à disposition des utilisateurs une plate-forme de publication d’instruments de recherche au format EAD. Les archives départementales de la Côte-d’Or ont adopté cette plate-forme.
 
plus de 20000 instruments de recherche
 

En 2004, le gouvernement a décidé de construire un nouveau site destiné à collecter, conserver et communiquer les archives des administrations centrales de l’État depuis 1790. Localisé à Pierrefitte-sur-Seine, ce bâtiment comprendra 320 km linéaires d’archives en complément ou en remplacement des deux sites actuels de Paris et de Fontainebleau. L’enjeu est d’importance. « Pour un chercheur australien venu trouver sur place la côte d’un ouvrage, la première étape, lui donner la réponse quant à la disponibilité de l’ouvrage en question, peut nécessiter plusieurs jours », explique Caroline Buscal, dirigeante de Serda Maîtrise, société chargée de l’étude de ce projet. Explication de ce délai : « Les cotes des ouvrages recherchés sont à trouver dans plus de 20 000 instruments de recherche, guides, indexi, répertoires, plans, etc.  Des références qui peuvent renvoyer à d’autres instruments de recherche », précise Caroline Buscal. Un enjeu spécialement important au vu de la richesse des fonds nationaux et des consultations induites. En dehors de la construction et du déménagement, faciliter l’accès aux fonds impose de numériser les instruments de recherche et d’homogénéiser l’accès notamment par l’attribution d’une nomenclature unique pour tous les instruments. Une étape qui a démarré par la réalisation d’un état des lieux.
 
cotes absentes, incomplètes ou trop précises
 

Première phase archivistique : recenser et analyser des milliers d’instruments de recherche répartis sur les deux sites actuels de Paris et Fontainebleau. Le recensement des différents types d’instruments de recherche a d’abord regroupé et comptabilisé les instruments de recherche par type : guides, index, catalogues, cartes et plans, minutiers, fonds particuliers et séries anciennes. Seule une partie de ces documents se prêtait à une numérisation immédiate de par la présence d’un sommaire, d’un plan de classementi et de cotes complètes. Pour les autres, les cotes absentes, incomplètes ou trop précises interdisaient la numérisation sans ajout d’un champi d’identification au préalable. Par exemple, plus de mille instruments de recherche sur le site parisien et plusieurs milliers à Fontainebleau indiquaient des cotes tronquées.
Seconde difficulté, l’état de ces documents, tous types de support papier ou microfilms, a imposé une étude supplémentaire de préparation avant l’OCR. La phase d’étude a identifié plusieurs dizaines de situations techniques différentes, du papier A3 manuscrit et illisible au microfilm 16 ou 35 mm dactylographié.
 
tort ou à raison
 

De par ses volumes, le chantier de numérisation des instruments de recherche à la direction des archives de France soulève quelques questions. D’abord en terme de standard. Si tout le monde s’entend sur la norme EAD, cette dernière n’est pas encore totalement stabilisée. Ce qui laisse présager des différences dans la mise en oeuvre de la numérisation, en cours et future, des catalogues et autres répertoires. Plus largement, des initiatives comme celle de Coutot-Roehrig [voir retour d’expérience] peuvent amener à s’interroger sur la nécessité de passer par des instruments de recherche. Si des logiciels sont capables d’indexer à un coût minime tout type de document à partir de données comme les noms, dates, et autres informations contenues dans les documents eux-mêmes et si la nouvelle génération des outils de recherche est capable d’interpréter suffisamment les questions pour identifier précisément l’ouvrage recherché… Alors une partie des systèmes de cotes et de nomenclatures peut devenir obsolète.
Une question absente de ce type de projet. À tort ou à raison ?
 

Les podcasts d'Archimag
Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.