Article réservé aux abonnés Archimag.com

Archives : quand la guerre de 14-18 passe à la numérisation

  • 274 2_3 dossier 14-18 Numen BnF illust 1 BTE.jpg

    Opération de numérisation du journal de tranchée « L’esprit du cor ». (ProQuest)
  • Sommaire du dossier :

    La Bibliothèque nationale a confié la numérisation de ses collections 14-18 au prestataire Numen. L’opération est réalisée dans les locaux mêmes de la BNF selon un protocole extrêmement rigoureux.

    C’est probablement le site le moins connu de la Bibliothèque nationale de France. À Bussy-Saint-Georges (Seine-et-Marne), le Centre technique de conservation de la BNF est hébergé dans un ensemble de bâtiments blancs, mais il n’est pas ouvert au public. Construit en 1995, il abrite des ateliers dédiés à la restauration et à la numérisation des collections. C’est en particulier ici que se déroule le chantier de numérisation des collections relatives à la guerre de 14-18. Des journaux, des ouvrages reliés ainsi que des photographies d’époque passent par les scanners du prestataire de numérisation Numen, en vue de leur mise en ligne sur la bibliothèque numérique Gallica. « Nous travaillons dans les locaux de la BNF depuis 2011 précise Cédric Sylvestre, directeur général de Numen Digital ; nous avons déjà numérisé 26 millions de pages toutes collections confondues. Sur les quatre ateliers, un est spécialement dédié aux documents datant de 1914-1918 ».

    La présence de Numen dans les locaux de la BNF ne doit rien au hasard. En effet, le protocole de numérisation imposé par la Bibliothèque nationale de France aux prestataires en numérisation est particulièrement exigeant. Il impose la conservation des documents in situ afin de limiter les déplacements de documents et prévenir les risques de dégradation. Il implique aussi une exigence sur le respect des délais et une interdiction de la numérisation des ouvrages à plat (pour éviter les pliures de la couverture) au profit de la numérisation à angle réduit, mais aussi la confidentialité... La BNF demande en plus de pouvoir contrôler à tout moment la qualité de la production en cours.

    « Nous avons mis en place un workflow qui permet aux conservateurs de la BNF de contrôler à tout moment la qualité des images numériques via un intranet. Cela leur permet, par exemple, de vérifier si la colorimétrie est fidèle au document d'origine" souligne Cédric Sylvestre.

    Mais un chantier de numérisation patrimoniale de cette ampleur ne se résume pas à la simple dématérialisation des documents. Leur indexation est tout aussi importante. « Les journaux sont “découpés” en différents champs (titres d’articles, auteur, date de publication…) via le format Mets Alto » précise Christophe Gugumus, chef de projet au sein de Numen Digital. Le format Mets Alto est un standard XML permettant de respecter la mise en page d’un document préalablement traité via un logiciel de reconnaissance optique de caractères (OCR).

    Recherche plein texte

    Vient ensuite la phase de conversion qui passe, entre autres, par un traitement de reconnaissance optique de caractères afin de faciliter la recherche plein texte sur les images numériques. « Nous approchons aujourd’hui une performance de 98,5 % de reconnaissance lorsque le document est numérisé dans de bonnes conditions », constate Cédric Sylvestre.

    Enfin, un travail de structuration des tables de matières en XML est effectué pour que les liens hypertextes pointent avec exactitude sur le bon contenu. Cette opération est très demandée pour la numérisation de collections de journaux. Elle a été réalisée sur la requête du fournisseur d’information ProQuest qui a également fait appel à Numen dans le cadre d’un accord avec la Bibliothèque nationale de France. L’ensemble de ce patrimoine sera progressivement mis en ligne sur Gallica.

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    Pour le centenaire de la guerre de 14-18, les archives montent au front ! L’événement connaît une ampleur nationale. Très attendu du public, il a pu être préparé de longue date.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.
    Publicité

    Serda Formations Archives 2023

    Indispensable

    Bannière BDD.gif