Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !
Au début de l’année 2023, Archimag avait interrogé Françoise Banat-Berger sur les prochains défis technologiques que devront relever les archivistes. La directrice du Service interministériel des Archives de France (Siaf) évoquait alors le rôle de l’intelligence artificielle qui « a évidemment sa place dans le monde des archives, notamment autour de la reconnaissance automatique des caractères manuscrits. »
Même constat pour Emmanuelle Bermès, responsable pédagogique du master « Technologies numériques appliquées à l’histoire », au sein de l’École nationale des chartes : « le cas d’usage le plus prégnant de l’IA porte sur la reconnaissance de l’écriture manuscrite ou HTR (pour handwritten text recognition). L’IA permet d’entraîner un outil à analyser la mise en page d’un document et reconnaître différents types d’écritures, ce qui permet d’extraire du texte semi-structuré à partir de documents anciens numérisés en mode image ».
Lire aussi : "L’intelligence artificielle a sa place dans le monde des archives"
Les métiers du document se mettent donc progressivement en ordre de marche pour s’approprier les promesses de la reconnaissance de l’écriture manuscrite. « Cette technologie permet en effet de transcrire un texte écrit en un texte lisible par l’ordinateur », explique Ariane Pinche, chargée de recherche au sein du laboratoire CIHAM — UMR 5648 du CNRS ; « elle peut être utilisée par exemple pour traiter de grandes collections de documents manuscrits, qu’ils soient médiévaux ou contemporains. Et elle est en mesure de le faire à une vitesse qu’il serait absolument impossible d’atteindre pour un être humain. »
Accélérer la phase de transcription
À la Bibliothèque nationale de France, le projet Gallic(orpor)a s’emploie déjà à traiter les documents anciens de la bibliothèque numérique Gallica, en particulier les premiers manuscrits français jusqu’aux imprimés révolutionnaires.
Ce programme peut ainsi extraire du texte à partir d’une image d’un manuscrit. Résultat : le public pourra effectuer des recherches par mots-clés directement dans les textes plutôt que dans les métadonnées. Et les porteurs du projet voient déjà plus loin.
