Quand les archives font appel à l'intelligence artificielle

Alors que l’intelligence artificielle s’invite progressivement dans les processus documentaires, le monde des archives et du patrimoine s’intéresse lui aussi à l’IA pour traiter des documents anciens. Les programmes Socface, Transkribus et Lettres en lumières font partie des projets pionniers.

Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !

À son tour, le monde des archives se met à rêver d’intelligence artificielle. Au Service interministériel des archives de France (Siaf) bien sûr, mais également dans les laboratoires de recherche européens et dans quelques services d’archives départementales.

Socface : des technologies de traitement d'archives à grande échelle

Au Service interministériel des archives de France, le projet Socface réunit des archivistes, des démographes, des économistes, des historiens et des informaticiens. Ces différents métiers travaillent ensemble pour mettre au point des technologies de traitement à grande échelle de vastes séries de documents historiques. Notamment les vingt recensements de la population menés entre 1836 et 1936.

Objectif : étudier les changements de la société française sur un siècle grâce à l'exploitation d'une source décrivant précisément la population française.

Après avoir été numérisés, les recensements seront transcrits automatiquement et analysés pour constituer une base de données de plusieurs millions d'individus. Résultat : le public pourra effectuer des recherches nominatives ponctuelles.

Les chercheurs, quant à eux, seront en mesure de mener des études en histoire économique, démographique ou sociale. Très concrètement, ils pourront s’appuyer sur des archives pour étudier les évolutions du marché du travail, des mobilités ou des inégalités.

L’intelligence artificielle n’est pas encore l’outil miracle

Le projet Socface est porté par plusieurs institutions publiques : le Service interministériel des archives de France, mais aussi l'Agence nationale de la recherche et l'Institut national d'études démographiques. Auxquelles il faut ajouter une entreprise privée, Teklia qui, en partenariat avec Paris School of Economics, apporte son expertise en matière d’analyse de contenu grâce à l’intelligence artificielle :

« la technologie de compréhension de documents et de reconnaissance de l'écriture manuscrite de Teklia sera appliquée au traitement automatique des listes nominatives de recensement. La mise en relation des informations individuelles sera également développée afin de permettre l'étude des évolutions démographiques et économiques ».

Pour autant, l’IA n’est pas encore l’outil miracle. Selon Christopher Kermorvant, fondateur et directeur scientifique de Teklia, « la reconnaissance d'écriture est un des plus vieux défis de l'intelligence artificielle. Mais les performances de la machine sont encore loin derrière celles de l'humain ».

Pour illustrer son constat, il montre comment l’OCR (reconnaissance optique de caractères) de Google trébuche lorsqu’il s’agit de transcrire un extrait de naissance de 1920 : le résultat n’est tout simplement pas utilisable en l’état.

Transkribus : le potentiel de l'IA appliquée aux archives

Pour autant, les chercheurs se montrent optimistes notamment grâce au programme Transkribus qui a montré le potentiel de l’IA appliquée aux archives. Cette plateforme européenne de reconnaissance de texte, d'analyse d'images et de reconnaissance de structure de documents historiques a déjà séduit plus de 50 000 utilisateurs. Grâce à 8 000 modèles entraînés, plus de 20 millions de pages ont été traitées, donnant naissance à plus de 60 modèles utilisables gratuitement.

Une simple inscription gratuite permet d’utiliser la version légère de Transkribus. Il est alors possible de charger des images et des PDF d’archives puis de visualiser le document original sur le panneau gauche de la plateforme. Le texte transcrit apparaît ensuite sur le panneau droit. Cette réussite repose sur une condition :

« Il faut entraîner l'IA sur les données spécifiques préalablement traitées par l’humain qu’il s’agisse de bases publiques ou d’annotations collaboratives. Et il n’y a de gain que sur les gros corpus », explique Christopher Kermorvant. À partir d’une vingtaine de pages manuscrites, l’IA commence à donner des résultats encourageants. Idéalement, plus le corpus d'entraînement est important, meilleurs sont les résultats.

Outre la reconnaissance d’écriture, l’IA permet d’automatiser un ensemble d’opérations chronophages : segmentation de pages (pour les registres de naissance par exemple), l’extraction d’entités (noms de lieux, patronymes…), analyse de la structure d’une page (pour la presse ou les livres illustrés par exemple), indexation…

Lettres en lumières : automatiser la lecture de l'écriture du 18ème siècle

lettres-en-lumieres-archives-intelligence-artificielle Autre projet en cours, Lettres en lumières est porté par les archives départementales de Côte-d’Or (AD 21), l’université de Bourgogne et la société Yumain. « Lettres en lumières a pour ambition d'expérimenter une intelligence artificielle pour automatiser la lecture de l'écriture du milieu du 18^e siècle », explique Édouard Bouyé, directeur des AD 21 ; « l'objectif est de pouvoir lire automatiquement ces pages d'écriture simple et de les rendre ainsi accessibles au plus grand nombre. Cela permettra par exemple d’effectuer une recherche plein texte ».

L’IA va notamment traiter les registres des États de Bourgogne couvrant la période de 1636 à 1787 soit 959 folios représentant 1 918 pages d'une trentaine de lignes chacun. Ces écritures, pas toujours faciles à lire, ont été réalisées il y a plus de deux siècles par quatre mains différentes : des commis aux écritures, des greffiers… Quant aux thèmes abordés, ils sont variés : fiscalité, aumônes, couvents, apiculture, hôpitaux…

Phase de segmentation, phase de transcription

Ces registres font actuellement l'objet d’un traitement qui se décompose en deux phases : la segmentation des lignes puis la transcription de ces lignes. La phase de segmentation fait appel au Mask-R-CNN. Cet algorithme de réseau de neurones artificiels permet, à l'aide de masques, d'isoler chaque ligne. « Cette phase est susceptible d'engendrer de nombreuses erreurs mais l'approche avec Mask-R-CNN est très efficace et nous a permis une détection de toutes les lignes avec plus de 95 % de bonne segmentation », se réjouit-on aux archives départementales de Côte-d’Or.

La phase de transcription, quant à elle, est assurée par l'algorithme transformer qui permet de pallier les limites des réseaux LSTM (long short time memory) habituellement utilisés pour la transcription des textes manuscrits. Après plusieurs mois de traitement, les AD 21 ont enregistré « des résultats très encourageants ».

Contribution citoyenne

Particularité du programme Lettres en lumières, les citoyens sont appelés à apporter leur contribution : « Comme toutes les intelligences, l'intelligence artificielle doit être nourrie. Nous proposons donc aux usagers de transcrire quelques pages des registres des décrets des États de Bourgogne. Ces transcriptions, une fois rapprochées des lignes d'écriture, entraîneront le logiciel de reconnaissance de caractères », précise Édouard Bouyé.

Le projet Lettres en lumières a un coût : 220 000 euros sur trois ans, principalement pris en charge par le département de la Côte-d’Or ainsi que par l’État (à hauteur de 20 000 euros). Il sera présenté à l’École nationale des chartes à l’occasion du colloque « Documents anciens et reconnaissance automatique des écritures manuscrites » qui se tiendra à Paris les 23 et 24 juin prochains.