Article réservé aux abonnés Archimag.com

Quand les archives font appel à l'intelligence artificielle

  • archives-intelligence-artificielle.jpg

    archives-intelligence-artificielle
    Interface de transcription sur la plateforme Transkribus, qui montre le potentiel de l’intelligence artificielle appliquée aux archives. (Transkribus)
  • Alors que l’intelligence artificielle s’invite progressivement dans les processus documentaires, le monde des archives et du patrimoine s’intéresse lui aussi à l’IA pour traiter des documents anciens. Les programmes Socface, Transkribus et Lettres en lumières font partie des projets pionniers.

    mail Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !

    À son tour, le monde des archives se met à rêver d’intelligence artificielle. Au Service interministériel des archives de France (Siaf) bien sûr, mais également dans les laboratoires de recherche européens et dans quelques services d’archives départementales.

    > Lire aussi : Projet Socface : l’étude de la société française à l’aide de l’intelligence artificielle appliquée aux archives

    Socface : des technologies de traitement d'archives à grande échelle

    Au Service interministériel des archives de France, le projet Socface réunit des archivistes, des démographes, des économistes, des historiens et des informaticiens. Ces différents métiers travaillent ensemble pour mettre au point des technologies de traitement à grande échelle de vastes séries de documents historiques. Notamment les vingt recensements de la population menés entre 1836 et 1936.

    Objectif : étudier les changements de la société française sur un siècle grâce à l'exploitation d'une source décrivant précisément la population française.

    Après avoir été numérisés, les recensements seront transcrits automatiquement et analysés pour constituer une base de données de plusieurs millions d'individus. Résultat : le public pourra effectuer des recherches nominatives ponctuelles.

    Les chercheurs, quant à eux, seront en mesure de mener des études en histoire économique, démographique ou sociale. Très concrètement, ils pourront s’appuyer sur des archives pour étudier les évolutions du marché du travail, des mobilités ou des inégalités.

    > Lire aussi : Archives numériques : les bonnes pratiques de valorisation

    L’intelligence artificielle n’est pas encore l’outil miracle

    Le projet Socface est porté par plusieurs institutions publiques : le Service interministériel des archives de France, mais aussi l'Agence nationale de la recherche et l'Institut national d'études démographiques. Auxquelles il faut ajouter une entreprise privée, Teklia qui, en partenariat avec Paris School of Economics, apporte son expertise en matière d’analyse de contenu grâce à l’intelligence artificielle :

    « la technologie de compréhension de documents et de reconnaissance de l'écriture manuscrite de Teklia sera appliquée au traitement automatique des listes nominatives de recensement. La mise en relation des informations individuelles sera également développée afin de permettre l'étude des évolutions démographiques et économiques ».

    Pour autant, l’IA n’est pas encore l’outil miracle. Selon Christopher Kermorvant, fondateur et directeur scientifique de Teklia, « la reconnaissance d'écriture est un des plus vieux défis de l'intelligence artificielle. Mais les performances de la machine sont encore loin derrière celles de l'humain ».

    Pour illustrer son constat, il montre comment l’OCR (reconnaissance optique de caractères) de Google trébuche lorsqu’il s’agit de transcrire un extrait de naissance de 1920 : le résultat n’est tout simplement pas utilisable en l’état. 

    > Lire aussi : Les organisations françaises face à la numérisation intelligente

    Transkribus : le potentiel de l'IA appliquée aux archives

    Pour autant, les chercheurs se montrent optimistes notamment grâce au programme Transkribus qui a montré le potentiel de l’IA appliquée aux archives. Cette plateforme européenne de reconnaissance de texte, d'analyse d'images et de reconnaissance de structure de documents historiques a déjà séduit plus de 50 000 utilisateurs. Grâce à 8 000 modèles entraînés, plus de 20 millions de pages ont été traitées, donnant naissance à plus de 60 modèles utilisables gratuitement.

    Une simple inscription gratuite permet d’utiliser la version légère de Transkribus. Il est alors possible de charger des images et des PDF d’archives puis de visualiser le document original sur le panneau gauche de la plateforme. Le texte transcrit apparaît ensuite sur le panneau droit. Cette réussite repose sur une condition :

    « Il faut entraîner l'IA sur les données spécifiques préalablement traitées par l’humain qu’il s’agisse de bases publiques ou d’annotations collaboratives. Et il n’y a de gain que sur les gros corpus », explique Christopher Kermorvant. À partir d’une vingtaine de pages manuscrites, l’IA commence à donner des résultats encourageants. Idéalement, plus le corpus d'entraînement est important, meilleurs sont les résultats.

    Outre la reconnaissance d’écriture, l’IA permet d’automatiser un ensemble d’opérations chronophages : segmentation de pages (pour les registres de naissance par exemple), l’extraction d’entités (noms de lieux, patronymes…), analyse de la structure d’une page (pour la presse ou les livres illustrés par exemple), indexation…

    > Lire aussi : Documation 2021 - L'IA et la sémantique au service des données textuelles

    Lettres en lumières : automatiser la lecture de l'écriture du 18ème siècle

    lettres-en-lumieres-archives-intelligence-artificielleAutre projet en cours, Lettres en lumières est porté par les archives départementales de Côte-d’Or (AD 21), l’université de Bourgogne et la société Yumain. « Lettres en lumières a pour ambition d'expérimenter une intelligence artificielle pour automatiser la lecture de l'écriture du milieu du 18e siècle », explique Édouard Bouyé, directeur des AD 21 ; « l'objectif est de pouvoir lire automatiquement ces pages d'écriture simple et de les rendre ainsi accessibles au plus grand nombre. Cela permettra par exemple d’effectuer une recherche plein texte ».

    L’IA va notamment traiter les registres des États de Bourgogne couvrant la période de 1636 à 1787 soit 959 folios représentant 1 918 pages d'une trentaine de lignes chacun. Ces écritures, pas toujours faciles à lire, ont été réalisées il y a plus de deux siècles par quatre mains différentes : des commis aux écritures, des greffiers… Quant aux thèmes abordés, ils sont variés : fiscalité, aumônes, couvents, apiculture, hôpitaux…

    > Lire aussi : Gestion des connaissances : la révolution de l’intelligence artificielle

    Phase de segmentation, phase de transcription

    Ces registres font actuellement l'objet d’un traitement qui se décompose en deux phases : la segmentation des lignes puis la transcription de ces lignes. La phase de segmentation fait appel au Mask-R-CNN. Cet algorithme de réseau de neurones artificiels permet, à l'aide de masques, d'isoler chaque ligne. « Cette phase est susceptible d'engendrer de nombreuses erreurs mais l'approche avec Mask-R-CNN est très efficace et nous a permis une détection de toutes les lignes avec plus de 95 % de bonne segmentation », se réjouit-on aux archives départementales de Côte-d’Or.

    La phase de transcription, quant à elle, est assurée par l'algorithme transformer qui permet de pallier les limites des réseaux LSTM (long short time memory) habituellement utilisés pour la transcription des textes manuscrits. Après plusieurs mois de traitement, les AD 21 ont enregistré « des résultats très encourageants ».

    > Lire aussi : Deep Nostalgia redonne vie à vos ancêtres en animant vos photos d'archives

    Contribution citoyenne

    Particularité du programme Lettres en lumières, les citoyens sont appelés à apporter leur contribution : « Comme toutes les intelligences, l'intelligence artificielle doit être nourrie. Nous proposons donc aux usagers de transcrire quelques pages des registres des décrets des États de Bourgogne. Ces transcriptions, une fois rapprochées des lignes d'écriture, entraîneront le logiciel de reconnaissance de caractères », précise Édouard Bouyé. 

    Le projet Lettres en lumières a un coût : 220 000 euros sur trois ans, principalement pris en charge par le département de la Côte-d’Or ainsi que par l’État (à hauteur de 20 000 euros). Il sera présenté à l’École nationale des chartes à l’occasion du colloque « Documents anciens et reconnaissance automatique des écritures manuscrites » qui se tiendra à Paris les 23 et 24 juin prochains. 

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    gouvernance-information-priorite-incontournable
    Alors que l’on attend une norme Iso sur la gouvernance de l’information, comment cette dernière est-elle vécue dans les organisations ? Une nouvelle fois, SerdaArchimag lance son enquête auprès des secteurs publics et privés. Types de gouvernance, niveaux de maîtrise des risques, accès à l’information, partage de la connaissance, signature électronique et autres outils, télétravail, numérique responsable : ce sont autant de thèmes passés au crible. Où l’on analyse des tendances de fond et les effets de la crise sanitaire.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.
    Publicité

    Serda Formations Archives 2023

    Indispensable

    Bannière BDD.gif