Publicité

Comment le Québec utilise l'intelligence artificielle pour faire parler les archives

  • archives_univ_montreal.jpg

    Comment-Quebec-utilise-intelligence-artificielle-faire-parler-archives
    Un document issu du fonds Louis-François-Georges-Baby de l'Université de Montréal (Amélie Philibert, Université de Montréal)
  • L'Université de Montréal recourt à l'IA afin de déchiffrer l’écriture souvent illisible de documents manuscrits du XVIIème siècle.

    La Division des archives et de la gestion de l’information de l'Université de Montréal détient de nombreux documents notamment un fonds intitulé Louis-François-Georges-Baby. Ce corpus est composé de documents manuscrits relatifs aux populations autochtones du Québec. Problème : l'écriture manuscrite y est souvent illisible. Un défi pour les historiens alors que le fonds Louis-François-Georges-Baby est en mesure d'apporter des réponses à des questions historiques non résolues : quel sort était réservé aux personnes reconnues coupables de commerce illicite d’alcool en 1667 ? Quelle était l’étendue de la concession territoriale, dans les environs de Sillery, accordée en 1642 par les Augustines de l’Hôtel-Dieu de Québec aux Autochtones de Tadoussac ?

    Les équipes de l'Université de Montréal (UdeM) ont décidé de recourir à l'intelligence artificielle pour faire parler ces archives. En particulier le logiciel Transkribus dédié à la reconnaissance de texte, à l'analyse d'images et de reconnaissance de structure de documents historiques. "Une fois le document d’archives numérisé en haute résolution et téléversé dans Transkribus, le logiciel crée des modèles linguistiques à l’aide d’algorithmes d’apprentissage qui, en balayant les écritures, repèrent les mots et les tournures de phrases récurrents et parviennent à en déchiffrer le contenu" explique Jean-Olivier Dicaire-Leduc, étudiant au sein de l'UdeM.

    Améliorer les instruments de recherche

    Difficulté supplémentaire, la série N du fonds Baby comporte des documents hétérogènes : jugements de cour, contrats de concessions territoriales, observations démographiques; bons de marchandises... Et elle présente la particularité d'avoir été rédigée par différents auteurs, rendant le décodage plus complexe. "Les transcriptions automatiques effectuées par Transkribus comportent certaines erreurs, que j’ai corrigées afin de faciliter la lecture et le balisage" indique Jean-Olivier Dicaire-Leduc.

    L'apport de l'IA a un premier résultat concret : améliorer l’accès au contenu des documents grâce à la transcription aux fins d’indexation dans les instruments de recherche archivistiques, en particulier le catalogue Web (AtoM) des archives de l’Université de Montréal. Au-delà il s'agit pour Jean-Olivier Dicaire-Leduc de "faciliter l’accès à une partie de l’histoire de la Nouvelle-France et, possiblement, à la création d’instruments de recherche et d’outils de diffusion des archives accessibles à tous".

    Sur le même thème : Quand les archives font appel à l'intelligence artificielle   

    À lire sur Archimag
    Les podcasts d'Archimag
    La mise à disposition des décisions de justice en Open Data a vu le jour grâce à la loi pour une République numérique votée en 2016. Les articles 20 et 21 prévoient la mise en open data des quatre millions de décisions de justice produites chaque année par les tribunaux français. Camille Girard-Chanudet est chercheuse en sociologie au sein du Centre d’étude des mouvements sociaux. En 2023, elle a soutenu une thèse devant l’École des hautes études en sciences sociales (EHESS) : "La justice algorithmique en chantier, sociologie du travail et des infrastructures de l’intelligence artificielle". Dans ce cadre elle a rencontré les équipes de la Cour de cassation qui procèdent à l’anonymisation des décisions de justice.

    Serda Formations Archives 2025

    Indispensable

    Bannière BDD.gif