Publicité

Comment le Québec utilise l'intelligence artificielle pour faire parler les archives

  • archives_univ_montreal.jpg

    Comment-Quebec-utilise-intelligence-artificielle-faire-parler-archives
    Un document issu du fonds Louis-François-Georges-Baby de l'Université de Montréal (Amélie Philibert, Université de Montréal)
  • L'Université de Montréal recourt à l'IA afin de déchiffrer l’écriture souvent illisible de documents manuscrits du XVIIème siècle.

    La Division des archives et de la gestion de l’information de l'Université de Montréal détient de nombreux documents notamment un fonds intitulé Louis-François-Georges-Baby. Ce corpus est composé de documents manuscrits relatifs aux populations autochtones du Québec. Problème : l'écriture manuscrite y est souvent illisible. Un défi pour les historiens alors que le fonds Louis-François-Georges-Baby est en mesure d'apporter des réponses à des questions historiques non résolues : quel sort était réservé aux personnes reconnues coupables de commerce illicite d’alcool en 1667 ? Quelle était l’étendue de la concession territoriale, dans les environs de Sillery, accordée en 1642 par les Augustines de l’Hôtel-Dieu de Québec aux Autochtones de Tadoussac ?

    Les équipes de l'Université de Montréal (UdeM) ont décidé de recourir à l'intelligence artificielle pour faire parler ces archives. En particulier le logiciel Transkribus dédié à la reconnaissance de texte, à l'analyse d'images et de reconnaissance de structure de documents historiques. "Une fois le document d’archives numérisé en haute résolution et téléversé dans Transkribus, le logiciel crée des modèles linguistiques à l’aide d’algorithmes d’apprentissage qui, en balayant les écritures, repèrent les mots et les tournures de phrases récurrents et parviennent à en déchiffrer le contenu" explique Jean-Olivier Dicaire-Leduc, étudiant au sein de l'UdeM.

    Améliorer les instruments de recherche

    Difficulté supplémentaire, la série N du fonds Baby comporte des documents hétérogènes : jugements de cour, contrats de concessions territoriales, observations démographiques; bons de marchandises... Et elle présente la particularité d'avoir été rédigée par différents auteurs, rendant le décodage plus complexe. "Les transcriptions automatiques effectuées par Transkribus comportent certaines erreurs, que j’ai corrigées afin de faciliter la lecture et le balisage" indique Jean-Olivier Dicaire-Leduc.

    L'apport de l'IA a un premier résultat concret : améliorer l’accès au contenu des documents grâce à la transcription aux fins d’indexation dans les instruments de recherche archivistiques, en particulier le catalogue Web (AtoM) des archives de l’Université de Montréal. Au-delà il s'agit pour Jean-Olivier Dicaire-Leduc de "faciliter l’accès à une partie de l’histoire de la Nouvelle-France et, possiblement, à la création d’instruments de recherche et d’outils de diffusion des archives accessibles à tous".

    Sur le même thème : Quand les archives font appel à l'intelligence artificielle   

    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    Serda Formations Archives 2023

    Indispensable

    Bannière BDD.gif