Article réservé aux abonnés Archimag.com

Copiste d’un jour : un corpus québécois pour la reconnaissance de l’écriture manuscrite

  • copiste-jour-corpus-quebecois.jpg

    banq-mis-oeuvre-initiative-visant-creer-corpus-manuscrit-quebecois-contemporain
    BAnQ a mis en œuvre une initiative visant à créer un corpus manuscrit québécois contemporain. (Freepik)
  • Avec Copiste d’un jour, Bibliothèque et Archives nationales du Québec (BAnQ) a mis en œuvre une initiative visant à créer un corpus manuscrit québécois contemporain. Son objectif : soutenir le développement d’outils de reconnaissance de l’écriture manuscrite adaptés à notre réalité linguistique et calligraphique.

    archimag_387_bd.jpgenlightened CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°387 - CYCLE DE VIE DE LA DATA : L’AFFAIRE DE TOUS !

    mail Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !


    Les technologies de reconnaissance de l’écriture manuscrite sont désormais des outils essentiels pour accroître l’accessibilité et la découvrabilité. Elles permettent notamment d’indexer, de rechercher et de consulter plus facilement des documents numérisés, jusqu’alors difficiles à exploiter. Cela bénéficie tant aux chercheurs qu’aux généalogistes, aux enseignants, aux personnes en situation de handicap visuel ou encore à celles et ceux qui souhaitent explorer le patrimoine écrit sans posséder de compétences en paléographie.

    Lire aussi : Québec : retour sur la fusion des archives et de la bibliothèque nationales

    Au Québec, la plupart des travaux actuels concernent des corpus historiques du XVIIe au XIXe siècle. Les données portant sur des corpus plus récents sont, pour l’instant, surtout produites en France. Ces données pourraient nous être très utiles, mais l’écriture québécoise contemporaine ressemble davantage à celle des pays anglo-saxons. L’utilisation de données produites à partir de manuscrits en anglais ne constitue pas pour autant une solution, puisque les modèles apprennent les séquences de lettres plus fréquentes dans la langue cible pour améliorer leurs prédictions. Cette particularité de la calligraphie contemporaine québécoise nécessite donc la création de données qui lui sont spécifiques.

    Et si copier un texte à la main devenait un geste de préservation numérique ?

    C’est dans ce contexte que BAnQ a lancé Copiste d’un jour, inspiré de l’initiative française CREMMA Wikipédia. Le principe : produire rapidement un jeu de données en demandant à des bénévoles de recopier à la main des textes tirés de Wikipédia, dont le contenu est déjà connu. Cela évite le travail de déchiffrage habituellement requis pour l’annotation manuelle de documents.

    Le projet s’est déroulé en trois grandes étapes :

    1. Génération des textes sources
      Un script Python a été développé pour extraire automatiquement des passages de 125 à 175 mots d’articles Wikipédia. BAnQ est allée plus loin que CREMMA en priorisant les textes contenant des séquences rares d’une et deux lettres, afin d’assurer un corpus aussi varié que possible,
    2. Collecte des manuscrits
      Des bénévoles, âgés d’au moins 18 ans, ont été sollicités durant un mois pour recopier les textes en suivant un protocole encadré. Tous ont signé un formulaire de consentement d’utilisation de leur calligraphie,
    3. Transcription numérique
      Les manuscrits ont été transcrits via la plateforme libre eScriptorium. Ce travail a été réalisé par une équipe de trois personnes pendant près de trois mois à temps partiel.

    Un corpus unique, mais encore trop rare

    Finalement, Copiste d’un jour a permis d’accumuler un corpus considérable de 267 textes, représentant 333 pages, 6 989 lignes, 47 900 mots et 316 715 caractères. C’est environ trois fois plus que le corpus initial de CREMMA Wikipédia, soit un résultat significatif, mais qui est encore insuffisant pour entraîner un modèle pleinement opérationnel sur une variété de manuscrits québécois contemporains.

    Lire aussi : IA et patrimoine : les professionnels témoignent

    Comme souvent en intelligence artificielle, la quantité et la qualité des données conditionnent la performance des modèles. BAnQ a donc choisi de rendre ces données librement accessibles sous licence CC-BY, sur GitHub afin d’encourager la recherche collaborative et la mutualisation des efforts.

    Ce projet pose ainsi les fondations d’un corpus d’entraînement essentiel au développement de modèles adaptés au Québec, et rappelle que la donnée de qualité reste au cœur de l’intelligence.

    Pascale Montmartin
    [Chef de service des collections numériques et de la conservation à BAnQ]

    À lire sur Archimag
    Les podcasts d'Archimag
    Êtes-vous prêt pour la réforme de la facturation électronique ? À moins de 460 jours du grand lancement, l’écosystème se prépare activement. Lors de la Journée de la Facturation Électronique qui s'est tenue le 13 mai dernier à Paris, Archimag Podcast est allé à la rencontre des acteurs incontournables de cette réforme : les Plateformes de dématérialisation partenaires, ou PDP. Ensemble, nous avons parlé de leur rôle, de leurs spécificités, de leur modèle économique et de leur secret de longévité. Dans cet épisode, nous vous dévoilons qui sont ces acteurs et ce qu'ils préparent pour accompagner la réforme.
    Publicité

    sponsoring_display_archimag_episode_6.gif