CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°387 - CYCLE DE VIE DE LA DATA : L’AFFAIRE DE TOUS !
Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !
Les technologies de reconnaissance de l’écriture manuscrite sont désormais des outils essentiels pour accroître l’accessibilité et la découvrabilité. Elles permettent notamment d’indexer, de rechercher et de consulter plus facilement des documents numérisés, jusqu’alors difficiles à exploiter. Cela bénéficie tant aux chercheurs qu’aux généalogistes, aux enseignants, aux personnes en situation de handicap visuel ou encore à celles et ceux qui souhaitent explorer le patrimoine écrit sans posséder de compétences en paléographie.
Lire aussi : Québec : retour sur la fusion des archives et de la bibliothèque nationales
Au Québec, la plupart des travaux actuels concernent des corpus historiques du XVIIe au XIXe siècle. Les données portant sur des corpus plus récents sont, pour l’instant, surtout produites en France. Ces données pourraient nous être très utiles, mais l’écriture québécoise contemporaine ressemble davantage à celle des pays anglo-saxons. L’utilisation de données produites à partir de manuscrits en anglais ne constitue pas pour autant une solution, puisque les modèles apprennent les séquences de lettres plus fréquentes dans la langue cible pour améliorer leurs prédictions. Cette particularité de la calligraphie contemporaine québécoise nécessite donc la création de données qui lui sont spécifiques.
Et si copier un texte à la main devenait un geste de préservation numérique ?
C’est dans ce contexte que BAnQ a lancé Copiste d’un jour, inspiré de l’initiative française CREMMA Wikipédia. Le principe : produire rapidement un jeu de données en demandant à des bénévoles de recopier à la main des textes tirés de Wikipédia, dont le contenu est déjà connu. Cela évite le travail de déchiffrage habituellement requis pour l’annotation manuelle de documents.
Le projet s’est déroulé en trois grandes étapes :
- Génération des textes sources
Un script Python a été développé pour extraire automatiquement des passages de 125 à 175 mots d’articles Wikipédia. BAnQ est allée plus loin que CREMMA en priorisant les textes contenant des séquences rares d’une et deux lettres, afin d’assurer un corpus aussi varié que possible, - Collecte des manuscrits
Des bénévoles, âgés d’au moins 18 ans, ont été sollicités durant un mois pour recopier les textes en suivant un protocole encadré. Tous ont signé un formulaire de consentement d’utilisation de leur calligraphie, - Transcription numérique
Les manuscrits ont été transcrits via la plateforme libre eScriptorium. Ce travail a été réalisé par une équipe de trois personnes pendant près de trois mois à temps partiel.
Un corpus unique, mais encore trop rare
Finalement, Copiste d’un jour a permis d’accumuler un corpus considérable de 267 textes, représentant 333 pages, 6 989 lignes, 47 900 mots et 316 715 caractères. C’est environ trois fois plus que le corpus initial de CREMMA Wikipédia, soit un résultat significatif, mais qui est encore insuffisant pour entraîner un modèle pleinement opérationnel sur une variété de manuscrits québécois contemporains.
Lire aussi : IA et patrimoine : les professionnels témoignent
Comme souvent en intelligence artificielle, la quantité et la qualité des données conditionnent la performance des modèles. BAnQ a donc choisi de rendre ces données librement accessibles sous licence CC-BY, sur GitHub afin d’encourager la recherche collaborative et la mutualisation des efforts.
Ce projet pose ainsi les fondations d’un corpus d’entraînement essentiel au développement de modèles adaptés au Québec, et rappelle que la donnée de qualité reste au cœur de l’intelligence.
Pascale Montmartin
[Chef de service des collections numériques et de la conservation à BAnQ]