Copiste d’un jour : un corpus québécois pour la reconnaissance de l’écriture manuscrite

Le 24/09/2025 Pascale Montmartin

copiste-jour-corpus-quebecois.jpg

BAnQ a mis en œuvre une initiative visant à créer un corpus manuscrit québécois contemporain. (Freepik)

Avec Copiste d’un jour, Bibliothèque et Archives nationales du Québec (BAnQ) a mis en œuvre une initiative visant à créer un corpus manuscrit québécois contemporain. Son objectif : soutenir le développement d’outils de reconnaissance de l’écriture manuscrite adaptés à notre réalité linguistique et calligraphique.

CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°387 - CYCLE DE VIE DE LA DATA : L’AFFAIRE DE TOUS !

Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !

Les technologies de reconnaissance de l’écriture manuscrite sont désormais des outils essentiels pour accroître l’accessibilité et la découvrabilité. Elles permettent notamment d’indexer, de rechercher et de consulter plus facilement des documents numérisés, jusqu’alors difficiles à exploiter. Cela bénéficie tant aux chercheurs qu’aux généalogistes, aux enseignants, aux personnes en situation de handicap visuel ou encore à celles et ceux qui souhaitent explorer le patrimoine écrit sans posséder de compétences en paléographie.

Au Québec, la plupart des travaux actuels concernent des corpus historiques du XVIIe au XIXe siècle. Les données portant sur des corpus plus récents sont, pour l’instant, surtout produites en France. Ces données pourraient nous être très utiles, mais l’écriture québécoise contemporaine ressemble davantage à celle des pays anglo-saxons. L’utilisation de données produites à partir de manuscrits en anglais ne constitue pas pour autant une solution, puisque les modèles apprennent les séquences de lettres plus fréquentes dans la langue cible pour améliorer leurs prédictions. Cette particularité de la calligraphie contemporaine québécoise nécessite donc la création de données qui lui sont spécifiques.

Et si copier un texte à la main devenait un geste de préservation numérique ?

C’est dans ce contexte que BAnQ a lancé Copiste d’un jour, inspiré de l’initiative française CREMMA Wikipédia. Le principe : produire rapidement un jeu de données en demandant à des bénévoles de recopier à la main des textes tirés de Wikipédia, dont le contenu est déjà connu. Cela évite le travail de déchiffrage habituellement requis pour l’annotation manuelle de documents.

Le projet s’est déroulé en trois grandes étapes :

Génération des textes sources
Un script Python a été développé pour extraire automatiquement des passages de 125 à 175 mots d’articles Wikipédia. BAnQ est allée plus loin que CREMMA en priorisant les textes contenant des séquences rares d’une et deux lettres, afin d’assurer un corpus aussi varié que possible,
Collecte des manuscrits
Des bénévoles, âgés d’au moins 18 ans, ont été sollicités durant un mois pour recopier les textes en suivant un protocole encadré. Tous ont signé un formulaire de consentement d’utilisation de leur calligraphie,
Transcription numérique
Les manuscrits ont été transcrits via la plateforme libre eScriptorium. Ce travail a été réalisé par une équipe de trois personnes pendant près de trois mois à temps partiel.

Un corpus unique, mais encore trop rare

Finalement, Copiste d’un jour a permis d’accumuler un corpus considérable de 267 textes, représentant 333 pages, 6 989 lignes, 47 900 mots et 316 715 caractères. C’est environ trois fois plus que le corpus initial de CREMMA Wikipédia, soit un résultat significatif, mais qui est encore insuffisant pour entraîner un modèle pleinement opérationnel sur une variété de manuscrits québécois contemporains.

Comme souvent en intelligence artificielle, la quantité et la qualité des données conditionnent la performance des modèles. BAnQ a donc choisi de rendre ces données librement accessibles sous licence CC-BY, sur GitHub afin d’encourager la recherche collaborative et la mutualisation des efforts.

Ce projet pose ainsi les fondations d’un corpus d’entraînement essentiel au développement de modèles adaptés au Québec, et rappelle que la donnée de qualité reste au cœur de l’intelligence.

Pascale Montmartin
[Chef de service des collections numériques et de la conservation à BAnQ]

Compétences des archivistes

archivage

Connectez-vous ou inscrivez-vous pour publier un commentaire

À lire sur Archimag

Nice-bibliotheque-Louis-Nucera-apprete-rouvrir-portes

A Nice, la bibliothèque Louis Nucéra s'apprête à rouvrir ses portes

Musée Albert Kahn : quand les Archives de la Planète deviennent des data

Bibliotheque-numerique-Calibre-devoile-nouvelle-version

Bibliothèque numérique : Calibre dévoile sa nouvelle version

RGPD et archives : mini guide de survie

Copiste d’un jour : un corpus québécois pour la reconnaissance de l’écriture manuscrite

copiste-jour-corpus-quebecois.jpg

Et si copier un texte à la main devenait un geste de préservation numérique ?

Un corpus unique, mais encore trop rare

Les derniers mags :

Les derniers guides :

Archimag : Plateformes GED/ECM : les acteurs du marché, les usages, les critères de choix

Archimag : PME : De la GED à l'IA agentique pour des résultats tangibles

Archimag : Secteur Public : guide vers une transformation souveraine et performante

Archimag : Facturation électronique : guide des plateformes agréées

Kokak Alaris : Numérisation : des bénéfices pour tous les métiers au sein des centres hospitaliers !

Cyberlibris : Enquête - Bibliothèque numérique : un outil stratégique encore sous-exploité (3ème édition)