
RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE MAGAZINE : Quel futur pour le stockage de données ?
Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation
Pour cette première expérimentation, le choix s’est porté sur les carnets de Clémence DesRochers - artiste multidisciplinaire québécoise (notamment actrice, scénariste, écrivaine, dessinatrice, chanteuse et humoriste) née en 1933 à Sherbrooke, au Québec) -, un ensemble cohérent et libre d’accès qui offrait des conditions propices à l’analyse.
Cette collection comprend 72 carnets, dont 57 ont été numérisés et mis en ligne. Elle représente 2 181 pages à transcrire, ce qui constitue un corpus de taille significative. Rédigés entre les années 1970 et 2000, ces documents relativement récents sont écrits dans une calligraphie moderne et comportent des références contemporaines susceptibles de faciliter le déchiffrage des passages les plus complexes.
Cependant, le corpus présentait aussi plusieurs défis : calligraphie anglo-saxonne, lignes ondulantes, taille variable des mots, usage de crayons variés, ratures fréquentes et ajouts en marge. Ces éléments introduisent une forte diversité visuelle, rendant l’entraînement des modèles plus ardu, mais également plus représentatif.
Lire aussi : IA et patrimoine : les professionnels témoignent
À partir de ce corpus, l’objectif était d’évaluer concrètement les besoins et la performance liés à l’entraînement progressif d’un modèle, en observant comment passer d’un outil générique à un modèle mieux adapté à l’écriture propre à Clémence DesRochers.
Du modèle générique au modèle personnalisé
Le traitement du corpus a été réalisé par itérations grâce à une équipe de quatre personnes : un analyste et trois techniciens pour la validation des transcriptions. Au début de chaque cycle, un certain nombre de pages a été transcrit automatiquement avec le meilleur modèle disponible, soit celui entraîné avec la plus grande quantité de données issues de ce corpus à ce moment-là.
Pour la première itération, puisque nous n’avions pas encore produit de modèle spécifique à l’écriture de Clémence DesRochers, nous avons simplement eu recours à ManuMcFrench3 (MMF3), un modèle développé par Alix Chagué et Thibault Clérice pour reconnaître la calligraphie moderne et contemporaine française. Une fois générées, les transcriptions automatiques ont été importées sur un serveur eScriptorium pour être révisées manuellement.
Lire aussi : Les promesses de la reconnaissance d'écriture manuscrite
Lorsqu’il y a eu un nombre suffisamment élevé de transcriptions corrigées, un nouveau modèle a pu être entraîné. Chaque fois, MMF3 a été utilisé comme modèle de base et a été affiné avec toutes les transcriptions produites au moment de lancer l’entraînement. Tous ces entraînements ont été réalisés avec Kraken.
Les résultats
Au total, il a fallu plus de 350 heures de travail pour vérifier les transcriptions, soit une moyenne d’environ 6 pages par heure. Nous avions l’objectif d’un taux d’erreur inférieur à 5 % par page, seuil en deçà duquel nous considérons que la qualité est suffisante pour garantir un repérage efficace pour nos usagers et pour justifier la diffusion.
Aucune des pages transcrites à l’aide du modèle de base MMF3 n’a atteint le seuil visé, le taux d’erreur restant systématiquement au-dessus de 15 %. Notre dernier modèle, entraîné sur 1 542 pages du corpus, a permis d’améliorer considérablement la qualité des transcriptions : 67 % des pages présentaient alors un taux d’erreur inférieur à 15 %, dont 28 % entre 5 et 10 %, et 16 % sous la barre des 5 %.
Lire aussi : Copiste d’un jour : un corpus québécois pour la reconnaissance de l’écriture manuscrite
Des humains toujours indispensables
Ces résultats illustrent l’ampleur de l’investissement encore nécessaire pour ce type de projet. Si la reconnaissance automatisée permet d’accélérer le processus, elle ne peut, à ce stade, garantir une transcription suffisamment fidèle sans intervention humaine, idéalement assurée par des spécialistes en paléographie. Ce travail reste prometteur et nous demeurons à l’affût des évolutions technologiques qui permettront de favoriser l’accessibilité et la découvrabilité du patrimoine écrit.
Pascale Montmartin
[Chef de service des collections numériques et de la conservation à BAnQ]










