Publicité

Lancement d'OCR4all, un outil open source et gratuit de reconnaissance de caractères anciens pour les chercheurs en histoire et les archivistes

  • ocr_wurzburg.jpg

    Narrenschiff
    Page d'une version française du Narrenschiff de Sébastien Brant (Bibliothèque d'État et d'université de Dresde, CC BY-SA 4.0)
  • Imaginez un logiciel capable de reconnaître, presque à coup sûr, les lettres "e", "c", "v" ou "r" dans un texte ancien.

    Comment transformer les polices d'écriture d'ouvrages imprimés séculaires numérisés en des fichiers textes lisibles sur ordinateurs quand on n'est pas un expert informatique ? Ce défi, attendu par nombre d'historiens, d'archivistes et de chercheurs en sciences humaines, a été relevé par une équipe de recherche de l'Université de Würzburg, en Allemagne. Celle-ci vient de mettre à la disposition de la communauté scientifique un nouvel outil de reconnaissance automatique de caractères : OCR4all. Fiable et open source, il convertit les écrits historiques numérisés en fichiers texte avec un taux d'erreur annoncé de moins de 1%. Ergonomique et facile d'utilisation, il ne nécessite aucune expertise en programmation et est d'ores et déjà disponible gratuitement, avec explications et exemples, sur la plateforme GitHub.

    L'informatique et les sciences humaines main dans la main

    OCR4all a été créé par l'équipe du projet JMU Kallimachos, financé par le ministère fédéral allemand de l'éducation et de la recherche, et qui rassemble des chercheurs, des étudiants et des assistants en informatique appliquée, en intelligence artificielle et en sciences humaines numériques. La filière des études allemandes et romanes et des études littéraires a été également associée au développement d'OCR4all avec l'objectif de numériser l'ouvrage allemand le Narrenschiff (La Nef des fous) publié en 1494 par le Strasbourgeois Sebastien Brant. 

    A chaque imprimerie ses lettres

    Pour qui s'intéresse de loin à la reconnaissance automatique de caractères (OCR), le défi peut sembler modeste. Et pourtant : si l'OCR est une technologie mature et qui fonctionne très bien pour les polices de caractères modernes, il n'en était rien pour les polices historiques. Les lettres "e", "c", "v" ou "r", sont nottamment très difficiles à distinguer dans les textes anciens. "L'un des problèmes les plus importants était la typographie, explique Christian Reul, expert en IA et en informatique appliquée, directeur par interim de l'unité de numérisation ; l’une des raisons est que les premiers imprimeurs du 15e siècle n’utilisaient pas de polices uniformes. Leurs timbres d’impression ont tous été sculptés par eux-mêmes, chaque imprimerie disposant pratiquement de ses propres lettres." 

    Ce sujet vous intéresse? Retrouvez-en davantage dans les Guides Pratiques Archimag !

    Images et vidéos envahissent en permanence nos écrans. Les sources et les flux se multiplient tandis que les organisations sont confrontées à la valorisation de leurs propres fonds. Pour mener leurs projets, qu’ils soient à visée patrimoniale ou de diffusion, elles doivent imaginer de nouvelles pratiques et de nouveaux usages. Se posent alors des questions d’accès à ces contenus aux formats variés, d’identification, de conservation des supports et des appareils, de gestion des droits, d’exploitation ou réexploitation des contenus. Points techniques, avis d’expert, méthodes, outils et retours d’expérience apportent les réponses nécessaires.

    Acheter ce guide  ou  Abonnez-vous

    À lire sur Archimag

    Le Mag

    Tout Archimag, à partir de 9,50 €
    tous les mois.

    Le chiffre du jour

    63
    C'est la part des entreprises françaises qui adhèrent à la dématérialisation des notes de frais.

    Recevez l'essentiel de l'actu !

    Publicité

    2019_03_270x270_aidel-archimag_fondu.gif

    Indispensable

    Bannière BDD.gif