L'IA au secours des archivistes pour exploiter les fonds Arolsen consacrés aux persécutions nazies

  • archives-arolsen-ia.png

    Persecutions-nazies-IA-accelere-exploitation-fonds-archives-Arolsen
    Les Archives Arolsen détiennent des données sur près de 17,5 millions de personnes (Archives Arolsen)
  • Une équipe de bénévoles d'Accenture a développé un programme d'intelligence artificielle permettant d'extraire des informations des crimes nazis avec une productivité multipliée par 40.

    Les Archives d'Arolsen (Allemagne) conservent l'un des plus importants fonds d'archives consacrés aux persécutions nazies. Ce centre de documentation détient des données sur près de 17,5 millions de personnes et a été inscrit au Registre Mémoire du monde de l’Unesco en 2013. Son patrimoine archivistique couvre trois thématiques : les documents créés par la bureaucratie nazie ; les documents émanant d’autorités publiques sur l’affectation des travailleurs forcés ; les dossiers établis par les Alliés sur l’entretien et les soins des personnes déplacées après 1945. 

    Mais l'exploitation de tels volumes documentaires ressemble à un parcours du combattant : "traduire, lire, transcrire, cataloguer et valider ces documents à la main pourrait prendre des décennies" explique la société de conseil Accenture ; "chaque document est indexé indépendamment par trois bénévoles et, si les entrées ne correspondent pas, un employé des archives d'Arolsen vérifie leur exactitude. En effet, il faut parfois jusqu'à quatre personnes pour indexer et valider quatre documents en une heure."

    160 documents en une heure

    Face à ce défi, une équipe de bénévoles d'Accenture a développé un programme d'intelligence artificielle qui combine la reconnaissance optique des caractères et la technologie d'apprentissage automatique. Cette IA est en mesure d'indexer des documents dont l'extraction est particulièrement difficile et fastidieuse pour les humains : listes de prisonniers et de transferts comportant des dizaines de rangées, registres de camps de concentration et de documents de recherche, etc.

    Selon Accenture, quatre bénévoles peuvent désormais valider environ 160 documents en une heure, soit une productivité multipliée par 40.

    Supervision humaine

    Pour autant, les promoteurs de cette IA restent prudents : "la supervision humaine du processus reste importante, non seulement pour garantir l'exactitude des données, mais aussi pour permettre à l'intelligence artificielle d'apprendre. En examinant et en corrigeant les informations, les volontaires "apprennent" à la solution à reconnaître les caractères d'écriture et les abréviations typiques de l'époque. Grâce à leurs contributions, l'IA a progressivement amélioré sa précision de 10 % dans le champ de formulaire "nom de famille de la mère". Pour le champ "religion", l'IA fonctionne désormais à 99 % de confiance."

    Sur le même thème : Quand les archives font appel à l'intelligence artificielle

    À lire sur Archimag
    Le chiffre du jour
    1
    est en moyenne signalée toutes les semaines dans les établissements de santé depuis janvier 2021. Les hôpitaux ont subi 27 cyberattaques majeures - qui ont effectué tout ou partie de leurs systèmes d'information - en 2020.
    Publicité

    archives 2021.PNG

    Indispensable

    Bannière BDD.gif