Publicité

A 25 ans, Gallica poursuit sa croissance grâce à l'intelligence artificielle

  • gallica_25_ans.png

    25-ans-Gallica-poursuit-croissance-grace-intelligence-artificielle
    Page d’accueil de Gallica (BnF)
  • Un quart de siècle après son lancement sur le web, la bibliothèque numérique de la BnF propose désormais 10 millions de documents en accès libre. Et à l’heure de l’intelligence artificielle, Gallica s’apprête à faire évoluer ses fonctionnalités notamment dans le domaine de la fouille d’images.

    Le 14 juillet 1988, François Mitterrand annonçait “la création d’une Très Grande Bibliothèque d’un type entièrement nouveau”. Nul ne sait ce que l’ancien président de la République avait précisément en tête… Peut-être pensait-il à une bibliothèque numérique consultable en ligne. Une chose est certaine, il est mort trop tôt pour assister au lancement de Gallica sur le web en 1997.

    Lors de sa création, la bibliothèque numérique de la Bibliothèque nationale de France proposait 20 000 documents aux (rares) internautes de l'époque : des éditions passées à la postérité, des textes présentant les contextes culturel et scientifique des grandes œuvres, des documents connexes pour l’étude et la recherche, des périodiques et des ouvrages de référence.

    Nouveaux métiers

    “Après les moines copistes, après l’invention de l’imprimerie par Gutenberg, la numérisation a permis la conservation des documents et leur mise en ligne dans le respect du droit d’auteur puisque tous ces documents sont tombés dans le domaine public” explique Sophie Bertrand, Cheffe du service de la coopération numérique et de Gallica.

    A son lancement, Gallica a pourtant suscité quelques craintes au sein de la vénérable institution : “ l’arrivée du numérique dans une institution classique comme la Bibliothèque nationale de France a pu être perçue comme un danger. En réalité, Gallica reprend les fondamentaux de la bibliothéconomie comme le classement ou le signalement. Et de nouveaux métiers sont apparus ce qui a permis aux agents de monter en compétence” souligne Sophie Bertrand.

    En 2005, Jean-Noël Jeanneney, alors président de la BnF, donne une impulsion décisive à la Gallica en plaidant pour la création d’une bibliothèque numérique européenne afin d’apporter une réplique continentale à Google Books. Cette initiative donnera naissance à Europeana dont Gallica est l’un des contributeurs les plus actifs.

    Un projet national et collectif

    Un quart de siècle après son lancement, Gallica vient de mettre en ligne son dix-millionième document : il s’agit de Papillons d’Emile-Allain Seguy, un ouvrage de 1925 contenant de magnifiques planches colorées. Pour le plus grand plaisir d’une communauté de “Gallicanautes” principalement constituée de chercheurs, d’historiens, de généalogistes mais aussi d’amateurs éclairés. Au total, Gallica affiche 1 million de visites par mois.  L’enveloppe dédiée à Gallica s’élève à 1,5 millions d’euros par an, un coût généré par l'infrastructure informatique, les chantiers de numérisation et les mises à jour du site.

    Les “Gallicanautes” ne le savent pas toujours : si 90 % des documents qu’ils consultent en ligne proviennent des collections de la BnF, 10 % proviennent d’autres institutions (Médiathèque publique et universitaire de Valence, Bibliothèque municipale de Bordeaux…) “Gallica est un projet national et collectif” précise-t-on à la BnF.

    De l’OCR à la fouille d’images

    Gallica est surtout un projet en perpétuelle évolution. En 2021, les internautes ont pu accéder à GallicaPix un outil d’exploration iconographique permettant d’améliorer la recherche d’images. Un enjeu de taille car certaines illustrations sont difficilement accessibles en raison d’une identification incomplète.

    Dans la même veine, un autre chantier a vu le jour en collaboration avec la Bibliothèque universitaire de Strasbourg et l’INHA (Institut national d'histoire de l'art) et partiellement financé par la Caisse des dépôts. “Après l’OCR [reconnaissance optique de caractères], nous nous attelons à la fouille d’images” précise Sophie Bertrand ; “cela permettra par exemple de réaliser une requête très précise du type “trouver l’image d’une voiture verte page 3 d’un fascicule de presse” et d’y accéder. Ce chantier est mené par lots et nous avons déjà traité des herbiers et des collections technologiques”.

    À lire sur Archimag
    Les podcasts d'Archimag
    Saison 2, Ép. 9 - Sommes-nous devenus accros aux algorithmes ? Aux recommandations de nos réseaux sociaux ou encore aux IA génératives qui se démocratisent depuis plus d'un an ? Pour répondre à cette question, nous avons rencontré Luc de Brabandère. Il se définit comme un philosophe d’entreprise, un mathématicien, un professeur, mais aussi un heureux grand-père et un Européen convaincu. Ses multiples casquettes nourrissent ses divers travaux. Luc de Brabandère est notamment l'auteur de "Petite Philosophie des algorithmes sournois", publié aux éditions Eyrolles en octobre 2023. Pour le podcast d'Archimag, il nous livre ses réflexions sur les algorithmes et revient sur son parcours atypique.
    Publicité

    sponsoring_display_archimag_episode_6.gif