A 25 ans, Gallica poursuit sa croissance grâce à l'intelligence artificielle

  • gallica_25_ans.png

    25-ans-Gallica-poursuit-croissance-grace-intelligence-artificielle
    Page d’accueil de Gallica (BnF)
  • Un quart de siècle après son lancement sur le web, la bibliothèque numérique de la BnF propose désormais 10 millions de documents en accès libre. Et à l’heure de l’intelligence artificielle, Gallica s’apprête à faire évoluer ses fonctionnalités notamment dans le domaine de la fouille d’images.

    Le 14 juillet 1988, François Mitterrand annonçait “la création d’une Très Grande Bibliothèque d’un type entièrement nouveau”. Nul ne sait ce que l’ancien président de la République avait précisément en tête… Peut-être pensait-il à une bibliothèque numérique consultable en ligne. Une chose est certaine, il est mort trop tôt pour assister au lancement de Gallica sur le web en 1997.

    Lors de sa création, la bibliothèque numérique de la Bibliothèque nationale de France proposait 20 000 documents aux (rares) internautes de l'époque : des éditions passées à la postérité, des textes présentant les contextes culturel et scientifique des grandes œuvres, des documents connexes pour l’étude et la recherche, des périodiques et des ouvrages de référence.

    Nouveaux métiers

    “Après les moines copistes, après l’invention de l’imprimerie par Gutenberg, la numérisation a permis la conservation des documents et leur mise en ligne dans le respect du droit d’auteur puisque tous ces documents sont tombés dans le domaine public” explique Sophie Bertrand, Cheffe du service de la coopération numérique et de Gallica.

    A son lancement, Gallica a pourtant suscité quelques craintes au sein de la vénérable institution : “ l’arrivée du numérique dans une institution classique comme la Bibliothèque nationale de France a pu être perçue comme un danger. En réalité, Gallica reprend les fondamentaux de la bibliothéconomie comme le classement ou le signalement. Et de nouveaux métiers sont apparus ce qui a permis aux agents de monter en compétence” souligne Sophie Bertrand.

    En 2005, Jean-Noël Jeanneney, alors président de la BnF, donne une impulsion décisive à la Gallica en plaidant pour la création d’une bibliothèque numérique européenne afin d’apporter une réplique continentale à Google Books. Cette initiative donnera naissance à Europeana dont Gallica est l’un des contributeurs les plus actifs.

    Un projet national et collectif

    Un quart de siècle après son lancement, Gallica vient de mettre en ligne son dix-millionième document : il s’agit de Papillons d’Emile-Allain Seguy, un ouvrage de 1925 contenant de magnifiques planches colorées. Pour le plus grand plaisir d’une communauté de “Gallicanautes” principalement constituée de chercheurs, d’historiens, de généalogistes mais aussi d’amateurs éclairés. Au total, Gallica affiche 1 million de visites par mois.  L’enveloppe dédiée à Gallica s’élève à 1,5 millions d’euros par an, un coût généré par l'infrastructure informatique, les chantiers de numérisation et les mises à jour du site.

    Les “Gallicanautes” ne le savent pas toujours : si 90 % des documents qu’ils consultent en ligne proviennent des collections de la BnF, 10 % proviennent d’autres institutions (Médiathèque publique et universitaire de Valence, Bibliothèque municipale de Bordeaux…) “Gallica est un projet national et collectif” précise-t-on à la BnF.

    De l’OCR à la fouille d’images

    Gallica est surtout un projet en perpétuelle évolution. En 2021, les internautes ont pu accéder à GallicaPix un outil d’exploration iconographique permettant d’améliorer la recherche d’images. Un enjeu de taille car certaines illustrations sont difficilement accessibles en raison d’une identification incomplète.

    Dans la même veine, un autre chantier a vu le jour en collaboration avec la Bibliothèque universitaire de Strasbourg et l’INHA (Institut national d'histoire de l'art) et partiellement financé par la Caisse des dépôts. “Après l’OCR [reconnaissance optique de caractères], nous nous attelons à la fouille d’images” précise Sophie Bertrand ; “cela permettra par exemple de réaliser une requête très précise du type “trouver l’image d’une voiture verte page 3 d’un fascicule de presse” et d’y accéder. Ce chantier est mené par lots et nous avons déjà traité des herbiers et des collections technologiques”.

    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    sponsoring_display_archimag_episode_6.gif