DataLab : sur quels projets de recherche travaille ce service dédié aux données de la BnF ?

Inauguré en octobre 2021, le BnF DataLab a pour ambition d’aider les chercheurs à appréhender et exploiter les immenses collections numériques de la Bibliothèque nationale de France. Fouille de textes, analyse d’images et intelligence artificielle sont au cœur de ce programme. Sur quels projets de recherche travaillent ces data librarians ? Visite dans ce service qui navigue au milieu d’un océan de données.

Temps de lecture : 6 minutes

Découvrez Le Bibliothécaire Innovant, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des bibliothèques !

À quoi pensait François Mitterrand lorsqu’il annonça, le 14 juillet 1988, la construction « d’une bibliothèque d’un genre entièrement nouveau » ? En quelques mots, il esquissait un début de réponse :

« je veux une bibliothèque qui puisse prendre en compte toutes les données du savoir dans toutes les disciplines et surtout qui puisse communiquer ce savoir à l’ensemble de ceux qui cherchent, qui étudient, de ceux qui ont besoin d’apprendre (...) et qui doivent trouver un appareil modernisé, informatisé et avoir immédiatement le renseignement qu’ils recherchent ».

Le DataLab de la BnF, c'est quoi ?

L’ancien président de la République est mort bien trop tôt – en 1996 – pour constater que son vœu a été exaucé au-delà de ses espoirs. Notamment avec le DataLab de la Bibliothèque nationale de France.

Ce service inauguré au mois d’octobre dernier s’adresse aux chercheurs qui souhaitent exploiter les très riches collections numériques de la BnF : les documents issus de la numérisation des collections et mis en ligne sur Gallica bien sûr mais aussi les ressources électroniques acquises, les collections audiovisuelles et multimédias sur support (jeux vidéo, CD-Rom, DVD…), les archives de l’internet, les métadonnées des différents catalogues…

datalab-bnf-collections-donnees

« Ces collections numériques sont un formidable réservoir de données mais elles ne sont pas toujours faciles à appréhender », constate Marie Carlin, coordinatrice du BnF DataLab ; « elles ouvrent de nouveaux champs de recherche et suscitent de nouveaux usages comme la fouille de texte, la visualisation des données ou l’analyse d’images. Nous avons pour objectif d’accompagner les chercheurs à exploiter au mieux tous ces corpus ».

Travailler sur des corpus dans le respect du droit d’auteur

Il faut descendre dans les entrailles de la BnF et rejoindre la salle X pour profiter des espaces particulièrement soignés mis à disposition des chercheurs : de confortables salles de travail, des box individuels ainsi qu’une infrastructure informatique composée d’espaces de stockage, de machines virtuelles sécurisées et de logiciels permettant de travailler sur des corpus « dans le respect du droit d’auteur ».

Les chercheurs peuvent également compter sur les compétences des bibliothécaires pour naviguer au milieu d’un océan de données et, par exemple, procéder à des extractions de la bibliothèque numérique Gallica :

« le DataLab est aussi un lieu d’échanges où se rencontrent différentes communautés professionnelles. Nous avons souhaité en faire un lieu convivial où les chercheurs pourront présenter leurs travaux et assister à des ateliers à nos côtés », explique Marie Carlin.

À ce jour, cinq projets ont été sélectionnés sur 21 réceptionnés à la suite d’un appel à projets lancé au mois de juin 2021 par la BnF et son partenaire Huma-Num. Pendant une année, les équipes sélectionnées seront accueillies au sein des espaces du DataLab et profiteront d’un accompagnement technique et d’un financement.

GallicaEnv : construire un corpus thématique à l’aide d’une intelligence artificielle

Parmi les heureux élus, le projet GallicaEnv a pour objet d’étudier l’évolution du concept d’environnement à travers l’histoire :

« la notion d’environnement, dans son acception actuelle, est relativement récente. La notion même est absente des catalogues, rendant difficile la constitution de corpus autour de cette notion. À travers les collections de Gallica, le projet GallicaEnv a pour objectif d’étudier l’émergence et la viralité de cette notion, à l’aide de techniques d’intelligence artificielle (apprentissage profond) », précisent les porteurs du projet.

Ces derniers se sont donc donné pour mission d’expérimenter la possibilité de construire un corpus thématique à l’aide d’une intelligence artificielle, mais aussi les points d’entrée dans les collections en enrichissant les métadonnées existantes et en développant une méthodologie de recherche sémantique.

Bonne nouvelle : les résultats de ces recherches (métadonnées, corpus, outils, articles) seront ensuite mis à disposition du public et des chercheurs.

Buzz-F : comprendre la viralité de l’information sur le web

Autre projet lauréat, Buzz-F a pour ambition d’étudier la viralité et la circulation de l’information sur le web. Notamment à travers le cas de la pandémie de Covid-19 grâce à l’analyse des archives du web collectées dans le cadre du dépôt légal du web. La BnF est en effet chargée de la collecte du web français depuis la loi DADVSI de 2006.

Ndlr : Loi relative au droit d’auteur et aux droits voisins dans la société de l’information (DADVSI) a été promulguée le 1er août 2006. Selon le titre IV de cette loi, la Bibliothèque nationale de France et l'Institut national de l'audiovisuel sont les deux institutions en charge du dépôt légal des sites web (sites enregistrés sous le nom de domaine .fr ou tout autre nom de domaine national (.re, .nc), ainsi que les sites enregistrés par une personne domiciliée en France ou produits sur le territoire français).

« Cette collecte ne prétend pas à l'exhaustivité, mais vise à assurer la meilleure représentativité possible de l’internet français » précise-t-on à la BnF. Elle porte aujourd’hui sur plus de 4 millions de sites et 2 milliards de pages web par an.

Buzz-F va procéder à l’analyse des mèmes, des gifs, des vidéos de danse ou d’applaudissement « c’est-à-dire de contenus absents des collections mais dont la diffusion massive a pu générer de multiples traces plus indirectes dans l’archive ».

AUREJ : exploiter les collections autour du jeu vidéo

Le jeu vidéo, quant à lui, fait l’objet d’un projet de recherche baptisé AUREJ (Accès Unifié aux REssources de la Jouabilité). Objectif : explorer les nouvelles modalités d’exploitation des collections qui environnent le jeu vidéo : presse, vidéos de jeu, bande son…

« Autant de ressources documentaires et matérielles conservées par la BnF, mais dont la consultation sur un seul et même environnement soulève des contraintes techniques encore difficiles à surmonter », soulignent les porteurs du projet ; « AUREJ » vise notamment une analyse transversale du corpus hétérogène ainsi constitué (jeux, supports, matériels, presse spécialisé, cédéroms, enregistrements vidéo, etc.) afin de dégager les fondements techniques et pratiques qui permettraient de proposer aux usagers un accès unifié aux ressources, en particulier pour les publics de chercheurs ».

Mission de valorisation

Constitution de corpus, ressources numériques, droit d’auteur… Alors que les institutions culturelles sont engagées dans la délicate bataille du référencement face aux Gafam, le DataLab de la BnF explore une piste encore peu défrichée :

« pour la Bibliothèque nationale de France, le DataLab s’inscrit dans ses missions traditionnelles de valorisation de ses collections », explique Marie Carlin ; « il a également vocation à être le laboratoire de la BnF au service de l’étude des collections. C’est un nouveau défi dans le domaine des humanités numériques que nous relevons avec enthousiasme ! ».