Publicité

Utilisation des données liées dans les bibliothèques : de la désillusion à la productivité

  • recherches_donnees_technologies_bibliotheques_oclc.png

    recherches_données_bibliothèques_oclc
    Depuis plus de dix ans, OCLC mène des recherches sur l’utilisation des données liées au sein des bibliothèques (crédits : Pixabay Coffee Bean)
  • Depuis plus de dix ans, OCLC mène des recherches sur l’utilisation des données liées au sein des bibliothèques. Les catalogueurs, les technologues et les administrateurs ont suivi avec beaucoup d’intérêt l’évolution prometteuse de la description bibliographique, en vue de trouver un remplaçant au format MARC. Mais avant de nous intéresser de plus près à l’engouement suscité par les données liées et aux difficultés rencontrées pour les mettre en œuvre, précisons que les technologies et les principes relatifs à ce nouvel environnement continuent à faire parler d’eux dans les bibliothèques, et que cette attention est méritée.
     

    format_marc_oclc.png

    Il est facile de considérer avec scepticisme les efforts des bibliothèques qui tentent d’appliquer des technologies innovantes à des problèmes depuis longtemps résolus. Chez OCLC, nous sommes néanmoins convaincus que les données liées sont indispensables aux bibliothèques. Elles sont l’une de nos dernières chances de nous lancer dans un processus d’innovation qui, nous le savons pertinemment, est impossible à mettre en œuvre avec le format MARC, de plus en plus complexe et anachronique.

    Il est parfois difficile de savoir exactement où réside l’intérêt des données liées et quels avantages nous pouvons en tirer. Il est donc judicieux de considérer leur utilité du point de vue du personnel des bibliothèques. Que signifie la « productivité des données liées » ? Qu’est-ce que le catalogage des données liées changerait pour le personnel des bibliothèques et les utilisateurs finaux ?

    Les catalogueurs abandonneront leurs tâches répétitives au profit d’une nouvelle activité innovante, qui sera axée sur les ressources plutôt que sur le formatage de chaînes de caractères. Ils n’auront plus à s’occuper ni de la compilation des données locales ni du nettoyage des données provenant de tiers. Les tâches requérant des « autorisations » seront intégrées dans un processus de « gestion des identités » plus efficace.

    Le personnel chargé des collections spéciales découvrira des collections jusqu’alors cachées, se spécialisera dans l’utilisation de formats nouveaux ou inhabituels, incitera les membres de sa communauté de pratique à apporter leur contribution, et mettra au jour des ressources que les spécialistes pourront ensuite enrichir.

    Le personnel administratif s’occupera de la compilation et du nettoyage des données, ainsi que des tâches requérant des autorisations. Il transférera les travaux de connaissance sur le cloud et favorisera les projets d’expérimentation. Enfin, il confortera la bibliothèque dans sa mission de création et de partage de connaissances sur le campus et au sein de sa communauté.

    Les utilisateurs finaux bénéficieront de données enrichies, d’informations multilingues, et de scripts polyvalents. Ils pourront se rapprocher de leur communauté de pratique, et découvrir de nouvelles fonctionnalités de recherche grâce auxquelles ils pourront formuler des requêtes de façon totalement inédite.

    Cependant, le chemin vers l’utilisation productive des données liées est semé de doutes, de craintes et d’incertitudes.

    De l’effet de mode à un véritable espoir

    Le cycle du hype de Gartner permet d’évaluer la maturité du processus de développement et d’appropriation des données liées par les bibliothèques. Fait étonnant, la « courbe des connaissances » est toujours à la hausse et n’a pas encore atteint le « pic des attentes exagérées ». On pouvait penser que les bibliothèques avaient atteint ce pic avec l’arrivée des données liées il y a plus d’un an, avant de sombrer rapidement dans le « gouffre des désillusions » où, selon toute vraisemblance, elles auraient dû demeurer ad vitam æternam. Le format MARC semblait indétrônable.

    graphique_oclc_donnees_bibliotheques_0.jpg
     
    Mais l’enjeu était trop important pour qu’OCLC et les bibliothèques jettent l’éponge aussi facilement. Les bibliothèques se sont manifestées haut et fort pour chasser cette désillusion et ont insufflé un nouvel élan au projet pilote mené par OCLC.

    En janvier 2018, OCLC a mis en place « Project Passage » (oc.lc/passagereport), un prototype de données liées sur Wikibase, conçu pour consulter, modifier et créer des descriptions et des relations entre données liées, et pour rendre compatibles les données des notices bibliographiques traditionnelles et des entités de données liées. Mais OCLC Research n’était pas seule dans cette aventure. Elle a œuvré en étroite collaboration avec un groupe de 16 établissements d’enseignement supérieur, instituts de recherche, et organisations publiques et nationales. Ce travail s’inscrivait dans une stratégie visant à mettre au point une offre de services à grande échelle et à un niveau de production à destination des bibliothèques, afin que celles-ci puissent mener ce que Kenning Arlitsch, doyen de la bibliothèque de la Montana State University, appelle le « travail sur les nouvelles connaissances »
    (https://scholarworks.montana.edu/xmlui/handle/1/3

    En 2019, OCLC a lancé son premier service de données liées à un niveau de production, obtenu en intégrant le cadre d’interopérabilité pour la diffusion des images numériques sur le Web (International Image Interoperability Framework, IIIF) dans l’outil de recherche de CONTENTdm. Grâce à l’API de l’IIIF, les innovateurs peuvent désormais accéder aux objets numériques et les manipuler, quelles que soient l’application numérique et la technologie de dépôt déployées.

    Vers l’illumination

    Grâce à ces travaux, nous continuons de gravir avec détermination la « pente de l’illumination » de la courbe de Gartner. Et les attentes sont très fortes. En septembre 2018, OCLC et ses bibliothèques partenaires ont achevé le prototype sur Wikibase. Les enseignements tirés de la phase d’expérimentation ont été mis en pratique durant la planification et la mise en œuvre des services de production permettant la révision et le rapprochement des données liées. Actuellement, OCLC mène un second projet pilote portant sur les collections consacrées au patrimoine culturel, toujours en partenariat avec les bibliothèques. Ce projet vise à mettre au point les méthodes et approches évolutives nécessaires pour produire des représentations automatiques enrichies et ultra-performantes des entités et des relations, afin de révéler des associations jusque-là ignorées (oc.lc/cdmld). Les utilisateurs finaux pourront ainsi découvrir, évaluer et exploiter plus facilement les exceptionnelles ressources numériques disponibles dans les entrepôts de données de CONTENTdm.


    En janvier 2020, l’Andrew W. Mellon Foundation a reconnu l’investissement et le travail d’OCLC dans la réalisation du prototype, le projet pilote et la planification. Elle lui a octroyé une subvention de 2 436 millions de dollars (qui sera doublée par OCLC), destinée à financer la création d’une infrastructure commune de gestion des entités, dont l’achèvement est prévu en décembre 2021. Cette infrastructure contiendra des descriptions fiables et facilement accessibles de travaux et d’auteurs, qui seront gérées et enrichies par OCLC et par les bibliothèques. Les collections seront compatibles avec d’autres langages externes et donc plus largement accessibles sur le Web (oc.lc/sharedentitymgmt). Selon Lorcan Dempsey, directeur de la stratégie et vice-président de l’adhésion et de la recherche d’OCLC : « Afin que l’utilisation des données liées se généralise, les bibliothèques ont besoin d’identifiants et de métadonnées fiables et fixes pour les entités essentielles nécessaires à leur activité. Ce projet est l’occasion de mettre en place cette infrastructure et de faire progresser toute la discipline. »


    Outre la théorie, le travail d’observation, et la réalisation de prototypes, les bibliothèques apporteront d’autres contributions au développement des données liées. OCLC et ses membres sont convaincus que, tous ensemble, non seulement nous parviendrons au sommet de la « pente de l’illumination », mais que nous atteindrons également bientôt le « plateau de la productivité », avec à la clé des avantages pour les bibliothèques, le personnel des bibliothèques, et nos utilisateurs finaux.

    Andrew K. Pace, directeur exécutif de la recherche technique, OCLC

    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    sponsoring_display_archimag_episode_6.gif