Article réservé aux abonnés Archimag.com

Comment la BNL a développé son chatbot basé sur ChatGPT

  • bibliotheque-nationale-luxembourg-ia-generative-chatgpt.jpg

    chatgpt-ia-generative-bibliotheque-nationale-luxembourg
    Le chatbot de la BNL est accessible via l’adresse chat.eluxemburgensia.lu. Pour l’utiliser, il faut s’authentifier avec sa carte de lecteur ou à l’aide d’un compte Google. (Peshkovagalina/Freepik)
  • La Bibliothèque nationale du Luxembourg (BNL) a créé l’événement en octobre 2023 en mettant à la disposition de ses utilisateurs un chatbot à l’intelligence artificielle basé sur ChatGPT d’OpenAI. Loin des fantasmes autour de cette technologie, ce projet est le fruit du travail d’une toute petite équipe aux moyens restreints.

    enlightened CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°371
    mail Découvrez Le Bibliothécaire Innovant, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des bibliothèques et de la conservation !


    yves_maurer-bnl-chatgpt-ia-generative.jpgYves Maurer se rappellera longtemps du 4 octobre 2023. C’est ce jour-là qu’a été lancé en grande pompe, face à la presse et aux médias, et en présence de la ministre de la Culture, Sam Tanson, le nouveau chatbot de la Bibliothèque nationale du Luxembourg (BNL) qu’il a contribué à mettre au point.

    L’événement est même retransmis à la télévision : cet agent conversationnel assiste les internautes dans leur exploration du patrimoine luxembourgeois en leur proposant des réponses argumentées basées sur des articles de presse historiques.

    Il fonctionne grâce à la technologie d’intelligence artificielle (IA) générative développée par OpenAI et qui a fait le buzz tout au long de l’année 2023 : ChatGPT. Certes, c’est loin d’être la première fois qu’une institution nationale s’empare de l’IA pour exploiter son patrimoine documentaire. Et face à l’engouement planétaire des derniers mois autour de l’IA générative, on pourrait se dire à première vue que le projet de la BNL surfe simplement sur le buzz. Il n’en est rien.

    Des projets pilotes et un intérêt précoce pour ChatGPT

    Yves Maurer, qui a étudié l’informatique et les mathématiques au sein de l’Imperial College de Londres, intègre la BNL en tant qu’informaticien en 2007. Responsable du projet de numérisation de l’institution pendant dix ans, puis de l’archivage du web, il s’empare de tous les projets numériques de l’institution et devient le responsable de sa division Informatique et Innovation numérique en juillet 2023.

    "En ce qui concerne la numérisation de la presse, la bibliothèque a souhaité très tôt, dès 2005, structurer les textes sous forme d’articles et non sous forme d’images, comme ça pouvait se faire ailleurs", explique-t-il. "L’idée que l’on pourrait certainement un jour traiter automatiquement les données générées lors de la numérisation (le titre, le nom de l’auteur, etc.) était présente dès cette époque".

    Lire aussi : Les enjeux juridiques de la collecte de données par les IA génératives

    Son équipe s’intéresse à ChatGPT dès son lancement en novembre 2022. "Nous l’avons testé en nous demandant s’il pourrait être utile aux bibliothèques", poursuit-il. "Nous n’en avions aucune idée".

    Il faut dire que la BNL a déjà un peu d’expérience en matière d’IA : cinq ans auparavant, Yves Maurer avait lancé un projet pilote pour réaliser un nouveau traitement automatique aux images des textes anciens déjà numérisés afin d’améliorer les transcriptions de la reconnaissance optique de caractères (OCR). Une personne est engagée à temps plein en 2020 et l’équipe décide alors d’entraîner ses propres modèles d’OCR grâce au machine learning. Elle lance le logiciel Nautilus-OCR en 2021 et améliore grâce à lui 30 % de la collection numérisée.

    Après plusieurs mois de veille sur ChatGPT, l’équipe d’Yves Maurer apprend en février 2023 qu’une personne a mis au point une technique pour que le chatbot fournisse des réponses sur des textes hors de son domaine d’entraînement. "Nous avons alors compris que nous pourrions l’utiliser pour nos textes numérisés". Le choix se porte sur le corpus de la presse, composé de 8 millions d’articles, qui dispose déjà d’une structuration fine pouvant être facilement traitée par les algorithmes.

    Des enjeux politiques et sociaux autour de l'usage de l'intelligence artificielle

    Les premiers essais sont réalisés dès mars 2023 et le développement, lancé le mois suivant, se poursuit jusqu’en juillet. "Le plus chronophage a été de tester plusieurs alternatives pour chaque brique du projet : des modèles de langage ouverts, un autre créé par un groupe de recherche, celui de Meta et de Google…", se souvient Yves Maurer. "Suite à ces évaluations, nous avons retenu deux modèles d’OpenAI, car ils offraient de bien meilleurs résultats, avec beaucoup moins “d’hallucinations”, et à un prix largement inférieur. Ils ont cassé le marché".

    La BNL n’a pas signé de contrat particulier avec OpenAI. "Nous avons tout simplement ouvert un compte sur la plateforme et souscrit pour l’usage de l’API avec une carte Visa, à l’image des 200 000 autres développeurs qui l’utilisent", précise Yves Maurer.

    La phase d’indexation des documents, c’est-à-dire des 10 millions de parties de textes, coûte à la BNL environ 500 euros. Elle débourse ensuite environ 0,15 euro par question posée par un utilisateur (le montant varie en fonction de la longueur de la question et de la réponse).

    Lire aussi : Quand l'intelligence artificielle dope les moteurs de recherche d'entreprise

    En tant que cliente d’OpenAI, la BNL prend conscience des avantages et des inconvénients que revêt ce statut : "si notre propre modèle de langage tournait sur nos ordinateurs, nous ne pourrions pas profiter de leurs mises à jour, explique Yves Maurer. "Nous devrions sans cesse réentraîner le modèle et corriger les problèmes".

    chatbot-bnl-eluxemburgensia.jpgMais les enjeux politiques et sociaux des grandes plateformes ne laissent pas l’équipe indifférente : "bien sûr, nous ne souhaitons pas que ces technologies soient concentrées entre les mains de quelques grands opérateurs et préférerions disposer d’un système ouvert. Malheureusement, nos moyens ne nous permettent de faire avancer les modèles en open source. Pour ce projet, notre budget est réduit, avec une seule personne à mi-temps. Mais nous mettons nos données à disposition de groupes de recherche qui travaillent justement à l’élaboration de modèles de langage".

    L’équipe passe les trois mois qui précèdent le lancement du chatbot à documenter le projet et à réaliser des tests auprès d’utilisateurs. "L’un des objectifs de ce projet est de contribuer au débat qui agite la société au sujet de l’IA", poursuit Yves Maurer. "Nous souhaitons démystifier ce type de technologie en offrant la possibilité aux gens d’explorer ce qu’elles sont capables de faire".

    Il a aussi fallu leur expliquer que les questions qu’ils posent ne sont pas conservées dans les ordinateurs de la BNL, mais envoyées à OpenAI, et que cette interaction avec le chatbot ne remplace pas le moteur de recherche classique du portail eluxemburgensia.lu : il fournit ses réponses sur la base des douze "meilleurs" articles qu’il a identifiés en fonction de leur sujet, et pas des mots-clés.

    Impossible, donc, de lui demander de fournir toutes les mentions d’une entité, comme le nom d’une personne ou d’un village. "Ce chatbot est un service complémentaire", poursuit Yves Maurer. "Il comprend le luxembourgeois, le français, l’allemand et l’anglais et permet de fournir un résumé argumenté et accessible d’articles parfois très denses et rédigés dans un langage ancien".

    Lire aussi : Le tsunami IA déferle sur les logiciels de l'information-documentation

    Des améliorations possibles

    Après le lancement de son chatbot, l’équipe de la BNL réalise qu’elle doit redoubler d’efforts pour expliquer son usage aux utilisateurs, qui ne rédigent parfois pas de phrase complète ou posent des questions sans rapport avec le corpus. Elle prend aussi conscience de l’attente du public vis-à-vis d’une exhaustivité des résultats et s’interroge sur une amélioration possible.

    "Des groupes de chercheurs travaillent sur la recherche sémantique pour des corpus historiques", poursuit Yves Maurer. "Ils veulent donc tester, à travers notre outil, la recherche sémantique basée sur les outils d’OpenAI". La BNL souhaiterait également que son chatbot puisse répondre en luxembourgeois aux questions posées dans cette langue.

    Le chatbot est loin d’avoir atteint la limite des crédits souscrits auprès d’OpenAI : "nous avons reçu beaucoup de visites du monde entier, mais son utilisation restera certainement inférieure à la fréquentation du site eluxemburgensia de la BNL, où l’on trouve la recherche traditionnelle par mot-clé", explique le chef de projet, dont les ambitions restent modestes au regard du périmètre "circonscrit" de la collection vers laquelle le chatbot renvoie. "Nous ne pouvons nous comparer à une institution comme la BNF, dont le public, francophone, est bien plus vaste. Mais l’essentiel n’est pas là : notre objectif est de faire rayonner la collection luxembourgeoise auprès des chercheurs et à l’international. Multilingue, elle est culturellement très riche"

    Lire aussi : Créer une base de gestion documentaire avec ChatGPT et des outils no-code

    Le portail et le chatbot de la BNL en chiffres

    Moyenne mensuelle de fréquentation du portail eluxemburgensia.lu :

    • 9 500 visites
    • 3 500 utilisateurs uniques
    • 20 000 pages consultées

    Statistiques d’utilisation du chatbot :

    • octobre 2023 : 400 utilisateurs uniques/1 724 questions posées
    • novembre 2023 : 138 utilisateurs uniques/503 questions posées
    • décembre 2023 : 67 utilisateurs uniques/385 questions posées

    La plupart des utilisateurs posent plusieurs questions et quelques-uns en posent beaucoup (17 utilisateurs ont posé plus de 20 questions).

    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    sponsoring_display_archimag_episode_6.gif