Les bibliothèques en mère nourricière de l'intelligence artificielle

  • mirandola.jpg

    bibliotheques-mere-nourriciere-intelligence-artificielle
    Des LLM 100 fois plus efficaces que les IA actuelles (Freepik Premium / rawpixel.com)
  • Le projet Mirandola se donne pour ambition de privilégier les ouvrages conservés dans les bibliothèques pour nourrir les grands modèles de langage. Une initiative, en phase d'amorçage, qui entre en concurrence avec le projet Argimi lancé en 2024 et qui rassemble déjà la BnF et l'Ina. 

    C'est une initiative qui plonge ses racines dans la Renaissance italienne à travers la figure de Jean Pic de la Mirandole (Giovanni Pico della Mirandola, 1463 - 1494), un philosophe et théologien humaniste. Baptisé Mirandola, ce projet se donne pour ambition de nourrir les grands modèles de langage avec les ouvrages détenus par les bibliothèques : "il y a un endroit où il y a beaucoup de textes de qualité, ce sont les bibliothèques" explique Rémi Daudin, physicien de formation et directeur scientifique de l'équipementier automobile Forvia ; "un livre, c'est un raisonnement construit et c'est aussi un contenu légal".

    Dans un podcast réalisé par nos confrères de Challenges, Rémi Daudin souligne que s'entraîner sur le corpus de la Bibliothèque nationale de France (10 millions d'ouvrages) permettrait de produire des LLM 100 fois plus efficaces que les IA actuelles qui sont actuellement alimentées par des contenus en ligne. "Le coût de l'inférence serait également plus réduit" précise-t-il. Le coût d'inférence correspond au coût de calcul engendré chaque fois qu'un modèle d'IA génère une réponse à une entrée.

    RGPD et droit d'auteur

    En phase d'amorçage, Mirandola ressemble à s'y méprendre au projet Argimi lancé en 2024 par BPIfrance. Cette initiative réunit déjà deux établissements publics patrimoniaux (la Bibliothèque nationale de France et l’Ina) ainsi que des acteurs industriels de l’IA (Mistral AI, Artefact, Giskard) autour d’un objectif : créer et partager des communs numériques, dont un grand modèle de langue francophone.

    Dans un entretien accordé à Archimag, le président de la BnF Gilles Pécout rappelait que "l’intelligence artificielle a bien entendu sa place à la Bibliothèque nationale de France et elle est au cœur d’un certain nombre d’orientations pionnières depuis quelques années déjà." Sous condition : "maîtriser l’objet de la transaction, en l'occurrence notre corpus libre de droit. La Bibliothèque nationale de France doit suivre en responsabilité l’usage de ce corpus ainsi que s’assurer du respect du RGPD et du droit d’auteur."

     

     

    À lire sur Archimag
    Les podcasts d'Archimag
    Pourquoi parle-t-on autant d’éthique quand il est question d’intelligence artificielle - et de quoi parle-t-on exactement ? Pour les Podcast d'Archimag, nous avons rencontré Enrico Panai, éthicien de l’intelligence artificielle. Avec lui, on clarifie ce que recouvre vraiment le mot "éthique" - au-delà des slogans - et pourquoi l’IA rend ces questions plus visibles, plus urgentes, et parfois plus confuses. On parlera aussi de l’entreprise : ses valeurs, ses contraintes, ses arbitrages… et de la manière dont une démarche éthique, quand elle intervient dès le départ, peut devenir un outil de décision et même un moteur d’innovation.
    Publicité

    sponsoring_display_archimag_episode_6.gif