C'est une initiative qui plonge ses racines dans la Renaissance italienne à travers la figure de Jean Pic de la Mirandole (Giovanni Pico della Mirandola, 1463 - 1494), un philosophe et théologien humaniste. Baptisé Mirandola, ce projet se donne pour ambition de nourrir les grands modèles de langage avec les ouvrages détenus par les bibliothèques : "il y a un endroit où il y a beaucoup de textes de qualité, ce sont les bibliothèques" explique Rémi Daudin, physicien de formation et directeur scientifique de l'équipementier automobile Forvia ; "un livre, c'est un raisonnement construit et c'est aussi un contenu légal".
Dans un podcast réalisé par nos confrères de Challenges, Rémi Daudin souligne que s'entraîner sur le corpus de la Bibliothèque nationale de France (10 millions d'ouvrages) permettrait de produire des LLM 100 fois plus efficaces que les IA actuelles qui sont actuellement alimentées par des contenus en ligne. "Le coût de l'inférence serait également plus réduit" précise-t-il. Le coût d'inférence correspond au coût de calcul engendré chaque fois qu'un modèle d'IA génère une réponse à une entrée.
RGPD et droit d'auteur
En phase d'amorçage, Mirandola ressemble à s'y méprendre au projet Argimi lancé en 2024 par BPIfrance. Cette initiative réunit déjà deux établissements publics patrimoniaux (la Bibliothèque nationale de France et l’Ina) ainsi que des acteurs industriels de l’IA (Mistral AI, Artefact, Giskard) autour d’un objectif : créer et partager des communs numériques, dont un grand modèle de langue francophone.
Dans un entretien accordé à Archimag, le président de la BnF Gilles Pécout rappelait que "l’intelligence artificielle a bien entendu sa place à la Bibliothèque nationale de France et elle est au cœur d’un certain nombre d’orientations pionnières depuis quelques années déjà." Sous condition : "maîtriser l’objet de la transaction, en l'occurrence notre corpus libre de droit. La Bibliothèque nationale de France doit suivre en responsabilité l’usage de ce corpus ainsi que s’assurer du respect du RGPD et du droit d’auteur."










