Publicité

La BnF et l'Ina en négociation avec le consortium ARGIMI pour alimenter la future IA générative

  • argimi_bnf_ina.jpg

    Ina-BnF-negociation-consortium-ARGIMI-alimenter-future-IA-generative
    Des ressources numériques pour développer une intelligence artificielle générative francophone (Freepik Premium)
  • Les deux institutions culturelles sont associées à un projet visant à partager leurs ressources numériques afin de développer une intelligence artificielle générative francophone.

    Au mois de juin 2023, BPIfrance lançait un appel à projet portant sur les "communs numériques pour l'intelligence générative". Objectif : rendre accessibles les ressources numériques afin de développer une intelligence artificielle générative francophone. Un an plus tard, BPIfrance a rendu son verdict : c'est le consortium ARGIMI qui a remporté cet appel à projet. Composé de trois entreprises (Artefact, Giskard et Mistral AI), ce consortium va piloter ce projet en collaboration avec la Bibliothèque nationale de France et l’Institut national de l’audiovisuel.

    A ce jour, peu d'informations circulent sur les contours de cette collaboration. Le consortium "négocie actuellement un accord afin d’accéder aux données publiques de l’Institut national de l’audiovisuel et de la Bibliothèque nationale de France" selon nos confrères de Politico ; "les deux institutions, assises sur des fonds audiovisuels et documentaires parmi les plus importants au monde, devraient ainsi donner un coup d’accélérateur à des modèles dont l’appétit en données d’entraînement est insatiable."

    Droit d'auteur

    "L’accès à ces corpus de textes et de vidéos permettra de développer les modèles à la fois sur des données issues de la littérature et de l’audiovisuel, et sur des applications spécifiques du secteur privé, respectant les normes éthiques et réglementaires actuelles" précise Artefact l'une des trois sociétés du consortium ARGIMI.

    Parmi ces normes réglementaires figure bien évidemment le respect du droit d'auteur. Une partie des collections de la BnF est en effet couverte par le droit d'auteur alors que les documents tombés dans le domaine public sont progressivement numérisés et mis en ligne sur la bibliothèque numérique Gallica qui a passé le cap des 10 millions de documents en 2023. Les collections numériques de la BnF comptent également plus de 54 millions fichiers collectés au titre des archives du web.

    Au-delà des chiffres, ces collections bénéficient surtout de métadonnées qui permettent d’identifier un document numérique dans le catalogue général de la BnF. Ces métadonnées permettent également de naviguer dans ce document via Gallica, ainsi que de le préserver dans le système d’archivage pérenne SPAR.

    Du côté de l'Ina, ses collections représentent aujourd'hui plus de 27 millions d'heures de documents TV et radio. L'Institut national de l'audiovisuel collecte également 182 chaînes TV et radio au titre du dépôt légal.

    Richesse documentaire

    Ces partenariats sont non seulement prestigieux mais aussi qualitatifs en termes de richesse documentaire. Ils permettront au consortium ARGIMI de bénéficier d'un corpus susceptible de créer une IA générative améliorée. Alors que seulement 5% des projets d’IA générative franchissent le cap de l’industrialisation, le consortium affiche une ambition : créer la prochaine génération de grands modèles de langage (large language models ou LLM) capables de réaliser de nombreuses tâches : création de contenus, extraction d’informations, traduction, reconnaissance d’objets…

     

     

     

    À lire sur Archimag
    Les podcasts d'Archimag
    Gilles Pécout a été nommé à la présidence de la Bibliothèque nationale de France au printemps dernier. Au micro de Bruno Texier, pour les podcasts d'Archimag, le nouveau président présente les grandes lignes de son programme à la tête de l'institution, notamment l'apport de l'IA dans le développement de nouveaux services.
    Publicité

    sponsoring_display_archimag_episode_6.gif