La BnF et l'Ina en négociation avec le consortium ARGIMI pour alimenter la future IA générative

  • argimi_bnf_ina.jpg

    Ina-BnF-negociation-consortium-ARGIMI-alimenter-future-IA-generative
    Des ressources numériques pour développer une intelligence artificielle générative francophone (Freepik Premium)
  • Les deux institutions culturelles sont associées à un projet visant à partager leurs ressources numériques afin de développer une intelligence artificielle générative francophone.

    Au mois de juin 2023, BPIfrance lançait un appel à projet portant sur les "communs numériques pour l'intelligence générative". Objectif : rendre accessibles les ressources numériques afin de développer une intelligence artificielle générative francophone. Un an plus tard, BPIfrance a rendu son verdict : c'est le consortium ARGIMI qui a remporté cet appel à projet. Composé de trois entreprises (Artefact, Giskard et Mistral AI), ce consortium va piloter ce projet en collaboration avec la Bibliothèque nationale de France et l’Institut national de l’audiovisuel.

    A ce jour, peu d'informations circulent sur les contours de cette collaboration. Le consortium "négocie actuellement un accord afin d’accéder aux données publiques de l’Institut national de l’audiovisuel et de la Bibliothèque nationale de France" selon nos confrères de Politico ; "les deux institutions, assises sur des fonds audiovisuels et documentaires parmi les plus importants au monde, devraient ainsi donner un coup d’accélérateur à des modèles dont l’appétit en données d’entraînement est insatiable."

    Droit d'auteur

    "L’accès à ces corpus de textes et de vidéos permettra de développer les modèles à la fois sur des données issues de la littérature et de l’audiovisuel, et sur des applications spécifiques du secteur privé, respectant les normes éthiques et réglementaires actuelles" précise Artefact l'une des trois sociétés du consortium ARGIMI.

    Parmi ces normes réglementaires figure bien évidemment le respect du droit d'auteur. Une partie des collections de la BnF est en effet couverte par le droit d'auteur alors que les documents tombés dans le domaine public sont progressivement numérisés et mis en ligne sur la bibliothèque numérique Gallica qui a passé le cap des 10 millions de documents en 2023. Les collections numériques de la BnF comptent également plus de 54 millions fichiers collectés au titre des archives du web.

    Au-delà des chiffres, ces collections bénéficient surtout de métadonnées qui permettent d’identifier un document numérique dans le catalogue général de la BnF. Ces métadonnées permettent également de naviguer dans ce document via Gallica, ainsi que de le préserver dans le système d’archivage pérenne SPAR.

    Du côté de l'Ina, ses collections représentent aujourd'hui plus de 27 millions d'heures de documents TV et radio. L'Institut national de l'audiovisuel collecte également 182 chaînes TV et radio au titre du dépôt légal.

    Richesse documentaire

    Ces partenariats sont non seulement prestigieux mais aussi qualitatifs en termes de richesse documentaire. Ils permettront au consortium ARGIMI de bénéficier d'un corpus susceptible de créer une IA générative améliorée. Alors que seulement 5% des projets d’IA générative franchissent le cap de l’industrialisation, le consortium affiche une ambition : créer la prochaine génération de grands modèles de langage (large language models ou LLM) capables de réaliser de nombreuses tâches : création de contenus, extraction d’informations, traduction, reconnaissance d’objets…

     

     

     

    À lire sur Archimag
    Les podcasts d'Archimag
    La photographie possède un pouvoir fascinant : celui de capturer un instant et de le figer pour l’éternité. Elle raconte des histoires, qu’elles soient personnelles ou collectives, qui traversent le temps et façonnent notre passé, notre présent et notre futur. C’est pourquoi les albums de famille jouent un rôle si important dans la construction de nos souvenirs. Mais avec l’avènement de l’intelligence artificielle générative, capable de créer des images de plus en plus proches de la réalité, une question se pose : comment cette technologie va-t-elle influencer notre mythologie familiale ? Serge Tisseron, psychiatre et docteur en psychologie, explore depuis longtemps nos relations avec les technologies. En cherchant à recréer une photographie de son enfance, il s’est intéressé aux liens entre mémoire, photographie et intelligence artificielle. Il revient sur l’origine de son livre "Le jour où j’ai tué mon frère - Quand l’IA fabrique la photographie de nos souvenirs", publié aux Éditions Lamaindonne.

    sponsoring_display_archimag_episode_6.gif