CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°386
Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !
Data et IA, comment créer de la valeur autrement ? Tel est le sujet sur lequel ont planché une centaine de professionnels de l’information-documentation, réunis le mois dernier à Paris à l’initiative du Groupement français de l’industrie de l’information (gf2i).
"Face à la mutation très rapide des modèles économiques, nous devons réfléchir à d’autres façons de créer de la valeur grâce à nos data et à l’intelligence artificielle", constate Thomas Parisot, président du gf2i.
Une situation à laquelle est directement confrontée l’Agence France-Presse (AFP). Frappée, comme toute la presse, par des bouleversements qui la font vaciller sur sa base, elle cherche la parade. Louis-Cyrille Trébuchet, directeur des systèmes d’information de l’AFP, rappelle que le trafic généré par les moteurs de recherche traditionnels vers les sites de presse a baissé de 50 % en peu de temps : "nous constatons de moins en moins de renvoi de trafic émanant de Google". Dans le même temps, l’IA générative (GenIA) se gave de contenus produits par la presse sans beaucoup se soucier du droit d’auteur…
Lire aussi : Stratégie de protection des données : les 5 points clés
Pourtant, l’AFP, qui est l’une des trois premières agences dans le monde avec 2 600 collaborateurs répartis dans 150 pays, n’a pourtant pas hésité à recourir à l’intelligence artificielle. Mais sur un mode très restreint : classification des dépêches, indexation automatique, génération de métadonnées, reconnaissance d’objets et de personnes sur les photographies…
En revanche, le cœur d’activité éditoriale de l’agence échappe à toute intervention de l’IA : aucune écriture de dépêche ni production de photographies n’est réalisée grâce à la GenIA.
Mettre un terme au pillage généralisé
Dotée d’un comité de pilotage dédié à l’IA et à la réutilisation de ses données, l’AFP a lancé plusieurs chantiers, qui portent aussi bien sur la protection de ses contenus que sur leur valorisation. "Nos dépêches ont déjà été aspirées et nous souhaitons mettre un terme à ce pillage généralisé grâce à la régulation", précise Louis-Cyrille Trébuchet.
Cette régulation porte un nom : les droits voisins, qui permettent aux journaux, aux magazines et aux agences de presse de se faire rémunérer lorsque leurs contenus sont réutilisés sur internet par les géants du web. Mais elle se heurte déjà à un modèle beaucoup plus libéral, notamment outre-Atlantique, qui permet l’entraînement des grands modèles de langage avec les contenus de la presse en dehors de tout accord.
Lire aussi : Comment nourrir l’IA avec de bonnes data ?
La valorisation, quant à elle, a pris la forme d’un accord signé entre l’AFP et Mistral AI au mois de janvier 2025. Ce partenariat ouvre l’accès aux 2 300 dépêches produites quotidiennement par l’AFP en six langues à l’agent conversationnel Le Chat de Mistral AI. Six mois plus tard, le constat est mi-figue mi-raisin : les prompts des internautes sont beaucoup plus consacrés aux tutoriels en tout genre qu’aux questions d’actualité…
Révolution des pratiques de recherche
Autre institution engagée dans l’exploitation de ses données, la Bibliothèque nationale de France (BnF) peut se prévaloir d’un fabuleux patrimoine documentaire hérité de ses campagnes de numérisation lancées il y a plus de vingt ans. "Les outils d’OCR qui ont été déployés ont révolutionné les pratiques de recherche", précise Tiphaine Vacqué, déléguée au numérique de la BnF.
Depuis, une feuille de route a fixé une série de projets dont certains sont d’ores et déjà opérationnels : fouille d’images dans Gallica, prédiction de l’état des collections, assistance automatisée à l’indexation des documents dans le répertoire Rameau… Et, dans un avenir très proche, la BnF proposera une gamme de services d’accès aux documents et données numériques libres de droits à destination de la recherche scientifique.