Intelligence artificielle : les nouveaux défis de l'édition scientifique

Dans les BU et les learning centers, l’IA générative reconfigure les pratiques des étudiants et chercheurs (rédaction, reformulation, synthèses, bibliographies…), l’accès au savoir et même les licences des éditeurs. Les risques sont nombreux (fraude, hallucinations, biais linguistiques, disciplinaires et documentaires…) et des questions se posent : avec quelles données les moteurs "augmentés" d’IA sont-ils entraînés ? Comment exiger la transparence sur les corpus ? Le droit de fouille de texte et de données (TDM) peut-il être préservé ? Des solutions émergent (Rag, autohébergement…), légitimant les bibliothécaires et les documentalistes dans leurs rôles d’appuis de confiance, de formateurs à l’esprit critique et de garants d’une gouvernance robuste.

RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE MAGAZINE : IA : les nouveaux défis de l’édition scientifique

Au sommaire :

- Les usages de l’IA dans le monde de l’édition scientifique
- Sébastien Perrin, directeur de la Bibliothèque de l’École des Mines de Paris-PSL : "face à l’IA, je plaide pour une expertise documentaire"
- L’IA en BU : enjeux éthiques et juridiques
- IA et fraude scientifique : poison ou remède ?
- IA et recherche : les bibliothèques et centres de documentation réaffirment leur rôle
- Avec SophIA, Cairn.info mise sur l’IA pour améliorer la découvrabilité

Au mois de février 2024, les lecteurs de la vénérable revue Frontiers in Cell and Developmental Biology ont eu une drôle de surprise. Un article consacré à la production de spermatozoïdes chez les rats était accompagné d’un dessin caricatural représentant un rongeur pourvu d’un pénis gigantesque et de quatre testicules !

Cette illustration a bien fait rire dans les laboratoires, mais les chercheurs n’ont pas mis longtemps pour comprendre qu’elle avait été produite par Midjourney. Une hallucination comme l’intelligence artificielle sait en produire de temps en temps, en particulier lorsqu’elle n’est pas maîtrisée. Problème : elle est passée à travers les mailles du filet de la relecture par les pairs et est restée trois jours en ligne.

Cet incident pose la question des usages de l’IA dans le monde de l’édition scientifique. "Beaucoup plus d’auteurs utilisent l’IA pour rédiger des articles scientifiques qu’ils ne l’admettent", peut-on lire dans la revue de référence Science, citant un rapport d’éditeurs.

Un constat partagé par une étude présentée au mois de septembre dernier à Chicago lors du 10e Congrès international sur l’évaluation par les pairs et la publication scientifique : "l’utilisation de l’IA de génération de texte (GenAI) croît rapidement, mais les politiques des revues scientifiques visant à encadrer son utilisation ont un impact limité. Cette utilisation varie considérablement selon les revues et le type de texte, et semble être associée à des décisions éditoriales différentes."

Des correcteurs automatiques sous stéroïdes

De toute évidence, l’IA est là pour durer. Elle offre trop de services pour être négligée par la chaîne de l’édition juridique, qu’il s’agisse des auteurs, des éditeurs, des diffuseurs ou des bibliothèques universitaires. Comme le constatent les bibliothécaires de l’École polytechnique fédérale de Lausanne (EPFL), "les grands modèles de langage sont de plus en plus intégrés aux services de bibliothèque et aux pratiques des chercheurs grâce à leur capacité à résumer rapidement d’énormes quantités d’informations, à aider au brainstorming et à améliorer la rédaction, le tout en adoptant un ton très humain."

Pour les besoins de ce dossier, Archimag a interrogé les utilisateurs de l’information scientifique afin de faire le point sur leurs pratiques. Premier enseignement, l’appétence pour l’intelligence artificielle est incontestable et suscite des attentes, peut-être trop d’attentes…

Deuxième enseignement, la prudence est de mise, car au-delà des hallucinations, l’IA générative dépend entièrement des informations qui lui ont été données et les grands modèles de langage ne sont pas encore assez intelligents pour les remettre en cause : "ce sont davantage des correcteurs automatiques sous stéroïdes que de l’intelligence omnipotente", constate l’EPFL. "C’est pourquoi les LLM doivent être utilisés de manière responsable, comme des outils, avec nos compétences de pensée critique pleinement engagées."

Encadrer le recours à l’IA

De leur côté, les éditeurs ont progressivement adopté des politiques éditoriales spécifiques afin d’encadrer le recours à l’IA. Elsevier exige désormais des auteurs qu’ils signalent l’utilisation de l’IA générative et des technologies d’assistance par l’IA dans leurs manuscrits. Cette mention doit figurer dans la version publiée. L’éditeur fait cependant une distinction entre l’utilisation de l’IA pour améliorer la lisibilité des articles et son utilisation pour remplacer les tâches d’écriture.

Dans tous les cas, les auteurs sont présumés responsables du contenu de leurs travaux, même avec l’aide de l’IA. Les restrictions concernant les images générées par l’IA sont comparables : celle-ci ne peut être utilisée pour créer ou modifier des images dans les manuscrits soumis. Dans le détail, cette interdiction vise une série d’actions : améliorer, masquer, déplacer, supprimer ou introduire des éléments spécifiques dans une image.

Springer Nature a adopté, peu ou prou, les mêmes précautions. L’utilisation de grands modèles de langage doit être précisée et documentée, mais la correction assistée par IA est exemptée des obligations de cette règle. La notion de "correction assistée par IA" désigne l’amélioration des textes rédigés par des humains en matière de lisibilité, de style et de correction des erreurs. Concernant les images générées par IA, l’éditeur précise que les revues ne peuvent en autoriser la publication tant que les questions juridiques relatives à ces images restent en suspens.

Quant à sa politique d’évaluation par les pairs, Springer Nature rappelle que l’expertise des évaluateurs demeure "inestimable et irremplaçable". L’éditeur leur demande donc explicitement de ne pas soumettre leurs manuscrits à des outils d’IA générative. À ses yeux, les outils d’IA ne sont pas suffisamment fiables pour réaliser ce travail et ils posent des problèmes de confidentialité, car les textes sont susceptibles de contenir des informations sensibles.