Article réservé aux abonnés Archimag.com

IA et fraude scientifique : poison ou remède ?

  • fraude_scientifique.jpg

    fraude-scientifique-ia
    Rien qu’en 2023, près de 10 000 articles ont été retirés de plusieurs revues scientifiques pour cause de fraude. (seventyfour/Freepik)
  • Longtemps sous-estimée, la fraude scientifique est devenue préoccupante au point de conduire certaines revues à se doter d’outils IA et de les intégrer dans leurs processus éditoriaux.

    mag-391bd-dossier.jpgenlightened RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE MAGAZINE : IA : les nouveaux défis de l’édition scientifique

    Au sommaire : 

    - Les usages de l’IA dans le monde de l’édition scientifique
    - Sébastien Perrin, directeur de la Bibliothèque de l’École des Mines de Paris-PSL : "face à l’IA, je plaide pour une expertise documentaire"
    - L’IA en BU : enjeux éthiques et juridiques
    - IA et fraude scientifique : poison ou remède ?
    - IA et recherche : les bibliothèques et centres de documentation réaffirment leur rôle
    - Avec SophIA, Cairn.info mise sur l’IA pour améliorer la découvrabilité


    Selon la revue Nature, près de 10 000 articles ont été retirés de plusieurs revues pour cause de fraude au cours de la seule année 2023. Un chiffre probablement sous-estimé, selon les connaisseurs de l’édition scientifique, qui considèrent qu’il ne s’agit là que de la partie émergée de l’iceberg. Le problème a été jugé suffisamment préoccupant pour que la revue Science annonce, en 2024, recourir à deux outils destinés à lutter contre la fraude scientifique : Proofig AI, pour les manipulations d’images, et iThenticate, pour le plagiat. Ces logiciels sont désormais intégrés aux processus éditoriaux afin d’analyser les manuscrits avant publication.

    Proofig AI utilise des algorithmes d’apprentissage automatique (machine learning) pour analyser des millions de points de données contenus dans une image. Il est en mesure de détecter des altérations, des suppressions de données ou des assemblages douteux dans un graphique. Au terme de son "enquête", Proofig AI génère un rapport mettant en évidence les zones suspectes et les anomalies détectées. Ce document est ensuite utilisé par les éditeurs, les comités d’intégrité scientifique ou les relecteurs pour une vérification humaine et une interprétation des résultats.

    Développé par la société Turnitin, iThenticate est un logiciel capable d’identifier les plagiats phrase par phrase ou paragraphe par paragraphe grâce à des algorithmes avancés. Son utilisation est extrêmement simple : il suffit pour l’éditeur de déposer un document (PDF, fichier texte) dans l’application qui va générer un rapport de similarité et indiquer un pourcentage global de correspondances, des liens vers les sources originales et des options de comparaison.

    Pour Holden Thorp, rédacteur en chef de Science, ces outils visent à rappeler un principe non négociable : "un programme d’IA ne peut être considéré comme un auteur". La vénérable revue a donc révisé sa politique éditoriale et en a profité pour faire passer le message auprès des scientifiques indélicats : "toute violation de cette politique constitue une faute scientifique, au même titre que la modification d’images ou le plagiat d’œuvres existantes".

    Lire aussi : Fraude numérique : l'Europe reste solide face à des pratiques dopées à l’intelligence artificielle

    Des références bibliographiques inventées de toutes pièces

    De son côté, l’Office français de l’intégrité scientifique (Ofis) a dressé une liste des usages de l’IA autorisés dans le cadre d’une publication scientifique : résumé d’articles, définition de la question de recherche, développement et argumentation de l’idée originale, réalisation de bibliographie, sélection d’articles, écriture et optimisation de codes informatiques… Non exhaustive, cette liste apparaîtra libérale aux yeux de certains et contraignante pour d’autres. 

    L’autorité publique indépendante, créée en 2017, met cependant en garde : "les systèmes d’IA génératives font parfois des erreurs, et présentent de manière très vraisemblable des informations erronées, voire complètement inventées". L’Ofis rappelle que cela a été, par exemple, mis en évidence dans la génération d’états de l’art et de références bibliographiques, ou de réponses à des questions scientifiques. "Cela expose les chercheuses et chercheurs à un risque de diffuser de fausses informations, voire à de la fabrication et de la falsification."

    La position de l’Ofis s’inscrit dans la logique du code de bonne conduite publié par la Fédération européenne des académies des sciences et des sciences humaines. Ce document rappelle ce qui est proscrit : "cacher l’utilisation de l’IA ou d’outils automatisés dans la création de contenu ou la rédaction de publications", par exemple. Il invite également les scientifiques à divulguer le nom des solutions IA utilisées, lorsque c’est le cas. Un code de bonne conduite qui devra probablement faire l’objet de mises à jour régulières, alors que l’intelligence artificielle n’en est, selon certains observateurs, qu’à ses balbutiements.

    À lire sur Archimag
    Les podcasts d'Archimag
    Pourquoi parle-t-on autant d’éthique quand il est question d’intelligence artificielle - et de quoi parle-t-on exactement ? Pour les Podcast d'Archimag, nous avons rencontré Enrico Panai, éthicien de l’intelligence artificielle. Avec lui, on clarifie ce que recouvre vraiment le mot "éthique" - au-delà des slogans - et pourquoi l’IA rend ces questions plus visibles, plus urgentes, et parfois plus confuses. On parlera aussi de l’entreprise : ses valeurs, ses contraintes, ses arbitrages… et de la manière dont une démarche éthique, quand elle intervient dès le départ, peut devenir un outil de décision et même un moteur d’innovation.

    sponsoring_display_archimag_episode_6.gif