
RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE MAGAZINE : IA : les nouveaux défis de l’édition scientifique
Au sommaire :
- Les usages de l’IA dans le monde de l’édition scientifique
- Sébastien Perrin, directeur de la Bibliothèque de l’École des Mines de Paris-PSL : "face à l’IA, je plaide pour une expertise documentaire"
- L’IA en BU : enjeux éthiques et juridiques
- IA et fraude scientifique : poison ou remède ?
- IA et recherche : les bibliothèques et centres de documentation réaffirment leur rôle
- Avec SophIA, Cairn.info mise sur l’IA pour améliorer la découvrabilité
Vingt ans après sa création, Cairn.info s’apprête à franchir un nouveau cap, celui de l’intelligence artificielle (IA). Comme d’autres fournisseurs d’informations, le portail de publications scientifiques prend acte de la nouvelle ère ouverte par les promesses de l’IA : "l’architecture du web est en pleine transformation", constate Thomas Parisot, directeur général adjoint de Cairn.info. Selon lui, les moteurs de recherche évoluent et la concurrence d’outils comme ChatGPT modifie la logique de référencement. "Le référencement externe ne disparaît pas, mais se transforme", poursuit-il. "Nous nous devions de nous adapter à cette nouvelle donne pour répondre aux besoins de nos utilisateurs qui ont le réflexe de faire des recherches sur Cairn pour trouver de la littérature qualifiée issue de publications scientifiques de référence."
Lancé au cours de l’année 2024, le projet SophIA affiche une ambition : améliorer l’accès au million de documents disponibles sur le portail Cairn.info, en formulant des questions en langage naturel. Le tout en déjouant les risques d’hallucinations trop souvent constatés avec les IA grand public. Et plutôt que de produire des contenus hasardeux, SophIA entend mettre en avant le contexte chronologique, géographique et disciplinaire, ainsi que les échanges scientifiques autour de la problématique abordée. Ainsi, si un utilisateur lit un passage qui l’intéresse particulièrement, l’IA lui indique les contenus les plus proches qui se trouvent sur le portail Cairn ou dans des bases de données partenaires.
Lire aussi : IA génératives : cas d’usage et retours d’expérience
Vectorisation du corpus de Cairn
Pour y parvenir, Cairn a procédé à un important chantier de vectorisation de l’ensemble du corpus en petites unités (paragraphes). La vectorisation est un procédé qui convertit des données (textes, images, sons, etc.) en représentations numériques sous forme de vecteurs. Son objectif principal est de rendre les données compréhensibles et manipulables par des ordinateurs.
"SophIA fonctionne comme un moteur de recherche de nouvelle génération", indique Thomas Parisot. Son objectif ? Trouver les passages qui correspondent le mieux à la question de l’utilisateur à travers des articles, des livres, des extraits vidéo, et d’organiser une réponse qui présente une sélection de ressources pertinentes. L’IA génère alors une brève introduction et signale un premier niveau de publications. "Avec cet outil, nous souhaitons mettre le lecteur face à une dialectique d’experts et à des points de vue fondés, l’incitant à une logique réflexive et non passive face à l’IA".
L’IA au service des utilisateurs… et des bibliothécaires
Un autre point distingue SophIA des IA grand public : Cairn a décidé de ne pas se lier aux acteurs généralistes (Microsoft, OpenAI, Google). Son approche consiste à utiliser ses propres capacités pour faire de l’IA un outil de découvrabilité et d’amélioration de la mise en contact entre le lecteur et la littérature scientifique de référence. Cela implique un auto-hébergement, qui passe par les propres serveurs du portail, et le choix de modèles de langage open source de petite taille.
Lire aussi : La découvrabilité, une autre voie d'accès aux collections des bibliothèques
Sans surprise, le Rag (retrieval-augmented generation ou génération à enrichissement contextuel) s’est également imposé. La recherche d’informations est exclusivement réalisée au sein des contenus scientifiques validés et diffusés sur Cairn.info.
Autre apport, SophIA sera en mesure d’apporter aux bibliothécaires un ensemble de réponses à des questions posées en langage naturel : quelles sont les disciplines qui ont le plus de succès dans mon établissement ? Quel est l’auteur le plus lu le mois dernier ? …
Une première version de SophIA est disponible depuis le mois de décembre 2025 pour les abonnés Cairn Pro. Limité, dans un premier temps, à quelques disciplines (psychologie, travail social, sciences de l’éducation), son corpus sera étendu à l’ensemble des disciplines diffusées sur la plateforme dès le printemps 2026.









