Article réservé aux abonnés Archimag.com

Avec SophIA, Cairn.info mise sur l'IA pour améliorer la découvrabilité

  • cairn_sophia.jpg

    nouvel-outil-sophia-cairn-decouvrabilite
    SophIA est disponible depuis quelques semaines pour les abonnés Cairn Pro. (Cairn)
  • Alors qu’une nouvelle logique de référencement est à l’œuvre, le portail Cairn.info s’est engagé sur la voie de l’IA en privilégiant l’auto-hébergement et la technologie Rag pour répondre aux besoins de ses utilisateurs.

    mag-391bd-dossier.jpgenlightened RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE MAGAZINE : IA : les nouveaux défis de l’édition scientifique

    Au sommaire : 

    - Les usages de l’IA dans le monde de l’édition scientifique
    - Sébastien Perrin, directeur de la Bibliothèque de l’École des Mines de Paris-PSL : "face à l’IA, je plaide pour une expertise documentaire"
    - L’IA en BU : enjeux éthiques et juridiques
    - IA et fraude scientifique : poison ou remède ?
    - IA et recherche : les bibliothèques et centres de documentation réaffirment leur rôle
    - Avec SophIA, Cairn.info mise sur l’IA pour améliorer la découvrabilité


    Vingt ans après sa création, Cairn.info s’apprête à franchir un nouveau cap, celui de l’intelligence artificielle (IA). Comme d’autres fournisseurs d’informations, le portail de publications scientifiques prend acte de la nouvelle ère ouverte par les promesses de l’IA : "l’architecture du web est en pleine transformation", constate Thomas Parisot, directeur général adjoint de Cairn.info. Selon lui, les moteurs de recherche évoluent et la concurrence d’outils comme ChatGPT modifie la logique de référencement. "Le référencement externe ne disparaît pas, mais se transforme", poursuit-il. "Nous nous devions de nous adapter à cette nouvelle donne pour répondre aux besoins de nos utilisateurs qui ont le réflexe de faire des recherches sur Cairn pour trouver de la littérature qualifiée issue de publications scientifiques de référence."

    Lancé au cours de l’année 2024, le projet SophIA affiche une ambition : améliorer l’accès au million de documents disponibles sur le portail Cairn.info, en formulant des questions en langage naturel. Le tout en déjouant les risques d’hallucinations trop souvent constatés avec les IA grand public. Et plutôt que de produire des contenus hasardeux, SophIA entend mettre en avant le contexte chronologique, géographique et disciplinaire, ainsi que les échanges scientifiques autour de la problématique abordée. Ainsi, si un utilisateur lit un passage qui l’intéresse particulièrement, l’IA lui indique les contenus les plus proches qui se trouvent sur le portail Cairn ou dans des bases de données partenaires.

    Lire aussi : IA génératives : cas d’usage et retours d’expérience

    Vectorisation du corpus de Cairn

    Pour y parvenir, Cairn a procédé à un important chantier de vectorisation de l’ensemble du corpus en petites unités (paragraphes). La vectorisation est un procédé qui convertit des données (textes, images, sons, etc.) en représentations numériques sous forme de vecteurs. Son objectif principal est de rendre les données compréhensibles et manipulables par des ordinateurs.

    "SophIA fonctionne comme un moteur de recherche de nouvelle génération", indique Thomas Parisot. Son objectif ? Trouver les passages qui correspondent le mieux à la question de l’utilisateur à travers des articles, des livres, des extraits vidéo, et d’organiser une réponse qui présente une sélection de ressources pertinentes. L’IA génère alors une brève introduction et signale un premier niveau de publications. "Avec cet outil, nous souhaitons mettre le lecteur face à une dialectique d’experts et à des points de vue fondés, l’incitant à une logique réflexive et non passive face à l’IA".

    L’IA au service des utilisateurs… et des bibliothécaires

    Un autre point distingue SophIA des IA grand public : Cairn a décidé de ne pas se lier aux acteurs généralistes (Microsoft, OpenAI, Google). Son approche consiste à utiliser ses propres capacités pour faire de l’IA un outil de découvrabilité et d’amélioration de la mise en contact entre le lecteur et la littérature scientifique de référence. Cela implique un auto-hébergement, qui passe par les propres serveurs du portail, et le choix de modèles de langage open source de petite taille.

    Lire aussi : La découvrabilité, une autre voie d'accès aux collections des bibliothèques

    Sans surprise, le Rag (retrieval-augmented generation ou génération à enrichissement contextuel) s’est également imposé. La recherche d’informations est exclusivement réalisée au sein des contenus scientifiques validés et diffusés sur Cairn.info.

    Autre apport, SophIA sera en mesure d’apporter aux bibliothécaires un ensemble de réponses à des questions posées en langage naturel : quelles sont les disciplines qui ont le plus de succès dans mon établissement ? Quel est l’auteur le plus lu le mois dernier ? …

    Une première version de SophIA est disponible depuis le mois de décembre 2025 pour les abonnés Cairn Pro. Limité, dans un premier temps, à quelques disciplines (psychologie, travail social, sciences de l’éducation), son corpus sera étendu à l’ensemble des disciplines diffusées sur la plateforme dès le printemps 2026. 

    À lire sur Archimag
    Les podcasts d'Archimag
    Pourquoi parle-t-on autant d’éthique quand il est question d’intelligence artificielle - et de quoi parle-t-on exactement ? Pour les Podcast d'Archimag, nous avons rencontré Enrico Panai, éthicien de l’intelligence artificielle. Avec lui, on clarifie ce que recouvre vraiment le mot "éthique" - au-delà des slogans - et pourquoi l’IA rend ces questions plus visibles, plus urgentes, et parfois plus confuses. On parlera aussi de l’entreprise : ses valeurs, ses contraintes, ses arbitrages… et de la manière dont une démarche éthique, quand elle intervient dès le départ, peut devenir un outil de décision et même un moteur d’innovation.

    sponsoring_display_archimag_episode_6.gif