IA : la recherche documentaire à l’heure des grands modèles de langage

Si on parle beaucoup d’intelligence artificielle dans le domaine des métiers de l’information, ses apports peuvent parfois paraître flous et ses bases techniques opaques. Les briques sur lesquelles construire la recherche documentaire du XXIe siècle ne sont pourtant pas aussi complexes qu’on le pense parfois.

RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE MAGAZINE : COMMENT SE PORTENT LES CENTRES DE DOCUMENTATION EN 2026 ?

Découvrez Le Push de la Documentation et de la Veille, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !

En 2018, une petite équipe de mathématiciens travaillant pour le département de traduction automatique de Google mettait au point un algorithme qui avait une capacité assez intéressante : il pouvait apprendre à traduire, et ce nettement plus vite et mieux que ses prédécesseurs.

Quelques années plus tard, fin 2022, notre petit algorithme ayant bien grandi (sa taille a augmenté plusieurs milliers de fois), il était pour la première fois présenté au grand public sous la forme d’un service de discussion en ligne. Et c’est là que les choses se sont un peu emballées : des fortunes colossales ont été englouties, générées et vaporisées au gré des fluctuations des marchés… Des entreprises complètement inconnues du grand public se sont soudain retrouvées sur le devant de la scène… Et le paysage des métiers du savoir a commencé à remuer plus que de raison.

Pendant ce temps, dans les bibliothèques, les changements ont été… Moins marqués. Dans l’esprit de beaucoup de nos collègues (et de nos concitoyens), les grands modèles de langage sont encore surtout des machines faites pour répondre à des questions (un genre de Google en mieux). Cela n’est pas faux, mais ne représente qu’une (petite) partie des possibilités de ces objets.

Puisqu’il faut bien commencer quelque part !

"Répondre à des questions", dans le monde des bibliothèques et de la documentation en général, cela consiste souvent à savoir interroger une base de données. Alors, un algorithme peut-il le faire mieux que nos systèmes actuels ?

On peut utiliser pour cela une technique appelée "le plongement" (ou vectorisation). Dans le cas où l’on traite des mots, cela consiste (en simplifiant à l’extrême) à ranger au même endroit les mots ayant les mêmes voisins dans un corpus de texte. Par exemple, "chat" et "chien" sont souvent accolés à des mots comme "poil", "croquette" ou "animal" : ils se retrouveront proches l’un de l’autre. A contrario, "pénultième" et "banque" n’ayant pas les mêmes voisins, on les rangera ailleurs. Chaque mot se trouve donc avec des "coordonnées géographiques".

Et il est possible de réaliser la même opération avec des textes plus longs (voire très longs), ce qui permet de traiter une requête non plus sur des mots-clés, mais sur la sémantique. C’est ce que l’on appelle le Rag (pour retrieval augmented generation), et cela sert, à la base, à chercher des réponses : on prend les coordonnées géographiques de la question, on regarde si un texte est "voisin" et on suppose donc que le document est pertinent pour répondre.

C’est ainsi que fonctionnent les outils de recherche en langage naturel qui commencent à faire florès sur les stands de démonstration d’outils de recherche améliorés que quelques entreprises proposent déjà. C’est aussi la technique sous-jacente derrière tous les bots que vous croisez en ligne et qui vous proposent de répondre à vos questions sur la documentation technique d’un service. Dans le cas des bibliothèques, la même chose sera réalisée sur les résumés et on vous montrera les notices dont le résumé est "au même endroit" que votre requête.

On peut faire mieux en faisant plus

Le Rag est une technique utile, mais qui ne permet pas de mobiliser le principal avantage d’un grand modèle de langage : sa capacité à stocker des connaissances. Car le robot "sait" des choses et peut donc avoir un avis sur la réponse à telle ou telle recherche et se servir d’outils. On appelle cela un agent : une phase avancée du système décrit plus haut. En plus d’aller chercher les notices qui ressemblent à la question, il est capable d’utiliser la recherche classique (par opérateurs booléens, mots-clés, etc.) et de faire des recherches internet pour savoir si la presse conseille tel ou tel ouvrage.

Ces systèmes n’existent (à ma connaissance) pas encore dans le contexte des médiathèques, mais, bonne nouvelle, on sait déjà que c’est possible et que cela fonctionne très bien. Par exemple, une version d’un bot bien connu a réussi, au mois d’octobre, à fouiller la littérature scientifique des dernières décennies pour découvrir qu’un problème mathématique que l’on pensait ouvert avait, en fait, été résolu depuis 2003 (on lui avait initialement demandé de le résoudre… Mission accomplie ?).

Les standards industriels au service de la recherche documentaire

Pour que cela fonctionne bien, il faut cependant donner à notre algorithme les moyens d’interroger nos bases. Là aussi, des standards existent, notamment les MCP pour Model Context Protocol.

N’oublions pas une chose : si tout le monde confond IA et chatbot, c’est pour une raison simple : leur distribution. Ces outils sont partout, pratiques, accessibles gratuitement, et ils tendent de plus en plus à remplacer le web pour une bonne partie de la population. Or, les MCP pourraient permettre à vos usagers d’interroger votre base en langage naturel tout en restant au sein de leur application. Un peu ce que le web sémantique proposait, mais qui n’a jamais vraiment atteint le grand public. À noter : le gouvernement français a mis en place un serveur MCP donnant accès à l’ensemble des datasets publics ; à quand la même chose pour les bibliothèques ?

Le principal inconvénient des MCP est qu’ils doivent être intégrés au sein de chaque outil de chat, ce qui signifie que chaque personne doit les activer au coup par coup. Là encore, une solution existe : les webMCP, hébergés directement sur votre portail, permettent à un bot ayant accès au web d’utiliser directement les outils de recherche qu’il contient, sans aucun paramétrage. Une autre méthode consiste à donner directement l’ensemble de votre base dans la question : ce n’est pas très économique (il existe des méthodes pour optimiser), mais très puissant.

L’algorithme connaît d’un coup la totalité du fonds avec résumés, cotes, mots matières et identifiants. Il devient donc capable (par exemple) de rédiger une bibliographie en quelques secondes, sans hallucination, à partir d’une liste de plusieurs milliers d’ouvrages (liste incluant titre, auteur, sujet, résumé, cote, identifiant, etc.). Un peu comme si vous appreniez par cœur, quasi instantanément, toutes les notices de votre fonds.

Cette méthode nécessite toutefois une fenêtre de contexte (la "mémoire vive") très importante, mais cette dernière ayant été multipliée par 250 entre novembre 2022 et 2024, on peut espérer que des solutions viables émergent rapidement.

Enfin, d’autres architectures commencent à voir le jour, notamment les Recursive Language Models, promettant à la fois rapidité, agentivité et fenêtre de contexte très importante, mais nous ne sommes encore qu’au tout début de leur existence.

Finissons néanmoins sur un petit bémol (rassurant ?) : toutes ces techniques ne peuvent se baser que sur les données disponibles en ligne. Ces outils sont donc, en général, assez mauvais sur tous les ouvrages de niche (et jeunesse) parus avant 1995 et souvent cantonnés aux informations de la quatrième de couverture pour les autres.

Cédric Limousin
[En charge des collections informatique, langues, sciences, sport et responsable de l’espace prêt de jeux vidéo et IA au sein de la médiathèque Jean Ferrat du bassin d’Aubenas - Consultant et formateur en IA]