L’Intelligence artificielle au service de la saisie de notices documentaires

Une équipe très pointue a travaillé au développement d’IRPIA, un prototype opérationnel pour l’indexation de ressources pédagogiques assistée par l’intelligence artificielle. Retour sur ce projet innovant lancé par le ministère de l’Éducation nationale et de la Jeunesse.

Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation.

Le ministère de l’Éducation nationale et de la Jeunesse a lancé un projet novateur intitulé IRPIA (outil d’indexation de ressources pédagogiques intelligent et assisté). Il vise à exploiter les avantages de l’intelligence artificielle (IA) pour aider les éditeurs à créer les notices de leurs ressources pédagogiques dans le GAR (Gestionnaire d’accès aux ressources), qui est le catalogue des ressources pédagogiques destinées aux élèves et enseignants.

Un enjeu majeur pour les systèmes éducatifs

La mise en œuvre d’un standard de métadonnées pour la description des ressources pédagogiques numériques est identifiée de longue date comme un enjeu majeur pour les systèmes éducatifs.

Les ressources pédagogiques numériques sont produites continuellement par un grand nombre d’acteurs, principalement les enseignants, mais aussi par des éditeurs scolaires, des professionnels de l’e-learning et des acteurs du monde de la culture.

Elles présentent les caractéristiques du big data souvent résumées par l’acronyme "5V" pour les 5 traits qui caractérisent, mais qui rendent aussi difficile l’exploitation de ce type de données : volume, vélocité, variété, valeur, véracité.

L’utilisateur copie l’URL d’une ressource pédagogique en ligne et génère une description standardisée en acceptant les suggestions de titre, de description et de miniature extraites de la page cible. L’intelligence artificielle propose des suggestions de niveau éducatif et de domaine d’enseignement une fois le titre saisi ou accepté, pouvant être validées en deux clics.

Des suggestions complémentaires de niveaux éducatifs sont émises lors de la sélection du domaine d’enseignement, basées sur les vocabulaires ScoLOMFR (référentiel qui permet de décrire les ressources pédagogiques numériques en vue de faciliter le repérage, la consultation et l’échange auprès de tous les acteurs de la communauté de l’enseignement scolaire. NDLR : Le POC du projet sera disponible publiquement en janvier 2024) et pouvant être acceptées en deux clics.

L’utilisateur peut choisir des contributeurs suggérés à partir des référentiels Isni (code international normalisé des noms) et Siret (système d’identification du répertoire des établissements), avec les valeurs enregistrées automatiquement dans les vCards conformes au standard ScoLOMFR.

Il est possible de télécharger la notice au format XML ou un résumé au format PDF pour déposer la ressource dans une base de données compatible avec le standard, notamment celle du GAR.

Une approche plurielle pour réduire la charge de description

Le projet IRPIA se base sur une approche plurielle qui vise à réduire la charge de description des ressources numériques pédagogiques. Six axes ont été sélectionnés pour atteindre cet objectif ambitieux :

1 - tout d’abord, la simplification du modèle de description joue un rôle essentiel. En réduisant le modèle à un sous-ensemble de champs essentiels, en tenant compte des exigences spécifiques du GAR, on peut réduire le coût de l’adoption du standard ScoLOMFR, utilisé pour décrire les ressources pédagogiques

2 - par ailleurs, l’optimisation de l’expérience utilisateur (UX) et de l’interface utilisateur (UI) constitue un autre axe important du projet. Les interfaces de description basées sur les standards sont souvent peu attrayantes. Cependant, l’application de principes simples d’optimisation UX/UI permet de remédier à ce problème, améliorant ainsi l’expérience des éditeurs

3 - de plus, lorsqu’il s’agit de ressources sous forme de pages web, la suggestion par extraction de contenu (scraping) est mise en œuvre. Certains champs de métadonnées, tels que le titre et la description, sont extraits automatiquement à partir des pages web, simplifiant ainsi le travail des éditeurs

4 - ensuite, l’utilisation du machine learning apporte une nouvelle dimension à ce projet. Grâce à l’existence de grandes bases de ressources numériques indexées manuellement au standard ScoLOMFR, il est possible d’entraîner des modèles d’apprentissage profond, notamment des algorithmes modernes de classification exploitant les techniques de "plongement lexical" sous leur forme la plus récente : les transformers. Ces modèles suggèrent à l’utilisateur les valeurs les plus pertinentes pour les autres champs à partir des valeurs saisies dans certains champs, tels que le titre. Pour l’obtention des données d’entraînement, deux sources principales ont été utilisées : Edubase (banque de scénarios pédagogiques académiques conçus par des enseignants pour des enseignants) et les ressources pédagogiques du GAR

5 - l’inférence est également utilisée dans le cadre de ce projet. Construits selon les standards du web sémantique, les vocabulaires ScoLOMFR contiennent des assertions de relations entre entités (par exemple : "point de programme enseigné dans niveau") qui sont exploitées pour suggérer des valeurs pertinentes pour certains champs

6 - enfin, le projet tire parti des APIs de l’annuaire administratif des entreprises (Sirene) et des référentiels d’autorités (Isni, BnF, Idref…) qui sont utilisés pour récupérer la description et les identifiants des auteurs et éditeurs de la ressource pédagogique.

De nouvelles perspectives

En combinant les technologies du web sémantique (ontologies, raisonneurs, etc.) relevant de l’IA symbolique et les techniques de machine learning faisant appel à l’IA probabiliste, ce projet ouvre de nouvelles perspectives.

Son objectif global est d’exploiter toutes les technologies disponibles pour faciliter la saisie d’informations structurées, simplifier le travail des éditeurs et améliorer la qualité et l’exhaustivité des notices des ressources au format ScoLOMFR.

En conclusion, le projet IRPIA témoigne de l’intégration réussie de l’IA dans le domaine de la saisie de notices documentaires. En tirant parti de l’apprentissage automatique, de l’optimisation de l’expérience utilisateur, de l’inférence, du scraping et des API de référentiels, ce projet ouvre la voie à une nouvelle génération d’outils de saisie plus efficaces et plus conviviaux.

Grâce à IRPIA, les éditeurs de ressources pédagogiques pourront bénéficier d’une assistance précieuse et contribuer à améliorer la diffusion et la qualité des ressources éducatives pour les élèves et les enseignants.

En résumé : le mode de fonctionnement d’IRPIA

1 - Tout d’abord, l’utilisateur accède à un écran de saisie des contributeurs à la réalisation de la ressource pédagogique.

À partir du nom du contributeur, IRPIA proposera automatiquement le numéro de Siren et/ou le numéro Isni permettant de l’identifier, ainsi que le nom et la marque éditoriale. Les différents contributeurs sont enregistrés.

2 - Ensuite, l’utilisateur peut commencer à créer sa notice descriptive en indiquant à IRPIA l’URL de la ressource pédagogique.

L’assistant va proposer des suggestions pour le titre, la description à partir du contenu de la page de la ressource. Il proposera également des domaines d’enseignement et des niveaux éducatifs conformes au standard ScoLOMFR. L’utilisateur peut sélectionner les domaines qui lui semblent pertinents ou consulter la liste plus complète des domaines ou des niveaux éducatifs pour en choisir un.

3 - Une fois que les éléments de description sont renseignés, l’assistant IRPIA proposera des images trouvées sur la page de la ressource afin de les utiliser en tant que vignette d’identification visuelle de la ressource.

4 - À la fin du processus, l’utilisateur peut télécharger la notice descriptive conforme au ScoLOMFR au format XML. Il peut aussi commencer une nouvelle notice en conservant les informations sur les contributeurs ou la démarrer à zéro.

Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !

La digitalisation et l’automatisation des processus sont devenues des enjeux de performance, voire de survie pour les entreprises comme pour les collectivités. Qu’il s’agisse de mettre en conformité vos processus documentaires ou de les rendre plus efficients, la mise en œuvre de ces chantiers interroge. Découvrez comment établir votre feuille de route !

Acheter ce numéro ou Abonnez-vous