CNRTL : les nouveaux trésors des linguistes connectés

Morphologie, lexicographie, étymologie, synonymie, antonymie, proxémie et concordance sont au menu du portail lexical CNRTL.fr DR

 

Créé en 2006 par le CNRS, le site CNRTL.fr fédère un large éventail de ressources numériques sur la langue française, qui sera bientôt complété par Ortolang.fr. Tour du propriétaire.

Avec une moyenne de plus de 300 000 requêtes par jour, le CNRTL (Centre national de ressources textuelles et lexicales) est encore loin d'entrer dans le palmarès des sites hexagonaux les plus fréquentés par les internautes. Mais la notoriété de ce portail lexical, qui réunit en un lieu unique de nombreuses ressources linguistiques issues de différents projets de recherche, s'accroît à très grande vitesse, sous l'effet notamment de plusieurs projets menés en France et en Europe. "Tout a commencé en 2005", rappelle Jean-Marie Pierrel, directeur du laboratoire ATILF (Analyse et traitement informatique de la langue française), en charge de la création et de la gestion du portail. "A cette époque, le Centre national de la recherche scientifique (CNRS) a décidé de se doter de nouveaux centres de ressources numériques thématiques", explique-t-il. "Et compte tenu du travail mené par l'ATILF sur l'analyse et le traitement informatique de la langue française, il a été décidé de lui confier le soin d'ouvrir ce nouveau centre de ressources textuelles et lexicales".

le Trésor de la langue française informatisé

Il faut dire en effet que l'ATILF ne partait pas d'une feuille blanche. Depuis sa naissance en 1960, le laboratoire, adossé au CNRS et à l'université de Lorraine, a créé le fameux Trésor de la langue française informatisé (TLFI), un dictionnaire de référence sur la langue française des dix-neuvième et vingtième siècles, publié en seize volumes par le CNRS et les éditions Gallimard entre 1971 et 1994. Afin de faire vivre ce Trésor, désormais accessible en ligne, l'ATILF a aussi développé la base de données de textes français Frantext dans les années soixante-dix. Partie d'un noyau de mille documents, elle comporte à ce jour pas moins de 4 000 références littéraires, philosophiques et techniques. Des références qui sont utilisées comme exemples dans le TLFI. Et très précieuses pour la communauté scientifique.
Près de 200 institutions universitaires internationales ont d'ailleurs déjà souscrit un abonnement à Frantext afin de permettre aux enseignants, étudiants et chercheurs d'accéder gratuitement aux corpus - pour respecter les droits d'auteurs, cette base ne peut être consultée sans abonnement et seuls les textes libres de droits sont accessibles en téléchargement gratuit.
L'aventure est loin d'être terminée. Sur le Vieux continent, l'ATILF est en effet la tête de pont francophone du projet Clarin (pour Common language ressources and technology infrastructure), qui vise à développer et réunir de nouvelles ressources technologiques sur le langage. Et le laboratoire participe activement au projet d'e-infrastructure partagée Dariah (pour Digital research infrastructure for the arts and humanities), centré sur la collecte et la capitalisation de données de recherche sur les arts et les humanités.

Ortolang.fr en ligne de mire

Parallèlement, l'ATILF doit coordonner un nouvel "équipement d'excellence" baptisé Ortolang (pour Open ressources and tools for language). Il a pour but de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires...) et d'outils sur la langue et son traitement, avec des outils d'aide à la création et à l'enrichissement de données, notamment des scanners, des articulographes ou des outils d'analyse syntaxique...
Le financement du projet a été approuvé début 2012 par le ministère de la Recherche dans le cadre des investissements d'avenir. Avec l'ambition de s'appuyer sur les meilleurs experts des universités françaises : Ortolang réunira des laboratoires des universités de Lorraine, d’Aix Marseille, de Nanterre, d’Orléans-Tours, du CNRS et de l’Inria. Dans le détail, "Nancy va s'occuper essentiellement de l'écrit d'aujourd'hui", confie Jean-Marie Pierrel. "Aix-en-Provence travaillera surtout sur tous les aspects oraux. Et Paris et Orléans se concentreront sur la préservation des parlers des France – en lien avec la Délégation générale à la langue française et aux langues de France (DGLFLF)". Autrement dit sur la patrimonialisation de tous les parlers français régionaux qui tendent à disparaître actuellement (occitan, breton...).
Pourquoi ce nouveau projet ? "Pour rester compétitifs avec d'autres langues, notamment l'anglais, les chercheurs français doivent mutualiser leurs efforts de recherche", insiste le chercheur, professeur à l'université de Lorraine. "Il faut capitaliser sur les résultats, mais aussi sur les ressources qui sont à la base des recherches", précise-t-il – chaque donnée linguistique pourra être créée sur Ortolang, cataloguée, puis archivée et éventuellement améliorée...
La principale motivation des chercheurs est économique. "On a coutume de dire qu'un corpus annoté – au niveau lexical, syntaxique, sémantique... – coûte de l'ordre d'un euro le mot pour l'oral et de dix centimes le mot pour l'écrit", raconte Jean-Marie Pierrel. "Or pour faire des recherches en linguistique quantitative, par exemple, un laboratoire a besoin de corpus de plusieurs centaines de millions d'occurrences, très coûteux à mettre en place"

partager le savoir

D'un point de vue scientifique, le partage de ces données linguistiques offrira plusieurs avantages. "Avec Ortolang, une équipe scientifique pourra plus facilement s'appuyer sur ce qui a déjà été fait par d'autres laboratoires lorsqu'elle entamera une nouvelle recherche", estime Jean-Marie Pierrel. "La mise à disposition de tels corpus devrait aussi contribuer à rendre possible la création de nouveaux outils de traitement automatique de la langue".
On peut imaginer que les données pourront aussi plus facilement être exploitées par les industriels, notamment les PME qui ne peuvent se permettre de s'équiper de telles ressources. Les expériences passées laissent supposer que le champ des possibles devrait être vaste. Un exemple : le laboratoire ATILF s'est associé en 2004 à l'Afnor et à Lingway - spécialiste des outils de text mining - en vue de développer le premier Trésor informatisé de la langue technique (TILT). Un dictionnaire qui s'appuie sur un corpus technique de 1 083 normes Afnor.
Le commun des mortels y trouvera aussi son compte. Entièrement libre d'accès, le portail lexical CNRTL.fr – développé en XML - est certes consulté par un tiers de chercheurs et un tiers de professionnels de l'écrit (traducteurs, journalistes...). Mais il est aussi fréquenté par un dernier tiers d'utilisateurs lambda, à la recherche d'un très bon dictionnaire gratuit sur le web. Cette ouverture, conforme à l'esprit du service public, est chère aux têtes pensantes qui pilotent les évolutions du CNRTL et d'Ortolang.
"Trop souvent, j'ai pu constater que les universitaires et les chercheurs, particulièrement en sciences humaines, se sentent mal aimés, mal considérés", regrette Jean-Marie Pierrel. "Or je suis convaincu que cette situation peut changer si nous mettons davantage nos ressources et nos résultats de recherche à la disposition de nos concitoyens". Avec les sites CNRTL.fr et Ortolang.fr, la recherche sur le français et les langues de France sort enfin des laboratoires publics... À vous d'en profiter !

Christophe Dutheil

+ repères
en chiffres
Les internautes effectuent chaque jour près de 700 000 requêtes sur le CNRTL et Le Trésor de la langue française informatisé (300 000 sur CNRTL.fr et 400 000 sur TLFI). S'y ajoutent environ 300 000 recherches quotidiennes dans la base Frantext.fr.


Liens utiles

Atilf 
Base des textes Afnor (TILT)
Clarin
CNRTL
Dariah
Frantext
Le Trésor de la langue française informatisé
Ortolang

Les podcasts d'Archimag
Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.