Lingua Libre de Wikimédia France : l'art de documenter la diversité linguistique

Sur les 7 000 langues existant à ce jour, seulement 2 500 subsisteront au siècle prochain. La médiathèque linguistique participative Lingua Libre, développée par Wikimédia France et enrichie par des centaines de contributeurs à travers le monde, s’est donnée pour mission de faire vivre ce patrimoine en danger.

Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !

¿Habla español ? Kan du norsk ? Siz o'zbekcha gapirasizmi ? Si vous ne parlez ni espagnol, ni norvégien, ni ouzbek, Lingua Libre est faite pour vous !

Cette médiathèque linguistique participative développée par Wikimédia France a une ambition : construire un corpus audiovisuel multilingue et collaboratif sous licence libre. Et mettre à la portée de tous les internautes la fabuleuse diversité linguistique de notre Terre.

Comment fonctionne cette médiathèque linguistique participative ?

Comme tous les projets portés par l’écosystème Wikimédia, Lingua Libre fait appel aux bonnes volontés pour contribuer à l’enrichissement de son corpus. Tout internaute, en fonction de ses compétences linguistiques, peut enregistrer une séquence courte (un mot, une locution, une phrase) afin d’enrichir le projet. Il suffit pour cela d’ouvrir un compte et d'enregistrer une phrase à partir d’un téléphone ou d’un ordinateur.

Une fois l’enregistrement effectué, Lingua Libre - également appelée LiLi par les contributeurs - propose aux internautes d’y accéder en ligne sans inscription préalable.

Ces enregistrements sont également consultables sur Wikimedia Commons, l’autre médiathèque en ligne d'images, de sons, d'autres médias audiovisuels de Wikimédia sous licence libre. Ils servent aussi à illustrer le Wiktionnaire, un projet lexicographique de la Wikimedia Foundation dont l’objectif est de définir tous les mots dans toutes les langues.

Le constat de Lingua Libre : plus de 50 % des sites web sont en anglais

Le projet Lingua Libre est né d’un constat : “Si le web est en théorie ouvert à tout le monde, son contenu est loin de représenter toutes les langues de manière proportionnelle. Plus de 50 % des sites web sont en anglais ; seules 301 des plus de 7 000 langues du monde possèdent une encyclopédie libre, au contenu inférieur en qualité et en quantité à celui des langues plus dotées comme Wikipédia en anglais”, expliquent les promoteurs de cette médiathèque.

A ce manque de diversité s’ajoute le manque d’oralité causé par l’utilisation des caractères Unicode (le codage informatique des caractères) et la standardisation orthographique.

Résultat : “Ces manques de diversité et d’oralité limitent la capacité des internautes à communiquer. Parmi les langues régionales minoritaires orales ou signées, ils menacent en particulier celles peu dotées dont beaucoup se trouvent à l’heure actuelle en voie de disparition et pour qui l’insertion sur le web constitue un enjeu et une opportunité majeurs”.

L’enregistrement audio est ce qui se rapproche le plus d’une langue orale

Quatre ans après son lancement, Lingua Libre peut s’appuyer sur un réseau de plus de 700 contributeurs à travers le monde. Parmi eux, Lyokoï, cofondateur du projet :

“Ma contribution à la diversité linguistique chez Wikimédia France prend son origine dans mon travail sur les langues de France que j’avais déjà renseigné sur le Wiktionnaire. J’avais en effet commencé à compléter les annexes qui dressent la liste des langues de France et lancer les articles sur Wikipédia pour les langues qui n’en avaient pas".

A ses yeux, le format audio de Lingua Libre présente de nombreux avantages :

“L’enregistrement audio est ce qui se rapproche le plus d’une langue orale, davantage que les procédés grammaticaux qui figurent dans le Wiktionnaire en tout cas. Actuellement, sur Lingua Libre, on a des bases de données de sons qui sont comme des photographies de la langue en instantané. On ne peut pas faire mieux pour cerner une langue dans son intégralité. Un enregistrement audio seul peut rendre compte de cette diversité linguistique en termes de prononciation. De ce fait, avec l’oralité, on peut décrire les évolutions de la langue sur ce dernier siècle, les premiers enregistrements audio datant de la fin du XIXe et du début du XXe. »

Quechua, mapuche, guarani

Autre contributrice bénévole, Emma Vadillo est étudiante à La Sorbonne en linguistique et à l’Institut national des langues et civilisations d’orient (Inalco). D’origine péruvienne, ses grands-parents parlent le quechua, langue parlée à l’ère de l’empire inca :

“Il y a certaines traditions de ce côté-là de ma famille que j’aimerais bien conserver et c’est en partie ce qui m’a poussée à apprendre le quechua à mon tour. En fait, je m’intéresse à toutes les langues des Amériques comme le mapuche, langue amérindienne parlée au Chili et en Argentine, et le guarani, essentiellement parlé au Paraguay”.

Pour Emma Vadillo, contribuer à Lingua Libre relève également de l’engagement politique “car ces langues sont très défavorisées par rapport aux ressources investies dans l’éducation, les médias et l’information en général”.

Un hackathon pour améliorer l’expérience utilisateur

Au mois de juillet dernier, de nombreux contributeurs se sont retrouvés à Lyon à l’occasion d’un hackathon pour apporter des améliorations à Lingua Libre. Il s’agissait notamment de perfectionner le module Record Wizard qui permet l’enregistrement, la catégorisation et la publication sur Wikimedia Commons d’enregistrements audio courts à partir d’un ordinateur ou d’un smartphone.

“Ces deux jours de conception collective et de développement ont permis d’apporter plusieurs changements à Lingua Libre, tels que l’amélioration de la documentation opérationnelle”, explique l’un des participants ; “ce hackathon était également l’occasion d’améliorer le code de Lingua Libre Bot, le programme s’occupant d’ajouter les enregistrements sur les Wiktionnaire. Un nouveau statut d’utilisateur a été mis en place avec l’accord de la communauté, celui d’administrateur de traduction”.

Alors que Lingua Libre n’a pas encore cinq ans, la question de son évolution est déjà posée. Pour Pamputt, administrateur de Lingua Libre, “plusieurs possibilités s’offrent à nous. Une des applications possibles serait qu’on se serve des enregistrements pour développer un autre site ou une application pour l’apprentissage des langues. Une autre, d’en faire un « Wikipédia oral », c’est-à-dire de pouvoir s’enregistrer en lisant des articles, de préférence en langues minoritaires ou peu dotées car souvent elles ne s’écrivent pas".

Là aussi, l’avenir se fera de manière collaborative.

Lingua Libre en chiffres

La version alpha de Lingua Libre a été lancée en août 2018. Moins d’un an plus tard, la médiathèque linguistique collaborative atteignait un total de 100 000 enregistrements audio dans 46 langues, grâce à 128 locuteurs différents.

Le projet a dépassé les 200 000 enregistrements (82 langues, 268 locuteurs) en janvier 2020, puis les 500 000 enregistrements au mois de juin 2021.

LiLi comptait 676 603 enregistrements réalisés par 736 locuteurs dans 147 langues au mois de février 2022.

Lingua Libre de Wikimédia France : l'art de documenter la diversité linguistique

ligua-libre-wikimedia.jpg

Comment fonctionne cette médiathèque linguistique participative ?

Le constat de Lingua Libre : plus de 50 % des sites web sont en anglais

L’enregistrement audio est ce qui se rapproche le plus d’une langue orale

Quechua, mapuche, guarani

Un hackathon pour améliorer l’expérience utilisateur

Lingua Libre en chiffres

Les derniers mags :

Les derniers guides :

Bibliotheca : Révolutionner la bibliothèque : vers un tiers-lieu plus ouvert, accessible et autonome

Code confiance : Signature électronique – Qui mérite vraiment votre confiance ?

Archimag : Valoriser le patrimoine : méthodes, technologies et gouvernance pour transformer les archives en ressources vivantes

Code Confiance : Cloud : les forces en présence sur le marché français

Archimag : Documents & flux intelligents au cœur de la relation

Archimag : Plateformes GED/ECM : les acteurs du marché, les usages, les critères de choix