Article réservé aux abonnés Archimag.com

Lingua Libre de Wikimédia France : l'art de documenter la diversité linguistique

  • ligua-libre-wikimedia.jpg

    ligua-libre-wikimedia
    Lingua Libre comptait 676603 enregistrements réalisés par 736 locuteurs dans 147 langues au mois de février 2022. (Dessin de Vince pour Archimag)
  • Sur les 7 000 langues existant à ce jour, seulement 2 500 subsisteront au siècle prochain. La médiathèque linguistique participative Lingua Libre, développée par Wikimédia France et enrichie par des centaines de contributeurs à travers le monde, s’est donnée pour mission de faire vivre ce patrimoine en danger. 

    mail Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !

    ¿Habla español ? Kan du norsk ? Siz o'zbekcha gapirasizmi ? Si vous ne parlez ni espagnol, ni norvégien, ni ouzbek, Lingua Libre est faite pour vous !

    Cette médiathèque linguistique participative développée par Wikimédia France a une ambition : construire un corpus audiovisuel multilingue et collaboratif sous licence libre. Et mettre à la portée de tous les internautes la fabuleuse diversité linguistique de notre Terre.

    > Lire aussi : Zemmour, Elisabeth II, Ronaldo, Messi, Belmondo : les 5 articles les plus consultés sur Wikipédia en 2021

    Comment fonctionne cette médiathèque linguistique participative ?

    Comme tous les projets portés par l’écosystème Wikimédia, Lingua Libre fait appel aux bonnes volontés pour contribuer à l’enrichissement de son corpus. Tout internaute, en fonction de ses compétences linguistiques, peut enregistrer une séquence courte (un mot, une locution, une phrase) afin d’enrichir le projet. Il suffit pour cela d’ouvrir un compte et d'enregistrer une phrase à partir d’un téléphone ou d’un ordinateur.

    Une fois l’enregistrement effectué, Lingua Libre - également appelée LiLi par les contributeurs - propose aux internautes d’y accéder en ligne sans inscription préalable.

    Ces enregistrements sont également consultables sur Wikimedia Commons, l’autre médiathèque en ligne d'images, de sons, d'autres médias audiovisuels de Wikimédia sous licence libre. Ils servent aussi à illustrer le Wiktionnaire, un projet lexicographique de la Wikimedia Foundation dont l’objectif est de définir tous les mots dans toutes les langues. 

    > Lire aussi : Une nouvelle interface pour Wikipédia

    Le constat de Lingua Libre : plus de 50 % des sites web sont en anglais

    Le projet Lingua Libre est né d’un constat : “Si le web est en théorie ouvert à tout le monde, son contenu est loin de représenter toutes les langues de manière proportionnelle. Plus de 50 % des sites web sont en anglais ; seules 301 des plus de 7 000 langues du monde possèdent une encyclopédie libre, au contenu inférieur en qualité et en quantité à celui des langues plus dotées comme Wikipédia en anglais”, expliquent les promoteurs de cette médiathèque. 

    A ce manque de diversité s’ajoute le manque d’oralité causé par l’utilisation des caractères Unicode (le codage informatique des caractères) et la standardisation orthographique.

    Résultat : “Ces manques de diversité et d’oralité limitent la capacité des internautes à communiquer. Parmi les langues régionales minoritaires orales ou signées, ils menacent en particulier celles peu dotées dont beaucoup se trouvent à l’heure actuelle en voie de disparition et pour qui l’insertion sur le web constitue un enjeu et une opportunité majeurs”.

    > Lire aussi : Patrimoine et innovation : faut-il repenser les musées et les lieux de culture ?

    L’enregistrement audio est ce qui se rapproche le plus d’une langue orale

    Quatre ans après son lancement, Lingua Libre peut s’appuyer sur un réseau de plus de 700 contributeurs à travers le monde. Parmi eux, Lyokoï, cofondateur du projet :

    “Ma contribution à la diversité linguistique chez Wikimédia France prend son origine dans mon travail sur les langues de France que j’avais déjà renseigné sur le Wiktionnaire. J’avais en effet commencé à compléter les annexes qui dressent la liste des langues de France et lancer les articles sur Wikipédia pour les langues qui n’en avaient pas".

    A ses yeux, le format audio de Lingua Libre présente de nombreux avantages :

    “L’enregistrement audio est ce qui se rapproche le plus d’une langue orale, davantage que les procédés grammaticaux qui figurent dans le Wiktionnaire en tout cas. Actuellement, sur Lingua Libre, on a des bases de données de sons qui sont comme des photographies de la langue en instantané. On ne peut pas faire mieux pour cerner une langue dans son intégralité. Un enregistrement audio seul peut rendre compte de cette diversité linguistique en termes de prononciation. De ce fait, avec l’oralité, on peut décrire les évolutions de la langue sur ce dernier siècle, les premiers enregistrements audio datant de la fin du XIXe et du début du XXe. »

    > Lire aussi : La Société du Grand Paris lance sa bibliothèque participative

    Quechua, mapuche, guarani

    Autre contributrice bénévole, Emma Vadillo est étudiante à La Sorbonne en linguistique et à l’Institut national des langues et civilisations d’orient (Inalco). D’origine péruvienne, ses grands-parents parlent le quechua, langue parlée à l’ère de l’empire inca :

    “Il y a certaines traditions de ce côté-là de ma famille que j’aimerais bien conserver et c’est en partie ce qui m’a poussée à apprendre le quechua à mon tour. En fait, je m’intéresse à toutes les langues des Amériques comme le mapuche, langue amérindienne parlée au Chili et en Argentine, et le guarani, essentiellement parlé au Paraguay”.

    Pour Emma Vadillo, contribuer à Lingua Libre relève également de l’engagement politique “car ces langues sont très défavorisées par rapport aux ressources investies dans l’éducation, les médias et l’information en général”. 

    > Lire aussi : 14 000 documents archivés dans 1 000 langues différentes à porter autour du cou

    Un hackathon pour améliorer l’expérience utilisateur

    Au mois de juillet dernier, de nombreux contributeurs se sont retrouvés à Lyon à l’occasion d’un hackathon pour apporter des améliorations à Lingua Libre. Il s’agissait notamment de perfectionner le module Record Wizard qui permet l’enregistrement, la catégorisation et la publication sur Wikimedia Commons d’enregistrements audio courts à partir d’un ordinateur ou d’un smartphone. 

    “Ces deux jours de conception collective et de développement ont permis d’apporter plusieurs changements à Lingua Libre, tels que l’amélioration de la documentation opérationnelle”, explique l’un des participants ; “ce hackathon était également l’occasion d’améliorer le code de Lingua Libre Bot, le programme s’occupant d’ajouter les enregistrements sur les Wiktionnaire. Un nouveau statut d’utilisateur a été mis en place avec l’accord de la communauté, celui d’administrateur de traduction”.

    Alors que Lingua Libre n’a pas encore cinq ans, la question de son évolution est déjà posée. Pour Pamputt, administrateur de Lingua Libre, “plusieurs possibilités s’offrent à nous. Une des applications possibles serait qu’on se serve des enregistrements pour développer un autre site ou une application pour l’apprentissage des langues. Une autre, d’en faire un « Wikipédia oral », c’est-à-dire de pouvoir s’enregistrer en lisant des articles, de préférence en langues minoritaires ou peu dotées car souvent elles ne s’écrivent pas".

    Là aussi, l’avenir se fera de manière collaborative.

    > Lire aussi : Capturator : les langues en ligne sur tout support

    Lingua Libre en chiffres

    La version alpha de Lingua Libre a été lancée en août 2018. Moins d’un an plus tard, la médiathèque linguistique collaborative atteignait un total de 100 000 enregistrements audio dans 46 langues, grâce à 128 locuteurs différents.

    Le projet a dépassé les 200 000 enregistrements (82 langues, 268 locuteurs) en janvier 2020, puis les 500 000 enregistrements au mois de juin 2021.

    LiLi comptait 676 603 enregistrements réalisés par 736 locuteurs dans 147 langues au mois de février 2022.

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    veilleurs-documentaliste-teletravail
    Deux ans après le premier confinement destiné à lutter contre la pandémie de Covid-19, comment la « vie d’après » des documentalistes et des veilleurs s’esquisse-t-elle ? Télétravaillez-vous davantage ? Dans quelles conditions ? Accédez-vous facilement à vos données et logiciels ? Cela produit-il des changements dans vos missions ? Votre place dans l’organisation reste-telle la même ? Comment le travail collaboratif s’en ressent-il ? Ces évolutions vous conviennent-elles ? Archimag vous livre les résultats de son enquête. Ils sont commentés par différentes personnalités ou observateurs reconnus. Des professionnels témoignent de leur nouveau quotidien.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    Serda Formation Veille 2023