Common Voice : une grande base de données vocales gratuites créée par Mozilla pour tous ceux qui travaillent sur la reconnaissance vocale

  • bulles_bd.jpg

    bulles-bande-dessinée
    La fondation Mozilla affirme avoir lancé Common Voice, entre autres "parce que la concurrence et l'ouverture sont saines pour l'innovation". (Freepik/rawpixel.com)
  • Alexa, Siri et Assistant n'ont qu'à bien se tenir ! Avec Common Voice, de Mozilla, les chercheurs et les petites startups disposent désormais d'un jeu de données vocales open source d'excellente qualité et d'une grande variété pour entraîner leur intelligences artificielles dédiées à la reconnaissance vocale.

    La reconnaissance vocale demeure le monopole de quelques entreprises à l'échelle du globe. Certes, beaucoup se sont positionnées sur certains segments du secteur, mais seule une poignée en maîtrise toutes les fonctions. Cela pourrait changer, car Mozilla a mis en ligne il y a quelques semaines Common Voice, une base de données vocales multilingue (18 langues) comprenant environ 1 400 heures d'échantillons de voix de plus de 42 000 personnes. Surtout, tous ces jeux de données peuvent être téléchargés gratuitement et réutilisés : ils ont en effet été versés dans le domaine public par Mozilla, qui les as diffusés sous licence CCO, afin de les mettre à disposition de tous ceux qui s'intéressent aux technologies à reconnaissance vocale, tels que les chercheurs et les startups. 

    Une grande collecte dans le monde entier

    Common Voice est la plus importante base de données du genre, globale et inclusive : des dizaines de milliers d'hommes et de femmes ont associé bénévolement leur voix à des phrases écrites originales lors d'une grande phase de collecte mondiale qui s'est déroulée entre juin 2018 et février 2019.

    Parmi les langues représentées, citons notamment l'anglais, le français, l'allemand, le chinois mandarin, le gallois, le kabyle ou encore le néerlandais, le hakha-chin, l'esperanto ou le farsi. Par ailleurs, certains contributeurs ont accepté de fournir des métadonnées avec leur échantillon de voix qui pourraient être utiles pour les moteurs de formation vocale (âge, sexe, accent, etc). Et la base va continuer de s'enrichir.

    La retranscription automatique améliorée

    Avec Common Voice, Mozilla affirme vouloir "contribuer à un écosystème de technologies vocales plus diversifié et innovant", peut-on lire sur le site de la fondation ; "l'objectif est à la fois de proposer des produits à commande vocale, tout en soutenant les chercheurs et les plus petits acteurs", ajoute-t-elle.

    Ses travaux sur Common Voice ont par ailleurs permis à Mozilla d'améliorer son moteur DeepSpeech, un logiciel de reconnaissance vocale ouvert à tous, au point que celui-ci soit aujourd'hui capable de convertir en direct la parole en texte, et de façon très précise. Idéal pour la retranscription automatique de conférences, de conversation téléphoniques ou encore d'émissions de télévision ou de radio. 

    À lire sur Archimag
    Les podcasts d'Archimag
    La photographie possède un pouvoir fascinant : celui de capturer un instant et de le figer pour l’éternité. Elle raconte des histoires, qu’elles soient personnelles ou collectives, qui traversent le temps et façonnent notre passé, notre présent et notre futur. C’est pourquoi les albums de famille jouent un rôle si important dans la construction de nos souvenirs. Mais avec l’avènement de l’intelligence artificielle générative, capable de créer des images de plus en plus proches de la réalité, une question se pose : comment cette technologie va-t-elle influencer notre mythologie familiale ? Serge Tisseron, psychiatre et docteur en psychologie, explore depuis longtemps nos relations avec les technologies. En cherchant à recréer une photographie de son enfance, il s’est intéressé aux liens entre mémoire, photographie et intelligence artificielle. Il revient sur l’origine de son livre "Le jour où j’ai tué mon frère - Quand l’IA fabrique la photographie de nos souvenirs", publié aux Éditions Lamaindonne.

    Serda Formations Data 2023