Reconnaissance automatique de la parole : comment fonctionne le speech-to-text ?

Le 22/10/2021 Bruno Texier

reconnaissance-automatique-parole-speech-to-text.jpg

"Aujourd’hui, avec les progrès permis par l’apprentissage profond, de très nombreux systèmes proposent d’effectuer une transcription automatique de la parole de bout en bout (“end to end”)", explique la Cnil. (Freepik/Wayhomestudio)

Qu’on l’appelle speech-to-text ou RAP, la reconnaissance automatique de la parole affiche désormais des performances spectaculaires. De plus en plus utilisée par les applications grand public (aide à la rédaction de SMS), mais aussi les logiciels professionnels, la technologie de reconnaissance vocale fait appel à de puissants outils linguistiques. Voici comment elle fonctionne.

Temps de lecture : 4 minutes

Découvrez Le Brief de la Démat', la newsletter thématique d'Archimag dédiée au projets de dématérialisation !

La reconnaissance automatique de la parole, qu'est ce que c'est ?

C’est au début des années 1950 que les premières expériences de reconnaissance automatique de la parole virent le jour. Il faudra attendre encore une vingtaine d’années pour aboutir à des résultats plus convaincants avec la commercialisation des premières solutions. Aujourd’hui, cette technologie est en passe de devenir mature et Microsoft revendique un taux d’erreur d’environ 5 %.

La reconnaissance automatique de la parole (RAP) fait une promesse : transformer un contenu audio en un texte écrit. Tout un chacun peut déjà en faire l’expérience avec des applications embarquées sur les smartphones qui permettent de dicter des SMS. Et Philips vient d’annoncer une solution permettant de dicter un texte directement dans les applications de bureau les plus répandues telles que Microsoft Word ou Outlook.

Le speech-to-text, comment ça marche ?

Sous le capot, cette technologie fait appel à de puissantes fonctionnalités et repose sur la succession de plusieurs étapes :

Déterminer quels phonèmes sont prononcés à l’aide d’un modèle acoustique (à titre d’exemple, la langue française comprend 36 phonèmes, 16 voyelles et 20 consonnes) ;
Déterminer quels mots sont prononcés à l’aide d’un dictionnaire phonétique ;
Retranscrire la séquence de mots (phrase) ayant le plus de chances d’avoir été prononcée à l’aide d’un modèle de langage.

« Aujourd’hui, avec les progrès permis par l’apprentissage profond (une technique d’apprentissage automatique), de très nombreux systèmes proposent d’effectuer une transcription automatique de la parole de bout en bout (“end to end”) », explique la Cnil. L’apprentissage automatique permet notamment au logiciel d’apprendre à partir de données afin d’améliorer ses performances.

Une ultime opération est enfin lancée par la reconnaissance automatique de la parole : désambiguïser le premier résultat obtenu pour déjouer les aléas d’une prononciation laborieuse, par exemple.

Les avantages et les défis de la reconnaissance automatique de la parole

En 2008, la Bibliothèque nationale de France avait fait appel à de la reconnaissance automatique de parole à l’occasion d’un débat réunissant l’historien Michel Winock et les philosophes Luc Ferry et Edgar Morin. Leurs propos étaient retranscrits en quasi temps réel sur un grand écran placé derrière eux.

Assez bluffantes, les performances de la solution déployée étaient cependant altérées par des difficultés rencontrées avec les noms propres qui, semble-t-il, n’avaient pas été intégrés dans le dictionnaire.

Sans surprise, les performances du speech-to-text dépendent de plusieurs facteurs : qualité de la diction du locuteur, bruits parasites, conversation à proximité ou à distance du micro, vitesse de l’expression orale, complexité du vocabulaire employé… Les taux d’erreur peuvent varier de 5 % pour des textes lus par une seule personne à près de 40 % pour une conversation téléphonique.

Ajoutons que la présence de noms propres aux origines multiples est un défi pour les solutions de RAP. Imaginons un congrès réunissant trois lauréats du Prix Nobel de chimie : Emmanuelle Charpentier (Prix Nobel 2020), Venkatraman Ramakrishnan (2009) et Hideki Shirakawa (2000)… Si ces patronymes n’ont pas été préalablement insérés dans le dictionnaire du logiciel, il y a de fortes chances d’assister à une transcription folklorique !

La recherche continue d'avancer !

La recherche autour de la reconnaissance automatique de la parole ne s’arrête jamais. Un projet franco-japonais baptisé VoicePersonae a pour ambition de servir de « hub » à de nombreux sujets liés à l’identité vocale : synthèse de la parole, reconnaissance du locuteur, anonymisation de la parole…

Objectif : supprimer l’identité d’un locuteur d’un message vocal tout en préservant a minima son contenu linguistique, mais aussi ses aspects naturels, son émotivité, sa « couleur' »… De quoi rester sans voix.

Sur le même sujet:

Les promesses des technologies vocales

Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !

Le fléau de la fraude documentaire ne faiblit pas. De l’utilisation de faux documents — parfois pour en obtenir de vrais — à l’usurpation d’identité : ici encore l’imagination est sans limites ! Pour les victimes, la note s’élève à des centaines de millions d’euros, voire des milliards d’euros. Secteur public et secteur privé sont touchés. Un avocat s’exprime sur les faits et les conséquences. Côté ministériel, notamment, la lutte antifraude agit. Le management et les outils de l’identité numérique apportent des réponses, comme aussi les solutions de connaissance du client (know your customer, KYC).

Acheter ce numéro ou Abonnez-vous