Article réservé aux abonnés Archimag.com

Reconnaissance automatique de la parole : comment fonctionne le speech-to-text ?

  • reconnaissance-automatique-parole-speech-to-text.jpg

    reconnaissance-automatique-parole-speech-to-text
    "Aujourd’hui, avec les progrès permis par l’apprentissage profond, de très nombreux systèmes proposent d’effectuer une transcription automatique de la parole de bout en bout (“end to end”)", explique la Cnil. (Freepik/Wayhomestudio)
  • Qu’on l’appelle speech-to-text ou RAP, la reconnaissance automatique de la parole affiche désormais des performances spectaculaires. De plus en plus utilisée par les applications grand public (aide à la rédaction de SMS), mais aussi les logiciels professionnels, la technologie de reconnaissance vocale fait appel à de puissants outils linguistiques. Voici comment elle fonctionne.

    Temps de lecture : 4 minutes

    mail Découvrez Le Brief de la Démat', la newsletter thématique d'Archimag dédiée au projets de dématérialisation !

    La reconnaissance automatique de la parole, qu'est ce que c'est ?

    C’est au début des années 1950 que les premières expériences de reconnaissance automatique de la parole virent le jour. Il faudra attendre encore une vingtaine d’années pour aboutir à des résultats plus convaincants avec la commercialisation des premières solutions. Aujourd’hui, cette technologie est en passe de devenir mature et Microsoft revendique un taux d’erreur d’environ 5 %.

    La reconnaissance automatique de la parole (RAP) fait une promesse : transformer un contenu audio en un texte écrit. Tout un chacun peut déjà en faire l’expérience avec des applications embarquées sur les smartphones qui permettent de dicter des SMS. Et Philips vient d’annoncer une solution permettant de dicter un texte directement dans les applications de bureau les plus répandues telles que Microsoft Word ou Outlook.

    enlightened Lire aussi : Trois applications gratuites pour retranscrire automatiquement vos fichiers audio

    Le speech-to-text, comment ça marche ?

    Sous le capot, cette technologie fait appel à de puissantes fonctionnalités et repose sur la succession de plusieurs étapes :Déterminer quels phonèmes sont prononcés à l’aide d’un modèle acoustique (à titre d’exemple, la langue française comprend 36 phonèmes, 16 voyelles et 20 consonnes) ;Dé....
    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    Archimag-347-fraude-documentaire
    Le fléau de la fraude documentaire ne faiblit pas. De l’utilisation de faux documents — parfois pour en obtenir de vrais — à l’usurpation d’identité : ici encore l’imagination est sans limites ! Pour les victimes, la note s’élève à des centaines de millions d’euros, voire des milliards d’euros. Secteur public et secteur privé sont touchés. Un avocat s’exprime sur les faits et les conséquences. Côté ministériel, notamment, la lutte antifraude agit. Le management et les outils de l’identité numérique apportent des réponses, comme aussi les solutions de connaissance du client (know your customer, KYC).
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Saison 2, Ép. 5 - Archimag Podcast vous propose d'aller à la rencontre de Christine Bard. Historienne, spécialiste de l'histoire des femmes, du genre, du féminisme et de l'antiféminisme, elle a codirigé l'ouvrage "Les féministes et leurs archives". Elle préside aussi l'association Archives du féminisme et copréside l'AféMuse, l'Association pour un musée des féminismes. Elle revient sur la notion d'archives des féminismes, mais aussi sur le fonctionnement du Centre des archives d'Angers et la genèse du futur musée.
    Publicité

    supplement-confiance-numerique-270500.png