Article réservé aux abonnés Archimag.com

L'intelligence artificielle à l'assaut du texte et de la parole

  • intelligence_artificielle_texte_parole.jpg

    intelligence-artificielle-texte-parole
    "Le Tal a évolué très rapidement", explique Otman Manad, chercheur chez Umanis ; "son intérêt étant d’interpréter et valoriser les résultats obtenus à partir de données (paroles et textes) pour lesquelles nous avons besoin de sens". (Freepik/iuriimotov)
  • Apparu dans les années 1950, le traitement automatique des langues (Tal) ne cesse d’améliorer ses performances. Traduction, identification de concepts, analyse sémantique… L’intelligence artificielle s’applique à quasiment toutes les disciplines textuelles.

    Temps de lecture : 6 minutes

    mail Découvrez Le Brief de la Démat, la newsletter thématique gratuite d'Archimag dédiée à la transformation numérique des organisations !

    intelligence_artificielle_texte_parole_barros.jpgEn pleine crise des Gilets jaunes, Emmanuel Macron décidait de lancer un « grand débat national » destiné à recueillir les doléances des citoyens. Résultat : 1 932 884 contributions furent déposées sur le site officiel du grand débat auxquelles il faut ajouter 27 374 courriels et courriers reçus au format papier. Sans oublier les centaines de réunions qui se sont tenues à travers la France et qui ont donné lieu à d’innombrables comptes-rendus.

    Toutes contributions confondues, c’est un total de près de six millions de verbatim qui ont fait l’objet d’une analyse.

    enlightenedLire aussi : Un Mooc sur l'intelligence artificielle et la datavisualisation au service de la veille

    Quand le recours à l'intelligence artificielle s'impose

    Un chantier éminemment complexe. L’expression libre et spontanée génère en effet une variété quasiment infinie dans les domaines de la grammaire, du vocabulaire, de la ponctuation ou du style.

    Pour traiter ce corpus documentaire hétérogène, l’institut OpinionWay a fait appel à l’éditeur Qwam pour l’analyse des réponses apportées par les Français aux 76 questions ouvertes du grand débat.

    Et face au peu de temps imparti par l’exécutif, le recours à l’intelligence artificielle s’est imposé de lui-même.

    « L’apport réussi de l’IA dans le grand débat démontre son intérêt en matière de dépouillement et d’analyse fine d’enquêtes à très grande échelle », explique Qwam dans son livre blanc "Intelligence artificielle et valorisation des données textuelles" ; « l’IA permet de prendre en compte des expressions, suggestions ou propositions ciblées afin de faire émerger des thématiques multiples (environnement, santé, sécurité, transport…) et de devenir un levier de la démocratie participative ».

    enlightenedLire aussi : Comment la recherche d'information se transforme avec l'intelligence artificielle

    "Clusteriser des réponses"

    Pour Christian Langevin, directeur général de Qwam, l’intelligence artificielle a permis « d’identifier les concepts - suite de mots ayant une valeur sémantique - pour chacune des réponses. (…) Cette première analyse a ensuite été utilisée pour clustériser les réponses, c’est-à-dire les regrouper en ensemble de textes exprimant les mêmes préoccupations » (L’ENA hors les murs. Juillet-août 2019).

    Une fois ce traitement réalisé automatiquement, les analystes d’OpinionWay ont repris la main et validé la qualité des résultats obtenus. « Mais c’est bien la technologie qui a permis de traiter un tel volume dans le délai imparti », insiste Christian Langevin.

    enlightenedLire aussi : Le digital ethics officer (DEO) : manager des enjeux éthiques et juridiques de l'IA et des données

    Apprentissage supervisé

    Le grand débat national de 2019 n’est pas le seul terrain d’expérimentation de l’IA appliquée aux textes. D’autres réalisations ont vu le jour : Word2Vec et Bert développés par Google, Glove par l’université de Stanford, FastText par Facebook…

    « Il s’agit d’un groupe de modèles qui sert à la classification et interprétation de texte et à la reconnaissance du contexte linguistique d’un mot dans un texte (corpus). En ajoutant à cela un grand nombre de bibliothèques qui servent à la préparation et au nettoyage du texte. La mise en place des outils comme ceux-ci peuvent servir au quotidien des métiers de ressources humaines, marketing, commerce, etc. », explique Otman Manad, chercheur en traitement automatique du langage au sein de la société Umanis.

    Le Tal appelé aussi NLP (natural language processing) n’est pas né de la dernière pluie. Dès le début des années 1950, le mathématicien Alan Turing établit les célèbres « tests de Turing » : ceux-ci permettaient alors de mesurer le degré « d’intelligence » d’une machine, à partir de la capacité d’un programme conversationnel à se faire passer pour un être humain.

    enlightenedLire aussi : Digital asset management (Dam) : l'intelligence artificielle automatise le traitement des photos, sons et vidéos

    "Le traitement automatique des langues a évolué très rapidement ces dernières années"

    À peu près à la même époque, un programme informatique était en mesure de traduire automatiquement plusieurs dizaines de phrases du russe vers l’anglais. Et au milieu des années 1960, un premier automate conversationnel fut réalisé et mis en application dans le domaine de la psychothérapie.

    Aujourd’hui, les chercheurs continuent leurs recherches et engrangent les succès :

    « Le Tal a évolué très rapidement ces dernières années, son intérêt étant d’interpréter et valoriser les résultats obtenus à partir de données (paroles et textes) pour lesquelles nous avons besoin de sens. Des méthodes statistiques (apprentissage supervisé, non supervisé, profond) en Tal ont été mises à la disposition de modèles sophistiqués en termes de performance et fiabilité, afin de comprendre le sens des mots, connaître l’émotion dans un texte, faire un résumé, détecter la langue parlée, etc. Même si nous restons loin en comparaison avec les résultats obtenus par l’être humain », précise Otman Manad.

    enlightenedLire aussi : Golem.ai, l'intelligence artificielle qui simplifie le travail

    "Désambiguïser" les phrases équivoques

    Les applications pratiques du traitement automatique des langues sont désormais à la portée de tous. Lorsque la presse publie des résultats électoraux, elle le fait désormais grâce à l’intelligence artificielle. Des textes courts sont générés par un robot à partir de données électorales qui lui sont fournies : taux de participation, nombre de voix exprimées, résultats par candidats, etc. Le tout dans le respect de la syntaxe !

    La génération automatique de textes est également utilisée pour les bulletins météo ou pour la production de certains rapports.

    Plus subtile, l’analyse syntaxique permet de « désambiguïser » certaines phrases équivoques comme « je regarde l’homme avec les jumelles ». Cette phrase peut en effet signifier « je regarde l’homme en utilisant une paire de jumelles » ou bien « je regarde l’homme qui est accompagné de sœurs jumelles ». Le Tal recourt alors à l’étiquetage morphosyntaxique de chacun des mots du texte pour réduire la part d’ambiguïté de la phrase.

    Quant à la traduction automatique, elle fait l’objet de nombreux fantasmes depuis de nombreuses décennies. En 2018, l’éditeur Massot a publié « L’apprentissage profond » dont les 800 pages ont été traduites de l’anglais vers le français en seulement… 12 heures ! Une équipe de quatre correcteurs est tout de même intervenue pour modifier certaines formules maladroites. Environ 20 % de l’ouvrage ont été retouchés par des correcteurs humains. Derrière cette performance, on trouve la société française Quantmetry et la jeune pousse allemande Deepl à l’origine d’un remarquable outil de traduction en ligne.

    enlightenedLire aussi : Quand l'intelligence artificielle s'invite dans le traitement documentaire

    Vers des réseaux de neurones

    Pour autant, l’IA n’est pas en mesure, à ce jour, de résoudre tous les problèmes liés à la complexité de la parole et de l’écriture humaine. Notamment dans les langues qui ne bénéficient pas d’une forte visibilité internationale.

    Que faut-il attendre des promesses du traitement automatique des langues dans un avenir proche ?

    « L’innovation en IA et en traitement de langue écrite et parlée a beaucoup progressé pendant cette dernière décennie », constate Otman Manad ; « toutefois, un grand espoir se focalise sur l’utilisation des approches récentes, basées sur les réseaux de neurones, pour que la machine puisse comprendre parfaitement l’humain, ainsi pour pouvoir augmenter leurs capacités cognitives ».

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    Ged-collaboratives
    À la Ged, les documents, et aux métiers, le collaboratif ? Un peu comme s’il y avait un partage entre back office et front office... Cependant, on demande souvent bien plus à une Ged que de s’en tenir à l’acquisition, au classement et l’exploitation des documents numériques, via des workflows. Inversement, on ne peut figurer un travail collaboratif se passant totalement d’un appui sur des documents. Dès lors, entre Ged et collaboration, à chacun de placer le curseur selon ses usages et ses besoins. Du côté des éditeurs, des fonctionnalités collaboratives sont ajoutées aux solutions. Et l’on peut découvrir sur le terrain les avantages que les professionnels peuvent en obtenir.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    Serda Formations Data 2023