L'intelligence artificielle à l'assaut du texte et de la parole

Apparu dans les années 1950, le traitement automatique des langues (Tal) ne cesse d’améliorer ses performances. Traduction, identification de concepts, analyse sémantique… L’intelligence artificielle s’applique à quasiment toutes les disciplines textuelles.

Temps de lecture : 6 minutes

Découvrez Le Brief de la Démat, la newsletter thématique gratuite d'Archimag dédiée à la transformation numérique des organisations !

En pleine crise des Gilets jaunes, Emmanuel Macron décidait de lancer un « grand débat national » destiné à recueillir les doléances des citoyens. Résultat : 1 932 884 contributions furent déposées sur le site officiel du grand débat auxquelles il faut ajouter 27 374 courriels et courriers reçus au format papier. Sans oublier les centaines de réunions qui se sont tenues à travers la France et qui ont donné lieu à d’innombrables comptes-rendus.

Toutes contributions confondues, c’est un total de près de six millions de verbatim qui ont fait l’objet d’une analyse.

Quand le recours à l'intelligence artificielle s'impose

Un chantier éminemment complexe. L’expression libre et spontanée génère en effet une variété quasiment infinie dans les domaines de la grammaire, du vocabulaire, de la ponctuation ou du style.

Pour traiter ce corpus documentaire hétérogène, l’institut OpinionWay a fait appel à l’éditeur Qwam pour l’analyse des réponses apportées par les Français aux 76 questions ouvertes du grand débat.

Et face au peu de temps imparti par l’exécutif, le recours à l’intelligence artificielle s’est imposé de lui-même.

« L’apport réussi de l’IA dans le grand débat démontre son intérêt en matière de dépouillement et d’analyse fine d’enquêtes à très grande échelle », explique Qwam dans son livre blanc "Intelligence artificielle et valorisation des données textuelles" ; « l’IA permet de prendre en compte des expressions, suggestions ou propositions ciblées afin de faire émerger des thématiques multiples (environnement, santé, sécurité, transport…) et de devenir un levier de la démocratie participative ».

"Clusteriser des réponses"

Pour Christian Langevin, directeur général de Qwam, l’intelligence artificielle a permis « d’identifier les concepts - suite de mots ayant une valeur sémantique - pour chacune des réponses. (…) Cette première analyse a ensuite été utilisée pour clustériser les réponses, c’est-à-dire les regrouper en ensemble de textes exprimant les mêmes préoccupations » (L’ENA hors les murs. Juillet-août 2019).

Une fois ce traitement réalisé automatiquement, les analystes d’OpinionWay ont repris la main et validé la qualité des résultats obtenus. « Mais c’est bien la technologie qui a permis de traiter un tel volume dans le délai imparti », insiste Christian Langevin.

Apprentissage supervisé

Le grand débat national de 2019 n’est pas le seul terrain d’expérimentation de l’IA appliquée aux textes. D’autres réalisations ont vu le jour : Word2Vec et Bert développés par Google, Glove par l’université de Stanford, FastText par Facebook…

« Il s’agit d’un groupe de modèles qui sert à la classification et interprétation de texte et à la reconnaissance du contexte linguistique d’un mot dans un texte (corpus). En ajoutant à cela un grand nombre de bibliothèques qui servent à la préparation et au nettoyage du texte. La mise en place des outils comme ceux-ci peuvent servir au quotidien des métiers de ressources humaines, marketing, commerce, etc. », explique Otman Manad, chercheur en traitement automatique du langage au sein de la société Umanis.

Le Tal appelé aussi NLP (natural language processing) n’est pas né de la dernière pluie. Dès le début des années 1950, le mathématicien Alan Turing établit les célèbres « tests de Turing » : ceux-ci permettaient alors de mesurer le degré « d’intelligence » d’une machine, à partir de la capacité d’un programme conversationnel à se faire passer pour un être humain.

"Le traitement automatique des langues a évolué très rapidement ces dernières années"

À peu près à la même époque, un programme informatique était en mesure de traduire automatiquement plusieurs dizaines de phrases du russe vers l’anglais. Et au milieu des années 1960, un premier automate conversationnel fut réalisé et mis en application dans le domaine de la psychothérapie.

Aujourd’hui, les chercheurs continuent leurs recherches et engrangent les succès :

« Le Tal a évolué très rapidement ces dernières années, son intérêt étant d’interpréter et valoriser les résultats obtenus à partir de données (paroles et textes) pour lesquelles nous avons besoin de sens. Des méthodes statistiques (apprentissage supervisé, non supervisé, profond) en Tal ont été mises à la disposition de modèles sophistiqués en termes de performance et fiabilité, afin de comprendre le sens des mots, connaître l’émotion dans un texte, faire un résumé, détecter la langue parlée, etc. Même si nous restons loin en comparaison avec les résultats obtenus par l’être humain », précise Otman Manad.

"Désambiguïser" les phrases équivoques

Les applications pratiques du traitement automatique des langues sont désormais à la portée de tous. Lorsque la presse publie des résultats électoraux, elle le fait désormais grâce à l’intelligence artificielle. Des textes courts sont générés par un robot à partir de données électorales qui lui sont fournies : taux de participation, nombre de voix exprimées, résultats par candidats, etc. Le tout dans le respect de la syntaxe !

La génération automatique de textes est également utilisée pour les bulletins météo ou pour la production de certains rapports.

Plus subtile, l’analyse syntaxique permet de « désambiguïser » certaines phrases équivoques comme « je regarde l’homme avec les jumelles ». Cette phrase peut en effet signifier « je regarde l’homme en utilisant une paire de jumelles » ou bien « je regarde l’homme qui est accompagné de sœurs jumelles ». Le Tal recourt alors à l’étiquetage morphosyntaxique de chacun des mots du texte pour réduire la part d’ambiguïté de la phrase.

Quant à la traduction automatique, elle fait l’objet de nombreux fantasmes depuis de nombreuses décennies. En 2018, l’éditeur Massot a publié « L’apprentissage profond » dont les 800 pages ont été traduites de l’anglais vers le français en seulement… 12 heures ! Une équipe de quatre correcteurs est tout de même intervenue pour modifier certaines formules maladroites. Environ 20 % de l’ouvrage ont été retouchés par des correcteurs humains. Derrière cette performance, on trouve la société française Quantmetry et la jeune pousse allemande Deepl à l’origine d’un remarquable outil de traduction en ligne.

Vers des réseaux de neurones

Pour autant, l’IA n’est pas en mesure, à ce jour, de résoudre tous les problèmes liés à la complexité de la parole et de l’écriture humaine. Notamment dans les langues qui ne bénéficient pas d’une forte visibilité internationale.

Que faut-il attendre des promesses du traitement automatique des langues dans un avenir proche ?

« L’innovation en IA et en traitement de langue écrite et parlée a beaucoup progressé pendant cette dernière décennie », constate Otman Manad ; « toutefois, un grand espoir se focalise sur l’utilisation des approches récentes, basées sur les réseaux de neurones, pour que la machine puisse comprendre parfaitement l’humain, ainsi pour pouvoir augmenter leurs capacités cognitives ».