Article réservé aux abonnés Archimag.com

Traitement automatique du language : des technologies pour délier les langues et les data

  • 283 langues data.jpg

    Les technologies de traitement automatique du langage (TAL) aident à repérer et analyser rapidement les informations critiques dans une masse de données, quelle qu’en soit la langue. (Pixabay/wilhei)
  • Comment tirer profit des volumétries croissantes de données qui assaillent les entreprises ou dont elles s’abreuvent ? Une solution passe par les technologies du traitement du langage qui font aussi valoir de nombreux atouts face à une information non structurée et au multilinguisme.

    Photos, mails, géolocalisation… Les contenus numériques, tant professionnels que personnels, ne cessent de se multiplier : toutes les minutes, près de 100 heures de vidéos sont ajoutées sur YouTube, près de 600 nouveaux sites sont créés sur internet et près de 350 000 tweets sont envoyés à travers le monde. Pour suivre l’évolution de leurs marchés, les entreprises doivent donc traiter un volume de plus en plus important d’informations non structurées, principalement sous forme textuelle, mais aussi audio ou multimédia.

    Le text mining et la classification automatique deviennent des technologies incontournables pour aborder les problématiques de big data, concevoir des services documentaires adaptés, produire des connaissances nouvelles ou fournir des outils efficaces d’aide à la décision.

    Couplée à l’inflation des contenus numériques, l’emprise décroissante de l’anglais sur les réseaux d’information, notamment au profit des langues asiatiques et orientales, complique encore la donne : on estime qu’à l’heure actuelle, 45% des sites internet ne sont pas disponibles en anglais ; d’ici 2020, 17% des données générées sur internet seront le fait de l’Inde et de la Chine selon FrenchWeb.

    Comment les entreprises peuvent-elles appréhender rapidement des masses d’information multilingue pour les intégrer dans leurs processus décisionnels ? Le traitement automatique du langage apparaît comme le seul moyen réaliste d’accéder à ces flux d’information mondialisés.

    1. des capacités de repérage et d’analyse

    Les technologies de traitement automatique du langage (TAL) aident à repérer et analyser rapidement les informations critiques dans une masse de données, quelle qu’en soit la langue. Elles assurent par exemple les fonctions suivantes :

    • extraire les contenus textuels de n’importe quel type de document ;
    • détecter automatiquement la langue et le thème du contenu grâce à l’analyse de mots ou phrases spécifiques ;
    • classifier des documents selon des modèles prédéfinis en exploitant les mots-clés les plus récurrents ;
    • reconnaître automatiquement et afficher les noms de personnes, les lieux, les nombres, les dates ou encore les marques ou noms de société.

    Les technologies de TAL permettent également de normaliser des contenus informels générés par les utilisateurs (fautes d’orthographes ou de syntaxe, absence de verbe, émoticônes, etc.) pour pouvoir mieux les analyser.

    déterminer la tonalité des propos

    D’autres fonctions, dites « d’analyse automatique de sentiments », permettent de déterminer la tonalité des propos par une analyse sémantique des échanges. Ce type de traitement facilite la compréhension et la classification des retours des clients dans les forums ou les sites marchands, et permet de quantifier les avis positifs ou négatifs à l’égard d’un produit ou d’un service. Ici, la couverture de toutes les langues des utilisateurs constitue une formidable...

     source d’enseignements sur les particularités culturelles de chaque marché. Si elles sont multilingues, les TAL permettent de mettre en évidence des tendances, de décrypter des comportements et de mieux comprendre la fameuse « expérience client » dans l’ensemble des régions d’activité de l’entreprise.

    2. répondre à des enjeux concrets

    Le traitement des données multilingues est aujourd’hui au cœur de nombreux processus critiques : veille concurrentielle et marché, e-réputation, investigation électronique (eDiscovery), veille technologique (brevets, informations scientifiques, techniques et médicales) n’en sont que quelques exemples. Plus particulièrement dans les domaines de la communication et du marketing, de l’intelligence économique ou du support et de la relation client, elles sont devenues incontournables.

    good ou bad buzz

    Parmi les cas d’application les plus en pointe, mentionnons le social media monitoring. Utilisé par les directeurs de la communication et du marketing, il consiste à suivre et analyser une stratégie dans les médias sociaux en vue de comprendre et d’anticiper les comportements, mais également d’affiner les communications en adressant le bon message aux bonnes cibles. L’analyse de sentiments, l’extraction d’entités nommées (noms de marque, lieux, personnalités) et la classification par domaine vont ainsi permettre d’identifier un good ou bad buzz, de détecter des tendances et d’anticiper les situations de crise.

    La connaissance produite à partir de ces traitements constitue une aide précieuse pour élaborer une communication plus efficace et mieux ciblée. Il en résulte un meilleur contrôle de l’image de marque et de la réputation de l’entreprise. Les marketeurs vont tirer encore d’autres avantages des TAL : une analyse plus large de la « voix du client » pour en déduire les points forts et les points faibles de leurs produits ou de ceux de la concurrence.

    Le search and content management, aussi désigné knowledge management, constitue un autre cas d’application majeur des TAL. L’enjeu est ici de partager et de communiquer les bonnes informations aux bonnes personnes et au bon moment. Les TAL interviennent au niveau de la recherche rapide et précise de contenus en vue de rationaliser la production, la diffusion et l'archivage des actifs documentaires de l’entreprise.

    nouveaux métiers

    Dans cet univers ultra connecté et globalisé, de nouveaux métiers émergent autour du traitement et de la gestion d’une information toujours plus foisonnante : data scientists, knowledge managers ou encore responsables en intelligence économique doivent ainsi construire des bases de données intelligentes et automatiser le processus d’indexation de l’information et de gestion des connaissances en plusieurs langues. Ils effectuent en outre des recherches sur des contenus multilingues et analysent des grandes masses de données composites pour en extraire des informations exploitables. Les TAL interviennent au niveau de la classification, de la normalisation, de la détection de la langue ou de la traduction automatique des contenus pour en faciliter l’indexation, ce qui permet ensuite d’effectuer des recherches très ciblées dans plusieurs langues.

    La prise en charge de langues autres que l’anglais et le français permet de diversifier les gisements de données et d’élargir les périmètres d’analyse, mais également de partager et de diffuser plus largement les connaissances auprès d’utilisateurs de différentes nationalités. Après tout, quelle grande entreprise internationale peut encore se passer d’une veille sur ses concurrents chinois ou coréens ?

    satisfaire les demandes des clients

    L’analyse des mégadonnées multilingues est également devenue un enjeu de premier plan dans le domaine de la relation client, le but recherché étant alors de fluidifier les échanges et de satisfaire plus efficacement les demandes des clients. Ainsi, l’assistance au client est souvent rationalisée par souci d’efficience et d’économie, les services spécialisés de “niveau 2” étant assurés de manière centralisée pour plusieurs pays. C’est notamment le cas dans le secteur automobile. La résolution des incidents passe alors bien souvent par des échanges multilingues. Dans ce type d’organisation, les technologies linguistiques se révèlent très utiles pour accélérer les flux d’information : la réclamation étant évidemment exprimée dans la langue du client, la traduction et l’analyse automatiques de la demande permettent à une personne ne maîtrisant pas la langue du demandeur de comprendre la nature du problème et d’en déduire le niveau de priorité. L’analyse sémantique – ou même simplement la détection de la langue – facilite ainsi l’orientation des demandes vers les ressources compétentes.

    construire des bases de connaissance

    L’analyse sémantique et la catégorisation des réclamations des clients sont aussi utilisées a posteriori pour construire des bases de connaissance très utiles pour détecter et analyser les dysfonctionnements rapportés par les clients et ainsi contribuer à l’amélioration continue des produits ou services de l’entreprise. Pour éviter les biais culturels et s’assurer d’une vision globale de la situation, le traitement d’une dizaine de langues est très souvent indispensable.

    En somme, parce qu’elles permettent d’automatiser partiellement ou totalement des flux d’information multilingues, les TAL favorisent la rationalisation des services aux clients et permettent des économies significatives tout en augmentant le taux de satisfaction des clients.

    Arnaud Dufournet
    Directeur marketing, Systran

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    Davantage fréquentées, mais avec moins de lecteurs abonnés, comment les bibliothèques intègrent-elles le numérique dans leurs ressources ? C’est aujourd’hui le livre numérique qui fait le plus débat.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.
    Publicité

    Serda Formation Veille 2023