Article réservé aux abonnés Archimag.com

Les sciences de l’information à l’aune du big data textuel

  • library-1269924_1920.jpg

    Le big data textuel impacte la chaîne de valeur de l'information: sourcing, collecte-recherche et exploration. (GKenius/Pixabay)
  • Les sciences de l'information s'intéressent aux dispositifs de gestion de l'information et du document afin d’assurer l’accès à la bonne information au moment utile ou souhaité. Depuis plus de dix ans elles doivent répondre à de nouveaux enjeux en matière de recherche d’information et de traitement des résultats.

    Les « clients » de l’information ont toujours eu des profils hétérogènes : professionnel de la veille, analyste ou décideur pressé. Les mutations récentes de l’expérience informationnelle sont dues en particulier aux facteurs suivants :

    • un territoire de jeu transformé par le potentiel offert par le big data textuel (BDT) ;
    • une demande d’autonomie des utilisateurs dans la manipulation d’ensembles d’information préconstruits.

    Quel "contrat de lecture" veut-on se voir proposer en tant que professionnel ou en tant que « consom-acteur » :

    • extraire « la » pépite ?
    • trouver plusieurs pépites, les observer dans leur contexte ?
    • afficher un bilan statique à date ?
    • proposer une histoire adaptée aux données ?

    Nous avons souhaité explorer dans cet article la manière dont le big data textuel impacte la chaîne de valeur de l’information (sourcing-collecte-recherche et exploration), dans un contexte où... 

    ...les spécialistes de l’information se voient de plus en plus souvent sollicités sur de nouveaux champs disciplinaires : design utilisateur, data visualisation et sciences des données.

    Champ d’étude sur le texte et la compréhension de son contenu

    Dans le contexte actuel où certains discours marketing créent parfois de la confusion, un rappel historique nous semble utile.

    Après 1945, le premier objectif du traitement automatique des langues (TAL) fut principalement la traduction automatique, sur financements nord-américains. Toutefois si la recherche et le développement n’eurent pas les effets escomptés, ils ont permis d’ouvrir un champ important d’étude sur le texte et la « compréhension de son contenu ».

    1980 à 2000 est une période importante pour :

    • le dialogue homme-machine ;
    • la traduction automatique ;
    • la reconnaissance de la parole ;
    • l’aide à l’indexation documentaire.

    Se développent sur ces 20 années, des méthodologies et technologies d’analyse approfondie du contenu textuel.

    On cherche alors à formaliser les processus « cognitifs » : avec les systèmes experts (programme capable de reproduire les mécanismes cognitifs d’un expert d’un domaine, basé sur un moteur d’inférence et des connaissances). Il s’agit de définir des règles formelles reposant sur les connaissances et les faits. Mais c’est aussi une période riche dans la formalisation et le développement des outils d’analyse des langues.

    Se développent également les premiers systèmes fondés sur l’apprentissage (machine learning) ; les technologies de réseaux de neurones émergent, mais nous sommes alors dans un contexte de peu de volume de données et donc de limite à l’apprentissage.

    2000 à 2005 s’avère une période creuse pour l’IA (intelligence artificielle) et le TAL, mais on assiste au début des usages de l’information massive. Le débat est alors de déterminer si internet est un média de masse et de quelle manière les utilisateurs vont se l’approprier.

    Fortes mutations

    Après 2005, internet devient un vecteur de communication massif de contenus rédactionnels, mais aussi publicitaires et informationnels, on assiste à la montée en puissance des réseaux sociaux et du self-media. Les entreprises quant à elles débutent leur transformation numérique avec des impacts forts sur les processus et la place des documents.

    Les professionnels de l’information sont donc, plus que pour les périodes précédentes, confrontés à des contenus massifs hétérogènes, non structurés dans leur forme et leur langue. Mais ils doivent aussi faire face à de fortes mutations :

    • la baisse des contenus originaux et la multiplication de la reprise d’information ;
    • la numérisation des organisations nécessite une prise en compte des traces d’activité et des risques en matière de compliance ;
    • un niveau d’exigence de temps réel jusque-là inconnu.

    Le big data textuel est devenu une réalité, et avec lui les problématiques des trois “V”, volume, variété, vélocité. Les « search based applications » répondent à ces problématiques : le premier accès aux données est de plus en plus fourni par le moteur de recherche. L’avènement des moteurs open source, constamment améliorés par les contributions de communautés nombreuses, est un facteur important dans la capacité de traiter ces masses de données.

    On peut indexer rapidement de gros volumes, notamment grâce à leurs architectures distribuées : on peut fragmenter l’index sur plusieurs nœuds (serveur) et distribuer les recherches sur tous les nœuds et ré-assembler les résultats (map/reduce), et ainsi répartir la charge.

    L’index constitue aussi en lui-même une base de stockage NoSQL à accès rapide. Un index est une machine statistique termes/document/corpus TF/IDF (term frequency/inverse document frequency : une mesure du poids des mots d’un document par rapport aux poids de ces mots dans l’ensemble des documents.) qui reflète le poids des mots et des métadonnées dans le document et dans le corpus.

    Le moteur peut traiter ces valeurs sous forme de facettes qui sont autant de dimensions dans les données.

    Rendre les contenus exploitables

    Le besoin est de rendre les contenus « exploitables », en passant des données textuelles à des données normalisées et en extrayant des données structurées. A l’indexation, il s’agit de :

    • détecter la langue du texte, pour utiliser ensuite des analyseurs spécifiques langue par langue ;
    • densifier : réduire les variantes linguistiques, les ramener à des formes racines/canoniques (mots vides, lemmatisation, entités nommées, entités/relations...) ;
    • désambiguïser : morphologie-syntaxe. Part of Speech tagger est déjà une technologie d’apprentissage statistique (programme de désambiguïsation des mots en fonction de leur catégorie grammaticale la plus probable en regard des catégories des mots de contexte gauche et/ou droit).

    A la recherche, les mêmes traitements, éventuellement enrichis de l’expansion sémantique des requêtes, seront mis en œuvre.

    Technologies de machine learning

    Les technologies de machine learning contribuent également de plus en plus aux traitements des données massives. Un modèle de machine learning est un procédé algorithmique qui permet de construire une fonction de prédiction à partir d’un corpus de données d’apprentissage. Il ne s’agit pas de systèmes experts ou approches dites déterministes par règles. Plusieurs types d'algorithmes sont à choisir et à appliquer en fonction de l'objectif et du type de données.

    Deux types d’apprentissage nous intéressent ici en matière de BDT :

    • apprentissage supervisé : la catégorisation automatique de documents consiste à apposer/proposer une ou des catégories sur un nouveau document entrant dans le système ; pour la phase d’apprentissage on dispose d’un corpus suffisamment volumineux portant déjà des catégories ; les mots et les métadonnées du document sont les variables d’entrée dans l’algorithme, les catégories sont les variables de sortie ;
    • apprentissage non supervisé : la classification automatique (clustering) consiste à créer à la volée des classes, des sous-ensembles cohérents, de répartition des documents ; les documents y sont classés par meilleure similarité entre eux ; les volumes traités restent assez moyens car le processus est coûteux, et donc s’applique en général à une liste de résultats de recherche ; la difficulté est alors d’assigner un titre à chaque cluster pour la lisibilité.

    Le terme récent de « deep learning » remet au goût du jour les réseaux de neurones en améliorant les technologies. Un neurone est une fonction mathématique qui attribue un poids à une valeur d’entrée pour contribuer à une valeur de sortie (une catégorie, par exemple).

    Avec le deep learning, il s’agit d'enchaîner les couches de neurones en cascade avec rétropropagation des erreurs de décisions pour améliorer la qualité du modèle ainsi construit. La difficulté se trouve dans le calibrage, on procède par essai-erreur pour trouver le meilleur équilibre du modèle.

    Place pivot du spécialiste en sciences de l’information

    Construire des services d’information relève d’une action collective mobilisant des compétences complémentaires, toutefois il nous semble important de réfléchir sur la place pivot que doit tenir le spécialiste en sciences de l’information.

    En effet, il est nécessaire de superposer au design d’interface (capacité de l’utilisateur à agir) et au design de navigation,  les technologies permettant des parcours complexes d’accès à une information fiable.

    Il n’est plus à démontrer l’importance de l’expérience utilisateur dans le développement des interfaces, les UX designers mettent en avant l’expérience globale en opposition à une approche centrée sur la tâche.

    Dans le développement de services d’accès à l’information, la data visualisation a pris une place importante. Elle nous intéresse ici moins comme vue d’un état à date que comme discipline permettant de créer des repères, d’aider l’utilisateur dans sa navigation et sa compréhension de l'information restituée.

    Support de cognition

    La data visualisation mobilise elle-même plusieurs disciplines et en premier lieu la cartographie.

    L’humain a besoin de support à sa cognition : une aide comme le papier ou une carte facilite le raisonnement. Une carte permet de connaître les relations, la localisation ou l’importance des données qui composent l’espace cartographié, elle permet de manipuler des structures complexes là où le cerveau serait limité par la mémoire de travail.

    Le cartographe Jacques Bertin, au début des années 70, a posé les bases de la construction graphique de la visualisation. Pour Bertin, six variables visuelles sont utiles : la taille, l'intensité, la densité de texture, la couleur, l'orientation et la forme. Son influence reste forte dans l’enseignement universitaire de cartographie, mais aussi dans les cercles de statisticiens et de spécialistes de la visualisation des données.

    L'informatique a automatisé la transformation de données en visualisations, mais, si le cartographe a donné des règles d'utilisation du système qu'il appelle « la graphique », il n'explique pas pourquoi et comment le système fonctionne du point de vue de la perception.

    Ce que nous livrent les neurosciences et la psychologie de la perception est d’autant plus important que la carte a évolué vers des données abstraites. Il apparaît donc utile d’aborder ce que la perception humaine nous dit sur la manière d'afficher des informations. 

    Anne Triesman a mis en évidence la raison d'une visualisation efficace, les caractéristiques visuelles particulières peuvent être perçues par un œil humain très rapidement (< 200 ms), inconsciemment et sans effort. L'information visuelle est analysée de façon de plus en plus complexe à chaque étape de traitement dans le cortex visuel, les images sont traitées par le cerveau des milliers de fois plus vite que le texte.

    Assurer la mise à disposition

    Toutefois la carte ou l’infographie ne font pas le résultat et le spécialiste doit assurer la mise à disposition de données fiables et utiles au bon moment dans le parcours informationnel de l’utilisateur.

    Il doit permettre de « créer les données » parfois à la volée par l’analyse textuelle croisée avec des métadonnées préexistantes, il doit ensuite s’assurer qu’elles sont suffisamment propres et que leurs catégorisations ne soient pas trop fragiles pour laisser l’utilisateur les manipuler de manière interactive sans le « tromper » par une scénarisation abusive des données extraites.

    Les technologies mobilisées comme le TAL, le TDM (text and data minig) ou le Content Analytics donnent accès à des fonctions primordiales (filtre par facettes, catégorisation pour regroupements, graphes, données croisées…) permettant de croiser les données, pour explorer leurs différentes dimensions (statistiques des co-occurrences textuelles et/ou non textuelles).

    Ainsi on répond également à la demande des utilisateurs de pouvoir « reconstruire » de nouveaux ensembles sans casser leurs parcours habituels. Les spécialistes (data scientists et ingénieurs linguistes) devront s’assurer que les contenus mobilisés derrière les fonctions répondent aux besoins, par la maîtrise de leur sourcing et des règles définies pour l’extraction.

    Se revisiter

    Dans leur rapport aux technologies, les sciences de l’information continuent de se revisiter. Leurs champs d’investigation et les compétences mobilisées évoluent et évolueront encore, avec toujours plus d’interdisciplinarité.

    Malgré toute la puissance machine et les évolutions technologiques, la masse ne permet pas de se dédouaner des méthodologies, ni de la gouvernance des contenus et des référentiels.


    Bibliographie

    • Big data, little data, no data

    Scholarship in the networked world

    Christine L Borgman

    Mit Press Libri - février 2015

    • Réseaux 2014/6 (n° 188)

    Méthodes digitales

    Approches quali/quanti des données numériques

    Dossier coordonné par Dominique Cardon, Jean-Philippe Cointet et Tommaso Venturini

    Éditeur : La Découverte

    • Modern Information Retrieval: The Concepts and Technology behind Search

    Baeza-Yates, Ricardo (2nd Edition)

    ACM Press Books - Pearson Education Limited 2011

    • Big Data et Machine Learning - 2e édition

    Les concepts et les outils de la data science

    Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli

    Collection : InfoPro, Dunod - octobre 2016

    • Architecture de l'information

    Méthodes, outils, enjeux

    Sous la direction de Jean-Michel Salaün et Benoît Habert

    De Boeck Superieur - mai 2015

    • Data visualisation

    De l'extraction de données à leur représentation graphique

    Nathan Yau

    Eyrolles - octobre 2013

    • Big data : nouvelles partitions de l'information

    Sous la direction de Lisette Calderan et Jacques Millet

    De Boeck Superieur - février 2015

    • Sémiologie graphique

    Les diagrammes, les réseaux, les cartes

    Jacques Bertin

    Paris, Mouton/Gauthier-Villars - 1967

    • Illusory conjunctions in the perception of objects

    Anne Treisman and Hilary Schmidt (1982). Volume 14, Issue 1, January 1982, Pages 107–141

    Cognitive Psychology - Elsevier

    • An Interaction Model for Visualizations Beyond The Desktop

    Yvonne Jansen, Pierre Dragicevic

    IEEE Transactions on Visualization and Computer Graphics, Institute of Electrical and Electronics Engineers, 2013, 19 (12), pp.2396 - 2405

    HAL Id : hal-00847218, version 2

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !

    À malin, malin et demi ? Aujourd’hui, la fraude documentaire peut se cacher partout : papiers d’identité, factures, diplômes, etc. Autant de documents où l’on a du mal à distinguer le vrai du faux. Jusqu’à ce que justement, les spécialistes du document s’en mêlent et mettent leurs technologies à disposition pour permettre des vérifications et lutter contre la fraude.
    Acheter ce numéro  ou  Abonnez-vous

    À lire sur Archimag

    Le Mag

    Tout Archimag, à partir de 9,50 €
    tous les mois.

    Le chiffre du jour

    C'est le nombre d'avis émis par la Commission d'accès aux documents administratifs depuis 1978.

    Recevez l'essentiel de l'actu !