Documents, data, même combats ?

Les éditeurs et entreprises s’efforcent aujourd’hui de donner une dimension data à leurs solutions de gestion de contenus. Voici quelques exemples de stratégies et d’outils à l’œuvre pour assurer cette transformation.

Découvrez Le Brief de la Démat, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de la dématérialisation et de la transformation numérique !

« Des services en ligne renforcés ». C’est, selon le cabinet Gartner, la principale tendance qui se dégage sur le marché des plateformes de gestion de contenus (« content services platforms »), incluant la plupart des piliers de l’ECM. Les spécialistes ont pour but de répondre à la demande d’organisations qui souhaitent s’appuyer sur le cloud pour consolider leurs logiciels d’ECM et de Ged.

Ils entendent aussi proposer de nouveaux outils de traitement des data (données) pour optimiser la collecte, le traitement ou la diffusion des contenus. Un exemple ? M-Files utilise depuis 2018 des technologies d’apprentissage machine (machine-learning) pour analyser les data et automatiser les processus de création de métadonnées et de catégorisation des documents entrants.

ECM et data

Pour autant, « les outils d’ECM ne sont pas en train de disparaître au profit de la data », estime Paul Terray, directeur conseil de Sollan (société de conseil et d’intégration, spécialiste du management des contenus et des processus). « Ils sont utilisés pour stocker des informations (un contrat, typiquement) qui ne pourraient pas l’être sous forme de données structurées, pour des raisons de praticité, d’organisation et de coûts. Ils sont aussi en train de devenir une source de data ».

Par exemple, les factures (sur le point d’achever leur dématérialisation) intègrent des données, mais doivent également rester lisibles sous forme de document et cela ne devrait pas changer. La France et l’Allemagne viennent d’adopter un standard de facture électronique « mixte », Factur-X, incluant les documents et de la data : il est basé sur un fichier PDF (représentant la facture originale) auquel est associé un fichier de données structurées (XML).

« Il est important que le commun des mortels puisse continuer de se référer sur le long terme à un document lisible qui regroupe toutes les informations utiles », indique Paul Terray.

« À mon sens, on utilise le terme “contenu” pour parler de l’information qui est dans un contenant », ajoute Noureddine Lamriri, vice-président produit et marketing de l’éditeur de solutions de gestion de contenu d’entreprise Everteam, passé début 2020 sous pavillon Kyocera Document Solutions. « Avec la donnée, on se concentre sur des éléments d’information qui sont suffisamment qualifiés pour être compris de manière consubstantielle — le prénom, le nom, le numéro de sécurité sociale… La démarche n’est pas la même qu’avec des documents pour un éditeur : il faut recenser les types de données manipulées par l’entreprise et gérer les dictionnaires de données. Il est aussi moins question de silos documentaires qu’avec les ECM habituels. Les données transitent davantage entre tous les systèmes et ne sont pas à proprement parler stockées dans des silos ».

Gouvernance des données

Les deux univers se rapprochent pourtant, afin que le contenu des documents puisse être analysé et qualifié via des métadonnées descriptives. « Les entreprises sont entrées dans un monde où il ne suffit plus de stocker des téraoctets de données », ajoute Noureddine Lamriri. « Certaines réglementations, comme le RGPD, les obligent à avoir une parfaite connaissance de l’information qu’elles sont censées conserver, et donc à entrer dans une logique de gouvernance de leur capital informationnel. Les sociétés se différencient aussi les unes des autres par leur capacité à extraire un maximum de valeur des informations qu’elles détiennent. »

Un exemple parlant : « Lorsque je faisais des présentations il y a 15 ans, pour présenter les solutions Everteam aux prospects et clients, je n’avais en face de moi que des professionnels de l’information. C’est très différent aujourd’hui. Il y a toujours des pros de l’infodoc, mais il y a aussi des DPO (délégué à la protection des données) ou des RSSI (responsables de la sécurité des systèmes d’information), par exemple. » La raison étant que l’information revêt une dimension globale et décloisonnée, importante pour tous les services de l’entreprise.

Pour ce spécialiste, la convergence entre ECM et data se fait « naturellement » : « Pour Everteam, comme pour d’autres éditeurs, une multitude de connecteurs et de solutions se rajoutent régulièrement pour gérer non plus seulement les documents, mais toutes les data. »

Les connecteurs permettent aux éditeurs de se démarquer : ils aident les entreprises à connecter les ECM à tous les systèmes qui produisent du contenu. Il en va de même des systèmes qui permettent d’analyser et de préparer les fichiers ainsi récupérés, puis d’en extraire des données.

« De notre côté, nous avons aussi travaillé sur des outils d’analyse de texte, de traitement automatique du langage et de classification, par apprentissage automatique », détaille Noureddine Lamriri. L’analyse et l’extraction de données offrent ainsi la possibilité d’enrichir les métadonnées associées aux documents. Elle est aussi précieuse pour déterminer son importance pour l’entreprise et fixer son cycle de vie : « L’idée est de capter le document au plus tôt et de gérer son cycle de vie à la source ».

Traitement des data

La difficulté ? La volumétrie des informations manipulées n’est plus du tout la même. « Une Ged peut stocker quelques millions de documents », explique le responsable d’Everteam. « Les plateformes orientées vers la gouvernance de l’information vont quant à elles vous obliger à manipuler des milliards de données. »

D’où l’importance stratégique d’associer aux outils redimensionnés des solutions d’analyse et de reconnaissance automatisées — extraction d’entités nommées, classification automatique par règles, classification par apprentissage automatique…

« Nous venons par exemple d’installer le système de Ged de propriété intellectuelle d’un acteur de l’industrie pharmaceutique », relève Paul Terray chez Sollan. « Ce système fait bien plus que du stockage. Il intègre automatiquement une multitude de métadonnées entrantes associées au document, que les collaborateurs n’ont plus besoin de rentrer à la main — l’origine, le type, la date de réception du document… »

Intelligence artificielle

Pour monter en compétence sur ces sujets, les entreprises peuvent s’appuyer sur les solutions d’intelligence artificielle (IA) mises à disposition par de gigantesques plateformes, principalement états-uniennes.

Google leur propose, entre autres, un service dénommé Document AI, qui permet d’automatiser « la capture de données à grande échelle pour réduire les coûts de traitement des documents » et d’exploiter les données des documents pour les mettre à la disposition des utilisateurs ou des applications d’ECM. Il a aussi développé un service d’IA à destination des centres de contacts (Contact Center AI).

Le principe ? Les aider à mettre au point des types d’interactions automatisées, avec des agents virtuels, et à traiter au plus tôt une foule d’informations destinées aux conseillers. La solution utilise notamment « le traitement du langage naturel pour identifier les facteurs à l’origine des appels et les sentiments » des appelants…

Ces modèles, qui ne demandent qu’à être entraînés par les utilisateurs, sont un plus pour les entreprises. Mais ils ne sont pas suffisants. « Une société industrielle, pour ne citer qu’un exemple, a besoin d’outils de reconnaissance de niche — détection d’une pièce cassée ou d’un type de vis… —, qui ne sont pas proposés par ces grandes plateformes », analyse Paul Terray. Ces outils doivent donc être développés par ou pour l’entreprise. Les éditeurs ont encore du pain sur la planche.

Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !

Contraint durant la crise sanitaire, le travail à distance s’est pérennisé, voire accéléré : 60 % des organisations ont adopté un mode de travail hybride en 2022. Mais si le cloud a fait changer de dimension le télétravail, offrant une flexibilité inédite aux utilisateurs, les enjeux sont nombreux...

Acheter ce numéro ou Abonnez-vous