Comment aborder les "dark data" ?

Série 1/7 : à l'occasion de la demi-journée Gouvernance de l'Information Numérique du 8 avril prochain au matin, Archimag en collaboration avec tous les partenaires de l'évènement vous propose une série d'articles afin que vous puissiez commencer votre réflexion. Merci à M-Files pour cet apport sur les dark data. Pour vous inscrire, c'est ici.

Nature et localisation

Les "dark data", pour les définir simplement, sont des données difficilement accessibles et non-gérées par l'Entreprise. Elles peuvent tout à la fois représenter des risques et des opportunités latentes de valorisation.

Il peut s'agir de données de connexion de clients au site Web de l'Entreprise, de données d'usage de l'application mobile, de données techniques stockées dans l'ERP[1], de courriels clients reçus dans la boite aux lettres des collaborateurs, de documents entassés dans un site Sharepoint mal structuré ou dans un "drive" cloud non-géré par la DSI, ou encore de données techniques se trouvant embarquées dans des équipements matériels connectés.

Risques

Les principales familles de risques associés sont les suivantes :

Utilisation de données périmées, obsolètes, incomplètes. Elles peuvent être malencontreusement trouvées et utilisées par des collaborateurs.
Exemple : un contrat fournisseur est trouvé au fin fond d'un site Sharepoint, mais il s'agit d'une version intermédiaire non finalisée et non signée.
Fuite de données sensibles. N'étant pas gérées, la sécurisation appropriée de telles données n'est pas assurée. Elles peuvent ainsi être accédées par des personnes non-autorisées, voire mal intentionnées.
Exemple : un collaborateur stocke des documents clients sur son PC. En cas de vol, les données produits et clients s'envolent et peuvent tomber entre les mains de la compétition.
Non-conformité à la règlementation RGPD[2]. N'étant ni identifiées ni classées, des données personnelles (client, fournisseur, employé, …) se trouvent potentiellement accessibles par des personnes non-autorisées, et non retrouvables lors d'une requête de droit à l'effacement. Ce qui constitue une violation explicite de la règlementation RGPD.
Exemple : les commerciaux d'une équipe prennent l'habitude de stocker des documents clients sur un "drive" dans un cloud hors de contrôle de la DSI.

Valorisation

Si elles sont souvent porteuses de risque, ces "dark data" contiennent parfois des éléments utiles et valorisables.

Mettre en "lumière" et gérer les dark data apporte plusieurs bénéfices :

Se conformer à des normes non-obligatoires, mais pouvant accroitre la différenciation compétitive de l'Entreprise.
Analyser des données d'usage afin de mieux connaitre ses clients et améliorer l'offre produit.
Préserver le patrimoine numérique et informationnel de l'Entreprise. Les dark data peuvent receler une partie de ce qui deviendra plus tard "l'histoire" de l'Entreprise, tout autant que des savoir-faire, des techniques ou des bonnes pratiques réutilisables. Par exemple, les spécifications d'un projet réalisé avec succès dans une autre entité de l'Entreprise pourraient bénéficier à d'autres.

Défis

Que ce soit pour traiter les risques associés, ou bien dans une optique de valorisation, gérer les dark data implique de relever plusieurs défis :

Accéder aux dark data, disséminées dans une grande variété de logiciels du Système d'Information, "on-premises" comme dans le "cloud", voire enfouies dans des équipements tels que des capteurs.
Analyser les dark data. Ces données sont rarement structurées (autrement dit faciles à appréhender) et souvent non-structurées à l'instar des documents, des fichiers de "log", des images et des vidéos. Il peut être nécessaire pour les exploiter de les traiter préalablement ; par exemple en convertissant une chaine de caractère (ex: "Guillaume Dupont") en identifiant client unique (ex: "CL67401").
Classifier les dark data. Ce point est essentiel. Il consiste à marquer les données avec des métadonnées les caractérisant de façon formelle. Les métadonnées sont des étiquettes correspondant à la découverte dans les dark data d'entités référencées (ex: compte client ou fournisseur, référence produit, nom d'un concurrent), de motifs (ex: compte bancaire IBAN, adresse IP, numéro de sécurité sociale), ou encore d'éléments clés (ex: date de validité dans un fichier contrat) pouvant requérir des techniques d'intelligence artificielle pour les identifier et les extraire.

Cette classification par marquage a priori autorisera ultérieurement des recherches diverses et variées, selon différents axes combinables que l'on n'imagine pas encore (ex: par client et/ou par année et/ou par technologie et/ou par Business Unit).
Distinguer des sous-ensembles de dark data pour traitement. Ce dernier défi implique d'isoler facilement un sous-ensemble de données préalablement classifiées afin de les traiter spécifiquement. Il peut s'agir, par exemple dans le contexte d'un audit, de marquer tous les documents relatifs à un certain projet afin de les traiter dans un workflow dédié (ex: examen par un auditeur, conversion automatique en PDF/A-1b pour archivage long terme).

Solution : l'approche M-Files

M-Files est l'un des rares outils du marché pensé dès sa conception pour mettre en relation les données non-structurées (typiquement les "documents") avec les données structurées (telles que des comptes clients provenant du CRM[3]). C'est un principe fondamental et fondateur du produit.

M-Files évite notamment de tomber le piège ultra-récurrent de la classification dans des répertoires physiques. Il autorise a posteriori des recherches selon des axes divers et combinables. Il détecte automatiquement les doublons, même quand le nom des fichiers est différent.

M-Files offre une panoplie complète de mécanismes pour gérer efficacement les dark data :

Connecteurs M-Files IML (Intelligent Metadata Layer) pour accéder à des gisements de données existantes : serveurs/systèmes de fichiers partagés en réseau, sites Sharepoint Online & Server, Box, Google Drive, OneDrive for Business, Amazon S3, Documentum, FileNetP8, OpenText Content Server, OpenText eDOCS, iManage, Laserfiche, CRM, ERP, et bases de données standards.
Connecteur M-Files GroundLink pour accéder depuis un coffre M-Files dans le cloud à des sources de données dites "on-premises" (= le "ground").
Services d'analyse automatique classique M-Files Information Extractor : extraction d'entités nommées, extraction de motifs.
Services d'analyse automatique intelligente (IA) M-Files Smart Classifier & Smart Metadata : auto-classification, auto-description.
Module M-Files Discovery de découverte et isolation de sous-ensemble de données
Vues d'auto-classification dynamiques : les données se rangent toutes seules en fonction des métadonnées qui leur ont été associées automatiquement ou manuellement.
Workflows métiers automatiques (sans intervention humaine) ou semi-automatiques (avec intervention humaine) de traitement : prise en compte par les équipes compétentes, gestion de la rétention, de l'archivage, des demandes RGPD, des audits, etc.
Sécurité flexible avec des droits d'accès pilotables dynamiquement par les cycles de vie métier, via les métadonnées des objets.

En conclusion, M-Files apporte une approche très opérationnelle, laissant les données là où elles se trouvent sans avoir à nécessairement les dupliquer physiquement en central pour les traiter. M-Files constitue également un outil de gouvernance de l'information, capable de mettre en lumière des données inaccessibles ou nativement peu exploitables, puis de les valoriser de façon sécurisée.

Malo Jennequin, Directeur Avant-Vente & Solutions, M-Files France

Pour en savoir plus, les équipes Serda Archimag ont le plaisir de vous inviter à une demi-journée webinaire exceptionnelle : "Réussir sa gouvernance de l'information numérique - Tendances, méthodes & solutions", jeudi 8 avril de 09h30 à 12h30.
Pour vous inscrire à ce webinaire gratuit, rendez-vous ici.