Valoriser ses (big) data : tout se joue lors de l'inventaire

Le 24/09/2018 (Mis à jour le 06/02/2025 ) Pierre Ponlevé

inventaire_bigdata.jpg

Dans une même entreprise, plusieurs départements peuvent être concernés par la mise en place et l’utilisation du big data : informatique, commercial, marketing... (Freepik)

Valoriser ses données, ou data, nécessite de savoir lesquelles on souhaite répertorier et comment procéder. De solides points de repère doivent être abordés pour mener à bien le projet.

Denis Molin, senior data scientist, et Chafika Chettaoui, responsable data science and industrial consultant chez Teradata France, expliquent qu’il ne s’agit plus pour les entreprises d’hésiter ou de se demander s’il faut ou non gouverner et gérer leurs données. La question porte plutôt sur la façon la plus fiable et la plus efficace de réaliser l’inventaire de l’ensemble des données et de les rendre exploitables pour de meilleures prises de décision business.

Le big data, ou données massives, désigne des ensembles de données devenus si volumineux qu’ils dépassent l’intuition et les capacités humaines d’analyse et même celles des outils informatiques classiques de gestion de base de données ou d’information. Il faut donc développer tout un univers informatique capable de traiter ces masses importantes de données.
Cet ensemble de données a son utilité certaine en entreprise. Selon le PDG de Visionnary Marketing, Yann Gourvennec, « le big data permet d’écouter, de détecter les tendances et d’analyser son e-réputation ». Il est donc très avantageux pour les entreprises de faire l’inventaire de ces données pour une utilisation accrue, comme le pratique par exemple Teradata. « Prenez l’image d’une bibliothèque, les ouvrages sont indexés par titre ou par auteur pour permettre de les stocker et les retrouver rapidement. Nous pourrions dire la même chose du stockage des données. Dans le cas de Teradata, nous proposons une bibliothèque intelligente pour une exploitation intelligente, immédiate et sans limites des données ».

« De nombreuses organisations engagent ce type de projet », poursuivent Denis Molin et Chafika Chettaoui. « La question du coût d’une telle démarche ne vaut plus : le stockage des données et leur exploitation sont compris comme un outil business permettant la création de valeur. Comprenons que la “business value” issue d’une exploitation intelligente des données sera toujours plus importante que l’investissement de départ. Ce dernier sera rapidement amorti par la disponibilité des informations et l’aide apportée dans les prises de décision ».

« Nos solutions arrivent à répondre rapidement aux requêtes simultanées qu’elles reçoivent. Ce qui compte le plus, c’est la réactivité », déclare le senior data scientist.

Localiser ses fichiers

Plusieurs points sont à déterminer pour réaliser son inventaire. Il faut localiser ses fichiers : où les données sont-elles stockées, sur les serveurs du siège de l’entreprise ou d’autres locaux ? Sur des ordinateurs portables ? Les cas de figure ne manquent pas. Seront à prendre en compte la taille des fichiers, leur degré de confidentialité, etc.

Il faut savoir que les données opérationnelles de l’entreprise sont stockées dans des bases de données (BDD ou DB pour database), le plus souvent structurées et relationnelles. Le concept de lac de données, ou « data lake », s’avère particulièrement pertinent pour de gros volumes de données dont on ne connaît pas a priori les structures analytiques. Il est complémentaire de l’entrepôt de données, ou « data warehouse », une base de données relationnelle pensée et conçue pour les requêtes et les analyses de données.

Pour pouvoir classer intelligemment ses data en fonction de ses besoins, il existe différentes bases de données et différents systèmes de gestion de bases de données (SGBD).

Un entrepôt de données est généralement accessible en lecture seule ; les données sont organisées selon les contraintes métier plutôt que selon les traitements informatiques.

De nombreuses bases de données sont disponibles

La base de données est un système qui enregistre des informations. En informatique, on classe généralement les bases de données en fonction de leur approche organisationnelle. Il en existe de nombreux types :

les bases de données hiérarchiques, qui comptent parmi les plus anciennes bases de données. Au sein de cette catégorie, les enregistrements sont organisés dans une structure d’arborescence ;
les bases de données réseaux, qui font également partie des premières BDD développées. Plutôt que de proposer des liens uniques entre différents ensembles de données à divers niveaux, les bases de données réseau créent des liens multiples entre les ensembles ;
les bases de données orientées texte. Une database orientée texte, ou « flat file database », se présente sous la forme d’un fichier (une table) au format .txt ou .ini ;
les bases de données SQL, relationnelles. Les bases de données relationnelles sont des documents tabulaires dans lesquels les données sont définies afin d’être accessibles et de pouvoir être réorganisées de différentes manières. L’API standard pour les bases de données relationnelles est le Structured Query Language (SQL).
les bases de données distribuées. Une BDD distribuée est une database dont certaines portions sont stockées à plusieurs endroits physiques ;
les bases de données cloud. Ces BDD sont optimisées ou directement créées pour les environnements virtualisés. Il peut s’agir d’un cloud privé, d’un cloud public ou d’un cloud hybride ;
les bases de données NoSQL. Elles sont utiles pour les larges ensembles de données distribuées. Avec l’essor du big data, les bases de données NoSQL sont de plus en plus utilisées ;
les bases de données orientées objets. Plutôt que d’être organisées autour d’actions, les bases de données orientées objets sont organisées autour d’objets. Par exemple, un enregistrement multimédia au sein d’une BDD relationnelle peut être défini comme un objet de données plutôt que comme une valeur alphanumérique ;
les bases de données orientées graph. Ce sont un type de database NoSQL utilisant la théorie des graphes pour stocker, cartographier et effectuer des requêtes sur les relations entre les données. Les bases de données graph sont constituées de nœuds et de bords.

Proposer des services personnalisés

Pour Yann Gourvennec, « le big data donne l’opportunité de démocratiser le marketing “1 to 1”, pour proposer des services personnalisés. Clairement, le big data, c’est l’acquisition de données en masse que l’on va ensuite analyser, conserver, stocker, pour enfin les utiliser de plusieurs manières ».

Dans une même entreprise, plusieurs départements peuvent être concernés par la mise en place et l’utilisation du big data : informatique, commercial, marketing... Les services marketing font le plus appel au big data. Ils sont considérés comme précurseurs dans la mise en place de nouvelles stratégies.

À travers ces services, le big data répond à plusieurs enjeux pour l’entreprise. En plus d’améliorer l’expérience client, il permet de mieux comprendre les comportements des prospects et des clients pour pouvoir anticiper les besoins et adapter les campagnes marketing.