Article réservé aux abonnés Archimag.com

Big data : y aller ou pas ?

  • Couv big data.jpg

    Dans la course aux emplois dédiés aux données massives, les professionnels de l’infodoc devront rivaliser avec des statisticiens et des informaticiens pur jus. (Fotolia)
  • Dossier

    Si, dans les entreprises, les données s'accumulent, des stratégies big data ne s'y sont pas pour autant généralisées. Parce que les interrogations que le big data suscitent sont nouvelles, comme doivent être renouvelées autant les modèles de développement économiques, que les outils ou les compétences.

    Doit-on l'appeler big data ? Data déluge ? Données massives ? Une chose est sûre, un véritable tsunami numérique s'est abattu sur nos entreprises et nos organisations. Chaque jour, nous produisons collectivement 2,5 trillions de données soit 1 milliard de milliard de données (10​ puissance 18). Selon une étude commandée par IBM, il apparaît que 90 % des données disponibles aujourd'hui ont été créées au cours des deux dernières années seulement !

    Une autre enquête menée par le cabinet IDC évalue le volume de données générées par les objets connectés  à 40 zettaoctets (40 000 milliards de Go) en 2020. Et l'on pourrait continuer cette litanie d'études consacrées au big data : vertige garanti ! 

    Autant le dire tout de suite, à ce niveau de production, il est bien difficile pour les entreprises de se retrouver dans cette masse documentaire en explosion perpétuelle. En France notamment où le big data reste une notion obscure pour de nombreux dirigeants. 75 % d'entre elles sont en effet incapables de donner une définition du big data (1). Un chiffre préoccupant qu'il convient de relativiser car il concerne essentiellement les PME. Les grandes entreprises, quant à elles, sont déjà évangélisées sur le sujet. Il n'en reste pas moins qu'au niveau opérationnel, seules 18 % des entreprises interrogées par Opinion Way ont mis en place un programme dédié aux méga données. Deux facteurs expliquent cette situation : l'insuffisance des infrastructures informatiques (serveurs, logiciels...) capables de digérer d'importantes masses de données et la pénurie de ressources humaines en mesure d'exploiter ces volumes.

    Le marché français du big data représentait 285 millions d'euros en 2014. Il devrait s'élever à 652 millions d'euros en 2018 (2). La répartition de ce marché fait apparaître des gagnants et des perdants (relatifs) : c'est d'abord la filière infrastructure qui sera servie en premier avec la captation de 43 % du budget dédié au big data, suivie par les activités de service (33 %) et le logiciel (24 %). 

    Des entreprises dépassées par l'ampleur du big data

    Chez les archivistes, le stockage et la gestion des données massives sont en passe de bouleverser le métier : "Le big data a changé la donne et a fait apparaître de nouvelles méthodes, comme l'archivage sur place, l'entreprosage de données ou encore le stockage à court terme de contenus indexés, pour faciliter l'accès aux données", souligne Edward Lladky, président directeur général d'Iron Mountain France. Selon une enquête menée par le cabinet IDC pour le compte d'Iron Mountain, 64 % des entreprises françaises interrogées détiennent au moins six archives électroniques où sont stockées pêle-mêle des données structurées et non structurées. Et une partie importante d'entre elles (40 %) poursuivent ce type de stockage plutôt que de mettre en place un programme de big data.

    Résultat : "les entreprises sont dépassées par l'ampleur du big data et peinent à extraire de leurs archives des informations exploitables. Dans les entreprises qui archivent tout, les données se transforment 

    rapidement en marécages impraticables loin des "data lakes", ces lacs de données auxquels aspirent les entreprises qui ont une vision claire d'archivage", estime Edward Hladky. A ses yeux, quelques actions se révèlent indispensables : nommer un chief data officer (responsable des données), cartographier les sources d'information et observer une stratégie d'archivage cohérente.

    Data.bnf.fr : un portail précurseur 

    A ce jour, peu d'institutions culturelles sont passées à l'exploitation opérationnelles de leurs données. Parmi celles qui ont franchi le pas, la Bibliothèque nationale de France fait figure de précurseur avec son portail Data.bnf.fr. Mise en ligne dès le mois de juillet 2011, cette plateforme a pour ambition d'accroître la visibilité sur le web des innombrables ressources documentaires détenues par la BNF : catalogues, notices, documents numérisés... Une initiative bienvenue car peu d'internautes connaissent l'existence de ce patrimoine numérique à "forte valeur ajoutée". Grâce au modèle FRBR (3), les internautes peuvent accéder aux ressources de la BNF depuis une page web même s'ils ne connaissent pas les services de la Bibliothèque nationale de France.

    Après plusieurs années d'exploitation, la valorisation des données semble donner les résultats escomptés. Au mois de novembre 2014, le portail Data.bnf.fr recouvrait plus de 60 % des catalogues de la BNF soit environ 7 millions de documents issus du catalogue général et de l'entité "archives et manuscrits" de l'établissement. A la fin de cette année, le portail "vise une couverture presque totale des données de bonne qualité des catalogues", souligne-t-on à la BNF. A terme, la plateforme devrait intégrer un impressionnant volume de données de qualité : plus de 15 millions de données d'autorités et bibliographiques. "Cet accroissement du volume du site implique des évolutions techniques (performance, mise à jour des données) et ergonomiques du site", explique la Bibliothèque nationale de France. Un enjeu technique et documentaire d'autant plus important que la BNF doit aligner ses référentiels sur d'autres jeux de données du web notamment ceux produits par d'autres institutions publiques françaises. Et, à terme, offrir à ce patrimoine numérique l'audience qu'il mérite.

    Indispensable renouvellement des formations

    Du côté des professionnels de l'information-documentation, on réfléchit depuis plusieurs années déjà à l'impact du big data sur les métiers. Mais dans la course aux emplois dédiés aux données massives, les professionnels de l'infodoc devront rivaliser avec des statisticiens et des informaticiens pur jus. Comme le fait remarquer Ghislaine Chartron (directrice de l'INTD-Cnam), le big data ne représente pas, à lui seul, l'avenir des gestionnaires de l'information (voir entretien page 16).

    A l'échelle internationale, le congrès de l'Ifla qui s'est tenu en Afrique-du-Sud au mois d'août dernier, a permis aux bibliothécaires de rappeler qu'ils avaient l'habitude de gérer d'importants volumes de données : fichiers des lecteurs, références des catalogues en ligne, transactions avec les usagers, prêts entre bibliothèques... Les bibliothécaires ont également souligné que leurs compétences - et plus largement celles des professionnels de l'information - pouvaient être utiles dans la création de taxonomies et la conception de schémas de métadonnées.

    Mais c'est probablement du côté des formations (initiales et continues) que l'avenir se jouera. Lors d'une journée d'étude organisée par l'université de Rennes 2 au mois de mai dernier, Jean-Michel Salaün (ENS Lyon) plaidait pour un "indispensable renouvellement des formations en sciences de l'information". Une position qui se justifie à la lecture des offres d'emploi récentes : les métiers liés au traitement des données (data manager, chief data officer, chef de projet open data...) supposent de solides compétences informatiques... et donc une mise à niveau des compétences techniques. Le big data génère en effet de nombreuses tâches : identification des données, contrôle de leur qualité (fraîcheur, homogénéité, fréquence des mises à jour), nettoyage, application du cadre réglementaire... 

    Et a y regarder de plus près, les secteurs concernés (e-commerce, santé, services financiers...) pourraient bien avoir besoin de professionnels rompus au traitement documentaire des données massives. 

    ​(1) Sondage "Les entreprises et le big data" réalisé par Opinion Way pour le compte d'Axys Consultants.

    (2) Etude IDC pour l'équipementier HP "La dynamique du big data en France".

    (3) Le modèle FRBR (Functional requirements for bibliographic records ou Fonctionnalités requises des notices bibliographiques) est un modèle conceptuel de données bibliographiques.

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    Si, dans les entreprises, les données s'accumulent, des stratégies big data ne s'y sont pas pour autant généralisées. Les interrogations que le big data suscite sont nouvelles, comme les modèles de développement économiques, les outils ou les compétences.
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.
    Publicité