Publicité

Les dark data, une richesse à exploiter… à bon escient

  • BouleCristal.jpg

    Boulecristal.jpg
    Les dark data¸ ou données non structurées et non analysées, représenteraient près de 90% des données en circulation.
  • Depuis plusieurs mois, les dark data font parler d’elles dans la communauté numérique. Mi-mai dernier, la presse spécialisée relayait l’information selon laquelle Apple avait déboursé 200 millions de dollars pour racheter une jeune entreprise spécialisée dans la recherche et la catégorisation des dark data. De quoi s’agit-il et quels en sont les réels enjeux ? Tentons de faire la lumière sur ces « données obscures ».

    Les données non identifiées comme utiles deviennent des dark data

    Notons d’abord que les dark data ne doivent pas être confondues avec le dark web, qui désigne une petite partie du web non indexé (ou deep web), uniquement accessible via des logiciels spécifiques et réputé pour héberger des sites illégaux. Les dark data¸ ou données non structurées et non analysées, représenteraient près de 90% des données en circulation. Mails, documents papiers, photos, vidéos ou portions d’information disparates – les dark data sont tous types d’information que les organisations gênèrent, collectent, traitent, mais ne réutilisent généralement pas. Par exemple, de nombreuses personnes utilisent leurs téléphones personnels et leurs tablettes à des fins professionnelles, ou stockent sur des plateformes publiques non sécurisées des données issues de l’entreprise. Si ces comportements ne révèlent pas de mauvaise intention mais plutôt un souci d’efficacité, ils indiquent aussi une méconnaissance des conséquences possibles. Car ces données deviennent des dark data justement parce que leurs utilisateurs ne les identifient pas comme potentiellement utiles. Autre exemple : les caméras de surveillance dans les parkings de supermarché, dont les images, si elles étaient systématiquement analysées, révéleraient sans doute de nombreuses informations sur les flux de circulation, les heures d’affluence, ou encore le type de population fréquentant la zone en fonction de l’heure de la journée…

    L’entreprise ne peut pas - et n’a pas vocation à - exploiter toutes les données qu’elle génére

    Il existe bien trop de données en circulation pour que tout puisse être exploité. Quand on pense qu’une pile de 100000 DVD de 4,7 giga octets chacun peut être remplie de nouvelles données en à peine 16 secondes, on se rend compte des limites de l’exercice.

    En 2020, l’univers numérique sera constitué de plus de 40 zetta octets (1021 octets) de données, dont plus d’un tiers pouvant être considérées comme de valeur. Identifier, stocker et analyser les dark data de façon ciblée, en utilisant les technologies en pleine expansion que sont la reconnaissance de formes, l’analyse cognitive, la vision par ordinateur, le machine learning, mais aussi adopter les bonnes pratiques qui sécurisent ces informations, constituera bientôt le prolongement d’une dynamique déjà largement adoptée en entreprise, concernant la gestion du patrimoine informationnel et le partage de données.

    En attendant que les ordinateurs offrent des puissances de calcul suffisamment importantes à la portée de tous, il vaudra toujours mieux ne pas trop fantasmer et garder la tête froide, en se demandant toujours : « de quoi ai-je besoin ? Vais-je le trouver dans les dark data ? », avant de commencer à exploiter les données de tous bords. Certes les dark data sont une richesse informationnelle à connaître et à ne pas sous-estimer. Mais entre l’illusion de la maîtrise totale de son environnement informationnel et les limites technologiques et humaines imposées par la réalité, le pragmatisme et la réflexion restent les meilleurs atouts des décideurs.

     

    logo kb crawl.png

    Bruno ETIENNE

    Président de KB Crawl SAS

    01 41 29 05 02

    Site internet

    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.
    Publicité

    Serda Formations Data 2023