Article réservé aux abonnés Archimag.com

Droit : comment faire du scraping de données en toute légalité ?

  • scraping_web.jpg

    web-scraping
    Concrètement, le scraping de données consiste à récupérer des données via un programme, un script qui va parcourir un site web et extraire les données et les stocker dans le but de les réutiliser sur son propre site. (Pixabay/markusspiske)
  • Si les données constituent l’un des principaux actifs immatériels des entreprises, la légalité du processus de collecte automatisée - ou scraping de données - est un préalable indispensable pour pouvoir valoriser ultérieurement ce patrimoine informationnel.

    1. Scraping vs mise à disposition d’API
    2. Métadonnées juridiques associées à un jeu de données
    3. État du droit applicable au scraping
    4. Retour d’expérience sur une pratique de scraping légal

    Avant de pouvoir exploiter les données, il faut les collecter. Il existe différents moyens de collecter des data : soit manuellement, ce qui peut nécessiter un temps considérable lorsqu’on cherche à disposer d’un volume important, soit au moyen de méthodes automatiques, via des logiciels permettant d’obtenir une quantité importante d’informations dans un laps de temps record (action de « scraper »).

    De plus en plus de sociétés ont recours au « web scraping » pour récupérer le contenu des sites afin d’enrichir leur propre base ou de générer de nouveaux business. La question de la légalité de cette activité est souvent traitée tardivement, notamment par les investisseurs dans le cadre de la « due diligence » (diligence raisonnable) ou encore au moment de la démarche de mise en conformité RGPD.

    Scraping et non crawling

    « Scraping » est un terme anglais signifiant littéralement « grattage », qu’il ne faut pas confondre avec le « web crawling », pratique d’indexation des données sur les moteurs. Appliqué au web, le terme renvoie à une technique d’extraction automatisée de contenu structuré. Concrètement, la récupération de données est effectuée par un programme, un script qui va parcourir un site web et extraire les données et les stocker dans le but de les réutiliser sur son propre site.

    Mais comment le droit qualifie-t-il et encadre-t-il la collecte des données, particulièrement lorsqu’elle est opérée par des robots ?

    1. Scraping vs mise à disposition d’API

    Le scraping est différent de l’usage d’une interface de programmation applicative (API) permettant au site source de contrôler le transfert des données aux tiers réutilisateurs en fournissant un accès gratuit ou payant.

    La méthode la plus courante pour réaliser un scraping légal de données est de recenser et de récupérer des données publiques distribuées sous une licence libre et ouverte. En France il s’agira nécessairement de l’une des licences énumérées dans le décret n° 2017-638 du 27 avril 2017 relatif aux licences de réutilisation de l’open data.

    Mais au moment des débats sur la création d’un service public de la donnée, consacrée par le décret n° 2017-331 du 14 mars 2017, une partie des praticiens se prononçait pour la création d’un service public de mise à disposition des API de données publiques de référence. Malheureusement, cette proposition n’a pas été imposée comme un corollaire obligatoire pour ces données essentielles.

    En l’état, c’est donc à chacun des acteurs concernés de financer et de mettre en place des pratiques de scraping des données publiques plutôt que de faire reposer cet investissement initial et mutualiser sur les principaux producteurs de données publiques.

    2. Métadonnées juridiques associées à un jeu de données

    Le scraping connaît un regain d’intérêt depuis 2010 avec l’apparition des activités de « growth hacking ». La constitution de base de données de prospects et le scraping des réseaux sociaux est une pratique courante chez les growth hackers. Comment encadrer juridiquement la récupération et la réutilisation des données privées ?

    Les derniers travaux collaboratifs portés par l’écosystème Privacy Tech, notamment initiés dans le cadre de Design Your Privacy, cherchent à créer un référentiel des CGR (pour passer des « conditions générales d’utilisation » aux « conditions générales de réutilisation ») afin de redonner concrètement le co....
    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
    Digitalisation, innovation, hyper-connexion, accélération du changement : les pros de l’infodoc ne passent pas entre les gouttes ! Comment documentalistes, veilleurs, bibliothécaires et archivistes voient-ils leur avenir ?
    Acheter ce numéro  ou  Abonnez-vous
    À lire sur Archimag
    Le chiffre du jour
    des bibliothèques proposant des ressources numériques ont constaté depuis le début du confinement une augmentation des usages de leurs ressources en ligne, selon une enquête flash menée par le ministère de la Culture fin mars 2020.
    Recevez l'essentiel de l'actu !
    Publicité

    Data 2020.PNG