Article réservé aux abonnés Archimag.com

Anonymisation et pseudonymisation au coeur de l'open data judiciaire

  • open-data-judiciaire.jpg

    open-data-judiciaire-decisions-justices-enquete
    En novembre 2022, 661 520 décisions avaient été mises en ligne en open data. (Canva)
  • Près de 700 000 décisions de justice sont désormais mises à disposition des citoyens en open data. Ce mouvement d’ouverture est cependant encadré par une obligation d’anonymisation des données à caractère personnel qui repose sur un important chantier documentaire.

    mail Découvrez Le Brief de la Démat, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de la dématérialisation et de la transformation numérique !

    Chaque année, plus de 3 millions de décisions sont rendues par les juridictions françaises. Depuis 2021, ces décisions sont progressivement mises à disposition de tous les citoyens dans le cadre de l’open data des décisions de justice.

    Ce mouvement d’ouverture des données trouve son origine dans la loi pour une République numérique de 2016, qui prévoit l’ouverture par défaut des données des administrations et des collectivités publiques.

    "Les décisions de justice font partie de cette règle d’ouverture, mais leur spécificité et le caractère sensible des informations qu’elles contiennent nécessitent la création d’un cadre distinct", explique-t-on au ministère de la Justice.

    Lire aussi : Ces start-up qui voguent sur l'open data

    Un ensemble de lois et de décrets précise en effet un certain nombre de limites, notamment celles relatives à la protection de la vie privée et à la sécurité des personnes mentionnées dans les décisions.

    Ainsi, seules les décisions rendues publiquement sont concernées par l’open data. Les noms et prénoms des personnes physiques, lorsqu’elles sont parties ou tiers, sont systématiquement occultés. Précaution supplémentaire : des éléments d’identification complémentaires peuvent être occultés à la demande du magistrat ou du président de juridiction en cas de risque pour la vie privée ou la sécurité des personnes.

    enquete_open_data_judiciaire_vince.jpg

      Intelligence artificielle et validation humaine

      Ces occultations sont réalisées par la Cour de cassation et le Conseil d’État. La Cour de cassation fait figure de précurseure en matière d’open data, avec un premier lot d’environ 20 000 décisions rendues publiques dès le mois de septembre 2021. L’institution s’est dotée d’une équipe qui compte des spécialistes de la donnée (data scientist), des développeurs et des designers. Autant de compétences qui s’attellent depuis plusieurs années à ce complexe chantier d’occultation des données à caractère personnel.

      L’anonymisation d’une décision de justice obéit à un certain nombre d’étapes qui conjuguent intelligence artificielle et validation humaine. Après avoir été rendue publique, la décision est versée dans une base de données hébergée au sein de la Cour de cassation.

      Un algorithme d’apprentissage automatique (machine learning) procède alors à une première anonymisation, qui est ensuite validée (ou corrigée) humainement. À ce stade, deux entités sont visées - le nom et le prénom -, ainsi que des éléments susceptibles de permettre la réidentification : adresse postale, numéro de téléphone, date de naissance, plaque d’immatriculation… "Mais la décision doit rester lisible et intelligible", précise la Cour de cassation. Elle pourra alors être mise à disposition de tous les internautes via un moteur de recherche.

      Lire aussi : L'open data des décisions de justice provoque une controverse entre le GFII et la société Predictice

      3 millions de décisions par an

      Derrière ce traitement documentaire, le projet Label (Logiciel d’anonymisation d’une base enrichie labellisée) a duré près d’une année et présente la particularité d’avoir été développé en interne. Il permet de réaliser des relectures différenciées en fonction des instructions des magistrats.

      L’outil est désormais régulièrement utilisé par la Cour de cassation et sa capacité d’anonymisation est progressivement passée de 15 000 décisions en 2021 à 250 000 dès l’année suivante. En vitesse de croisière, Label aura vocation à traiter 3 millions de décisions par an qui seront mises en ligne sur le service Judilibre, hébergé sur le site de la Cour de cassation.

      Tout citoyen désireux de s’informer sur une décision peut d’ores et déjà accéder à plusieurs dizaines de milliers de documents anonymisés. Quant aux réutilisateurs (éditeurs juridiques, entreprises des technologies du droit, etc.), ils peuvent également s’y abreuver pour procéder à des analyses de contentieux et de jurisprudence.

      Anonymisation et pseudonymisation des données à caractère personnel

      Malgré toutes les précautions prises par les juristes et les spécialistes de la donnée, nul n’est à l’abri d’une erreur. Un droit d’accès et de rectification a donc été institué, permettant à toute personne de demander la correction des informations personnelles inexactes ou incomplètes la concernant. Au Conseil d’État et à la Cour de cassation, ces demandes de rectification peuvent être adressées aux délégués à la protection des données personnelles (DPO).

      Outre le procédé d’anonymisation, il existe également une procédure distincte : la pseudonymisation. Elle est réalisée "de telle façon que celles-ci [NDLR Les données à caractère personnel] ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires", explique la Cnil ; "pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable".

      La Cnil précise que la mise en œuvre de la pseudonymisation complique donc l’identification des personnes, mais qu’elle n’a pas pour effet de l’empêcher totalement (à la différence de l’anonymisation).

      Lire aussi : Open data : La Mayenne lance sa plateforme d’accès à la donnée

      Quant à la réutilisation des décisions de justice, elle obéit elle aussi à un certain nombre de règles. Le réutilisateur est responsable de traitement des données contenues dans ce document, au sens des dispositions du RGPD.

      D’ici la fin de l’année 2023, de nouvelles mises à disposition de décisions civiles seront réalisées ; celles rendues par neuf tribunaux judiciaires : Bobigny, Bordeaux, Lille, Lyon, Marseille, Paris, Rennes, Saint-Denis (La Réunion) et Versailles. Autant de mises à disposition qui viennent compléter la diffusion de la jurisprudence actuelle sur Légifrance.

      À l’heure où la défiance à l’égard de l’État atteint un niveau record, ce chantier vise également à "permettre une meilleure connaissance de la justice, à favoriser l’accès au droit et à renforcer la confiance des citoyens dans leur justice", explique le ministère de la Justice.

      Un calendrier qui court jusqu’en 2025

      Au mois de novembre 2022, 661 520 décisions avaient été mises en ligne en open data. Lancé depuis plusieurs années, le mouvement d’ouverture des données de justice est loin d’être achevé. Il se déroulera selon un calendrier qui court sur plusieurs années :

      • depuis septembre 2021 : décisions du Conseil d’État et de la Cour de cassation ;
      • depuis mars 2022 : les cours administratives d’appel ;
      • depuis avril 2022 : les cours d’appel en matière civile, sociale et commerciale ;
      • depuis juin 2022 : les tribunaux administratifs ;
      • depuis juin 2023 : les conseils de prud’hommes ;
      • décembre 2024 : les tribunaux de commerce et les décisions en première instance en matière pénale ;
      • septembre 2025 : les décisions en première instance en matière civile ;
      • décembre 2025 : les procédures criminelles et les cours d’appel en matière pénale.
      Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !
      IA-nouvelles-technos-service-public
      Amélioration de la gestion des ressources, simplification des démarches administratives, automatisation de tâches répétitives, renseignement des citoyens… L’IA et les nouvelles technologies ont ouvert de nouvelles perspectives au service public. Mais quels sont leurs enjeux éthiques et sociétaux ainsi que leurs applications concrètes dans les domaines de la justice, de la lutte contre la fraude, de la cybersécurité et de la gestion de la relation citoyen?
      Acheter ce numéro  ou  Abonnez-vous
      À lire sur Archimag
      Les podcasts d'Archimag
      Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

      Serda Formations Data 2023