Publicité

Open data : comment traiter les données pour leur diffusion publique

  • focus open data Pixabay confetti-2571539_1920.jpg

    Définir impérativement la finalité de l'ouverture, très impactante sur le dimensionnement du projet.
    Définir impérativement la finalité de l'ouverture, très impactante sur le dimensionnement du projet.
  • Pour passer de l’intention à la réalisation d’un projet d’open data, il faut nécessairement se pencher sur ses données et leur exploitabilité. C’est le message transmis par le nouveau focus de la rédaction d’Archimag avec les interventions de Denis Berthault, président du Groupement français de l'industrie de l'information (GFII), expert open data à Cap Digital, de Numen, spécialiste de la transformation digitale, et les retours d’expérience de l’Inpi et du ministère de la Transition écologique et solidaire.

    “Ouvrir ses données, c’est adopter une nouvelle posture”, lance Denis Berthault, président du Groupement français de l'industrie de l'information (GFII) et expert open data à Cap Digital. Le public du focus d’Archimag organisé le 1er octobre aux côtés de Numen sur le thème “Open data : comment extraire, fiabiliser et parfois anonymiser les données pour leur diffusion publique” est ainsi averti.

    Maîtriser les données et leur ouverture

    Le monde d’aujourd’hui a un intense besoin de données. Pour les acteurs publics, ouvrir davantage leurs données doit se traduire par des réutilisations plus fréquentes et plus larges. Mieux vaut aussi qu’ils maîtrisent leurs données et leur ouverture, avant que d’autres s’en chargent par des moyens détournés et pour des résultats pas toujours souhaitables. L’actualité, regrette Denis Berthault, donne périodiquement des exemples de ces dérives.

    Le président du GFII rappelle les fondements de l’open data : Déclaration des droits de l’homme et du citoyen, loi Valter de 2015 pour la tarification et, surtout, loi Lemaire 2016-1321. Est ainsi posé un principe de droit à diffuser, avec la restriction de devoir parfois anonymiser, et ce dans un modèle de gratuité - l’option d’une diffusion payante est qualifiée de “parcours du combattant” par l’expert.

    Prévoir un contrat de licence

    De nombreux conseils sont délivrés : définir impérativement la finalité de l'ouverture, très impactante sur le dimensionnement du projet, ne pas investir dans des données qui n’en valent pas la peine, mutualiser à chaque fois que cela est possible (en particulier au niveau local), attention à l’instabilité qui entoure le RGPD et sa mise en oeuvre, prévoir un contrat de licence avec les personnes ou entités qui souhaitent réutiliser les données.

    Techniquement, différents niveaux d’ouverture sont constatés, du simple dépôt d’informations sur le web à la parfaite mise à disposition au format “linked RDF”, en passant par des formats non propriétaires moins contraignants.

    Il y a PDF et PDF !

    Quels que soient le projet et le scénario de réutilisation, la question du format des données est nécessairement abordée. Thierry Puisségur-Ripet, directeur des opérations chez Numen, décrit le travail de traitement des données. Il s’agit de les localiser, les identifier, les inventorier, les collecter. Mais il y a PDF et PDF ! Un PDF image, avec une image parfois très dégradée qui pourra jusqu’à empêcher une OCRisation, posera bien plus de problèmes qu’un “véritable” PDF au texte extractible.

    De même, il faut savoir traiter les doublons et faire des choix lorsque l’on est confronté à des séries de données non continues. L’impératif est de parvenir à maîtriser “une matière homogène”, martèle Thierry Puysségur-Ripet. Le prestataire fournit un travail continu avec un dialogue permanent avec ses clients. Une fois cernées les données exploitables, des processus automatisés sont mis en place, permettant l’industrialisation de l’ouverture.

    Traitement de la langue et d’intelligence artificielle

    Une précaution aura été prise en ce qui concerne les données à caractère personnel et leur anonymisation. François Chahuneau, directeur des technologies, décrit comment Numen utilise des technologies de traitement de la langue et d’intelligence artificielle pour appliquer des traitements automatisés aux “entités nommées” concernées.

    Données structurées et non structurées

    Un premier retour d’expérience est présenté par Tristan Imbert, responsable du pôle Registre national du Commerce et des Sociétés (RNCS) de l’Institut national de la propriété industrielle (Inpi). Les données de ce registre comprennent, d’une part, les informations d’immatriculation des entreprises (Siren, nom, adresse du siège…), transmises à l’Inpi sous

    format électronique structuré, et, d’autre part, les comptes annuels des sociétés, transmis sous format électronique non structuré. Numen, actuel prestataire de l’Inpi, œuvre quotidiennement à la gestion de ces PDF hétérogènes afin de les convertir en un format XML structuré et homogène, facilitant leur exploitation (données depuis 2017). Cette ouverture est gratuite ; aux différents acteurs, agrégateurs, entités publiques ou entreprises, de créer un compte auprès de l’Inpi et d’accepter les conditions d’utilisation (licence). Plus de 1 000 licences RNCS sont aujourd’hui attribuées.

    A partir de seulement 2 000 documents

    Le second retour d’expérience est celui du ministère de la Transition écologique et solidaire. Marc Léobet, chargé de mission à la direction de la recherche et de l’innovation (DRI), rappelle que le projet d’open data “SmartPLU” est mené conjointement par sa direction et la direction de l'habitat, de l'urbanisme et du paysage. Le but du projet est de simplifier l’accès à la règle et l’accès aux données d’urbanisme. Mais comment traiter les documents complexes que sont les plans locaux d’urbanisme (PLU) ? Marc Léobet fait appel à Numen pour une expérimentation de traitement soutenu par du machine learning. Un “proof of concept” (preuve de concept ou démonstration de faisabilité) est fourni. Il montre que l’exploitation par cette technologie de seulement 2 000 documents est possible. Différents prototypes sont lancés, permettant à la fois d’évaluer une politique publique, de connaître les règles applicables à telle parcelle et de connaître le plus grand potentiel constructible sur celle-ci. L’industrialisation est maintenant lancée, de même qu'une extension au bénéfice des servitudes d'utilité publiques (“risques et monuments historiques”) et, pour une autre direction générale, sur les plans de prévention des risques.

    À lire sur Archimag
    Les podcasts d'Archimag
    Saison 2, Ép. 9 - Sommes-nous devenus accros aux algorithmes ? Aux recommandations de nos réseaux sociaux ou encore aux IA génératives qui se démocratisent depuis plus d'un an ? Pour répondre à cette question, nous avons rencontré Luc de Brabandère. Il se définit comme un philosophe d’entreprise, un mathématicien, un professeur, mais aussi un heureux grand-père et un Européen convaincu. Ses multiples casquettes nourrissent ses divers travaux. Luc de Brabandère est notamment l'auteur de "Petite Philosophie des algorithmes sournois", publié aux éditions Eyrolles en octobre 2023. Pour le podcast d'Archimag, il nous livre ses réflexions sur les algorithmes et revient sur son parcours atypique.
    Publicité

    Serda Formations Data 2023