Publicité

Open data : comment extraire, fiabiliser et parfois anonymiser les données pour leur diffusion publique

  • opendataweb.gif

    Opendataweb
    Open data : un focus de la rédaction Archimag avec la société Numen.
  • Si l’open data est peu à peu devenu une obligation, nombre d’entités publiques peinent à le mettre en oeuvre. En cause : des données mal ou non identifiées, peu ou pas qualifiées et même parfois non valides. Voici comment faire, de l’extraction des données à leur diffusion publique, en passant par leur fiabilisation et, si nécessaire, l’anonymisation.

    Depuis le droit d’accès aux documents administratifs (loi de 1978), les obligations légales et réglementaires en matière d’open data n’ont cessé de se renforcer. Mettre à disposition des données gratuites et fiables constitue l’objet d’une politique publique. Ne pas s’y plier est facteur de risques : détérioration ou perte de données, non valorisation de données (frein à leur réutilisation pour de nouveaux services), image négative vis-à-vis des citoyens ou usagers (manque de transparence…). En outre, cela entretient une crainte quant à la disponibilité des données personnelles, au respect de la confidentialité des données ou à leur anonymisation.

    Qualité garantie

    Lors de ce focus de la rédaction d’Archimag, Denis Berthault, président du Groupement français de l'industrie de l'information (GFII), expert open data à Cap Digital, expliquera les enjeux et perspectives de l’open data pour les entités publiques productrices.

    Ce focus est conduit avec Numen. Cette société montrera comment le secteur public, les collectivités et le secteur parapublic peuvent concrètement parvenir à extraire leurs données pour leur diffusion publique.

    Numen est en effet en capacité de contributeur aux ressources open data de qualité à une échelle industrielle. Elle garantit la qualité des données mises à disposition de ses clients - c’est même pour elle un engagement de résultat. La réponse apportée tient en un système mixte faisant intervenir tant une technologie de machine learning - tout un département est consacré à cette activité - que des opérateurs aptes à confirmer les données extraites.

    Données piégées

    La démarche à suivre sera expliquée lors de ce focus. Elle comprend deux phases.

    • 1/ Phase en amont

    Cette phase permet d’identifier les gisements de données, quelles qu’elles soient, données structurées ou non structurées (analyse préalable). On a souvent affaire à des données “piégées” dans des documents, qu’il faut repérer et pouvoir extraire avec la méthode et la technologie voulues. Les données sont numérisées si besoin. Elles sont fiabilisées, éventuellement en les confrontant avec d’autres données pour les croiser, les enrichir… En dernier lieu, elles sont structurées pour les verser dans le système de restitution de l’entité (plateforme, portail…).

    • 2/ Phase en continu

    Les données ne sont pas figées, mais parfois disponibles en flux, évolutives et enrichies. Il s’agit alors d’installer des méthodes et processus qui permettent d’assurer leur mise à jour et diffusion en continu.

    Plus concrètement encore, deux retours d’expérience apporteront une illustration des bonnes pratiques à mettre en oeuvre. Ce sont les cas, d’une part, du l’Institut national de la propriété industrielle (INPI), avec l’exemple des liasses ou déclarations fiscales et de leurs données, faisant l’objet d’une modélisation graphique, et, d’autre part, du ministère de la Transition écologique et solidaire, avec le géoportail de l’urbanisme.

     

    Focus de la rédaction d’Archimag

    • Le mardi 1er octobre, 08h45-11h30
    • Lieu : Châteauform' City Liège - Saint-Lazare, 7 rue de Liège 75009 Paris

    ​​Pour vous inscrire : cliquez ici.

     

    À lire sur Archimag

    Le Mag

    Tout Archimag, à partir de 9,50 €
    tous les mois.

    Le chiffre du jour

    15
    C'est le nombre de pages numérisées issues des archives de la Société des Nations.

    Recevez l'essentiel de l'actu !