Article réservé aux abonnés Archimag.com

Archives et open data : les conditions de l’ouverture des données

  • open data archimag.jpg

    open-data
    les services d’archives mènent une politique volontariste de numérisation et de diffusion sur internet, fondée sur la sélection des documents les plus demandés par les chercheurs. (justgrimes via Visual Hunt / CC BY-SA)
  • Sommaire :

    Concernant la question de l’open data vis-à-vis des archives, il convient d’être attentif à deux éléments de cadrage particulièrement structurants : les indications issues de la loi pour une République numérique et du Code du patrimoine et celles relatives à l’emploi des différents formats de données.

    1. Évolutions légales

    La loi pour une République numérique a été promulguée le 7 octobre 2016. Elle est le fruit d’un processus inédit de consultation et de cocréation, qui a débuté fin 2014 par une concertation nationale sur les enjeux du numérique et s’est poursuivi à l’automne 2015 par une consultation en ligne sur le texte de l’avant-projet de loi. La loi entend encourager l’innovation et l’économie numérique, promouvoir une société numérique protectrice et garantir l’accès de tous au numérique. Certaines de ses dispositions doivent encore être précisées par des décrets (une quarantaine) d’ici le printemps 2017.

    Dans cette loi, l’article 6 prévoit que « les administrations mentionnées au premier alinéa de l’article L. 300-2 ne sont pas tenues de publier les archives publiques issues des opérations de sélection prévues aux articles L. 212-2 et L. 212-3 du Code du patrimoine ».

    Les services d'archives sont les collecteurs des archives papier et données numériques de toutes les autres administrations et des collectivités. À titre d'exemple, les archives départementales, qui sont financées par les départements, reçoivent les archives des services déconcentrés de l'État et de la plupart des organismes publics ayant leur siège dans le département. Leur imposer, à ce stade, une obligation de diffusion en ligne aurait constitué pour les services d'archives et leurs collectivités de tutelle une charge hors de portée.

    Politique volontariste de numérisation et de diffusion sur internet

    Pour autant, les services d'archives mènent une politique volontariste de numérisation et de diffusion sur internet, fondée sur la sélection des documents les plus demandés par les chercheurs : plus de 400 millions de documents numérisés sont déjà accessibles gratuitement en ligne sur leurs sites internet, ce qui en fait la première ressource culturelle en ligne après l'audiovisuel, et le mouvement se poursuit.

    Par ailleurs, il est prévu que « lorsqu'une demande faite en application du même article L. 213-3 porte sur une base de données et vise à effectuer des traitements à des fins de recherche ou d'étude présentant un caractère d'intérêt public, l'administration détenant la base de données ou l'administration des archives peut demander l'avis du comité du secret statistique institué par l'article 6 bis de la loi nº 51-711 du 7 juin 1951 sur l'obligation, la coordination et le secret en matière de statistiques. Le comité peut recommander le recours à une procédure d'accès sécurisé aux données présentant les garanties appropriées, dans des conditions fixées par décret en Conseil d'État ».

    Faciliter l'accès par les chercheurs aux grandes bases de données

    Cette disposition vise à faciliter l'accès par les chercheurs (en sciences économiques et sociales, en histoire...) aux grandes bases de données des administrations qui ne sont pas librement communicables parce qu'elles comportent des secrets protégés par la loi (secret de la vie privée en particulier, protégé pendant 50 ans). Le Code du patrimoine permettait déjà d'accorder, par dérogation et sur demande motivée, l'accès à des documents qui n'avaient pas encore atteint les délais légaux de communicabilité. Mais les producteurs de ces documents (ministères, établissements publics, etc.), dont l'accord est nécessaire avant toute ouverture, hésitaient à émettre des avis favorables pour les grandes bases de données nominatives, qu'ils jugeaient plus sensibles que des séries de dossiers papier. La nouvelle disposition vise à favoriser l'ouverture de ces grandes bases de données, dans des conditions sécurisées et à des fins de recherche d'intérêt public, en permettant au producteur, par le recours au comité du secret statistique, d'être éclairé quand il hésite et envisage d'émettre un avis négatif. Le service interministériel des archives de France (ministère de la Culture et de la Communication) pourra également saisir ce comité lorsqu'il aura des doutes sur la pertinence et la cohérence de l'avis du service producteur.

    2. Formalisme des données d’archive

    Le format des données numériques constitue un aspect essentiel de leur préservation. Certains formats ont des risques de pérennité plus élevés que d’autres, ce qui impose de déterminer le format le plus approprié au contenu que l’on souhaite préserver. Le contexte juridico-légal, associé à un contenu à préserver, peut imposer certains formats ; par exemple, le format soumis par un déposant au titre du dépôt légal doit être accepté, quel qu’il soit, car il correspond à la forme sous laquelle le contenu a fait l’objet d’une diffusion.

    Les critères permettant d’évaluer la viabilité d’un format dans un contexte de préservation sont notamment :

    • l’utilisation large du format. Existe-t-il plusieurs logiciels permettant de lire ce format ? A-t-il déjà été choisi comme format d’archivage par d’autres institutions ?
    • le caractère non propriétaire du format. Est jugé « exclusif » un format dont l’utilisation est régie par des brevets – qui souvent portent sur la construction de logiciels gérant leur format. Il faut également s’assurer que le format est ouvert, c’est-à-dire qu’il n’est pas lié à un logiciel ou une plateforme permettant de le lire ou de le manipuler.
    • l’ouverture du format. Un format dont les spécifications sont publiques a de meilleures garanties de durabilité ; en effet, dans le cas où le format cesse d’être maintenu par tout éditeur, il reste possible de reconstruire ex nihilo un outil permettant de lire ce format. Si les spécifications du format sont en outre normalisées à l’Iso ou au W3C, c’est un gage supplémentaire de la large adoption du format.
    • la disponibilité d’outils de validation et d’analyse de ces formats.

    Outre le format en lui-même, il faut être attentif à la manière dont il est utilisé, notamment :

    • la compression avec ou sans perte. Le format de compression doit être lui-même évalué comme un format à part entière par rapport aux critères ci-dessus (caractère ouvert, disponibilité de plusieurs logiciels de compression, etc.).
    • l’absence de mécanismes de protection de droits (DRM). Ce type de mécanisme inhibe généralement la recopie des fichiers, qui constitue une des conditions de leur préservation. Il est donc recommandé de préférer des fichiers sans DRM.

    Romain Talès
    Etalab, responsable du recensement des données publiques, product owner de la plateforme

    ​--> www.data.gouv.fr

    Périca Sucevic
    Conseiller juridique. Chef du pôle juridique. Direction interministérielle du numérique et du système d’information et de communication de l’Etat. Secrétariat général pour la modernisation de l’action publique

    Cet article vous intéresse? Retrouvez-le en intégralité dans le magazine Archimag !

    archimag-303
    Les données ouvertes sont un fait. Des données à qualifier, conserver, communiquer : typiquement du travail pour les archivistes ! Pourtant l’implication de ces professionnels dans les projets open data n’a encore rien d’évident.
    Acheter ce numéro  ou  Abonnez-vous

    À lire sur Archimag

    Le Mag

    Tout Archimag, à partir de 9,50 €
    tous les mois.

    Le chiffre du jour

    C'est le nombre d'avis émis par la Commission d'accès aux documents administratifs depuis 1978.

    Recevez l'essentiel de l'actu !

    Ex Libris banner.jpg

    Indispensable

    Bannière BDD.gif