Archivage du web : la BnF a collecté 6 milliards d'URL en 2023

  • archivage_web_bnf.jpg

    Archivage-web-BnF-collecte-6-milliards-URL-2023
    La BnF a procédé à deux "collectes d'urgence" de plateformes ayant fermé à l’été 2023 (Freepik Premium / Faceslab)
  • En charge du dépôt du web depuis 2002, la Bibliothèque nationale de France a déjà archivé 2 pétaoctets de données.

    L'année 2023 aura été particulièrement prolifique pour l'archivage du web français. 6 milliards d'URL ont été collectées par la Bibliothèque nationale de France qui est en charge du dépôt légal du web français depuis 2002. En plus de vingt ans de collecte, ce sont 2 000 téraoctets de données (2 pétaoctets) qui ont été archivés.

    Le millésime 2023 est marqué par deux "collectes d'urgence"  de plateformes ayant fermé à l’été 2023 : les skyblogs et les pages personnelles Orange. A elles seules, ces deux gisements représentent un volume de 1,9 milliard d’URL. Elles s'ajoutent aux collectes ciblées réalisées par la BnF qui ont permis de sauvegarder 4,4 milliards d'URL.

    Assurer la meilleure représentativité possible du web français

    "La BnF réalise des « moissonnages » de l’internet français une fois par an lors de sa collecte annuelle, mais aussi plus régulièrement à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou avec l’actualité nationale et internationale (guerre en Ukraine, échéances électorales, Jeux olympiques...)" explique la Bibliothèque nationale de France. Objectif : assurer la meilleure représentativité possible du web français.

    Parmi les sites moissonnés figurent également certains réseaux sociaux (YouTube, Instagram, TikTok) et les podcasts. En revanche, le passage de Twitter à X rend désormais impossible sa collecte par les robots de la BnF.

    L'année 2024 sera marquée par de nouvelles collectes ciblées portant notamment sur les Jeux olympiques et les élections européennes.

    Afin de respecter le droit de la propriété intellectuelle, les contenus archivés ne sont pas accessibles en ligne. Ils peuvent cependant être consultés sur des postes informatiques situés à la BnF ainsi que dans plusieurs dizaines de bibliothèques partenaires en région et en outre-mer.

    Sur le même thème : Archives du web : les conseils de Sophie Gebeil aux historiens et aux chercheurs     

    À lire sur Archimag
    Les podcasts d'Archimag
    La mise à disposition des décisions de justice en Open Data a vu le jour grâce à la loi pour une République numérique votée en 2016. Les articles 20 et 21 prévoient la mise en open data des quatre millions de décisions de justice produites chaque année par les tribunaux français. Camille Girard-Chanudet est chercheuse en sociologie au sein du Centre d’étude des mouvements sociaux. En 2023, elle a soutenu une thèse devant l’École des hautes études en sciences sociales (EHESS) : "La justice algorithmique en chantier, sociologie du travail et des infrastructures de l’intelligence artificielle". Dans ce cadre elle a rencontré les équipes de la Cour de cassation qui procèdent à l’anonymisation des décisions de justice.

    Serda Formations Archives 2025

    Indispensable

    Bannière BDD.gif