Publicité

Archivage du web : la BnF a collecté 6 milliards d'URL en 2023

  • archivage_web_bnf.jpg

    Archivage-web-BnF-collecte-6-milliards-URL-2023
    La BnF a procédé à deux "collectes d'urgence" de plateformes ayant fermé à l’été 2023 (Freepik Premium / Faceslab)
  • En charge du dépôt du web depuis 2002, la Bibliothèque nationale de France a déjà archivé 2 pétaoctets de données.

    L'année 2023 aura été particulièrement prolifique pour l'archivage du web français. 6 milliards d'URL ont été collectées par la Bibliothèque nationale de France qui est en charge du dépôt légal du web français depuis 2002. En plus de vingt ans de collecte, ce sont 2 000 téraoctets de données (2 pétaoctets) qui ont été archivés.

    Le millésime 2023 est marqué par deux "collectes d'urgence"  de plateformes ayant fermé à l’été 2023 : les skyblogs et les pages personnelles Orange. A elles seules, ces deux gisements représentent un volume de 1,9 milliard d’URL. Elles s'ajoutent aux collectes ciblées réalisées par la BnF qui ont permis de sauvegarder 4,4 milliards d'URL.

    Assurer la meilleure représentativité possible du web français

    "La BnF réalise des « moissonnages » de l’internet français une fois par an lors de sa collecte annuelle, mais aussi plus régulièrement à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou avec l’actualité nationale et internationale (guerre en Ukraine, échéances électorales, Jeux olympiques...)" explique la Bibliothèque nationale de France. Objectif : assurer la meilleure représentativité possible du web français.

    Parmi les sites moissonnés figurent également certains réseaux sociaux (YouTube, Instagram, TikTok) et les podcasts. En revanche, le passage de Twitter à X rend désormais impossible sa collecte par les robots de la BnF.

    L'année 2024 sera marquée par de nouvelles collectes ciblées portant notamment sur les Jeux olympiques et les élections européennes.

    Afin de respecter le droit de la propriété intellectuelle, les contenus archivés ne sont pas accessibles en ligne. Ils peuvent cependant être consultés sur des postes informatiques situés à la BnF ainsi que dans plusieurs dizaines de bibliothèques partenaires en région et en outre-mer.

    Sur le même thème : Archives du web : les conseils de Sophie Gebeil aux historiens et aux chercheurs     

    À lire sur Archimag
    Les podcasts d'Archimag
    Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.

    Serda Formations Archives 2023

    Indispensable

    Bannière BDD.gif