Publicité

Archivage du web : la BnF a collecté 6 milliards d'URL en 2023

  • archivage_web_bnf.jpg

    Archivage-web-BnF-collecte-6-milliards-URL-2023
    La BnF a procédé à deux "collectes d'urgence" de plateformes ayant fermé à l’été 2023 (Freepik Premium / Faceslab)
  • En charge du dépôt du web depuis 2002, la Bibliothèque nationale de France a déjà archivé 2 pétaoctets de données.

    L'année 2023 aura été particulièrement prolifique pour l'archivage du web français. 6 milliards d'URL ont été collectées par la Bibliothèque nationale de France qui est en charge du dépôt légal du web français depuis 2002. En plus de vingt ans de collecte, ce sont 2 000 téraoctets de données (2 pétaoctets) qui ont été archivés.

    Le millésime 2023 est marqué par deux "collectes d'urgence"  de plateformes ayant fermé à l’été 2023 : les skyblogs et les pages personnelles Orange. A elles seules, ces deux gisements représentent un volume de 1,9 milliard d’URL. Elles s'ajoutent aux collectes ciblées réalisées par la BnF qui ont permis de sauvegarder 4,4 milliards d'URL.

    Assurer la meilleure représentativité possible du web français

    "La BnF réalise des « moissonnages » de l’internet français une fois par an lors de sa collecte annuelle, mais aussi plus régulièrement à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou avec l’actualité nationale et internationale (guerre en Ukraine, échéances électorales, Jeux olympiques...)" explique la Bibliothèque nationale de France. Objectif : assurer la meilleure représentativité possible du web français.

    Parmi les sites moissonnés figurent également certains réseaux sociaux (YouTube, Instagram, TikTok) et les podcasts. En revanche, le passage de Twitter à X rend désormais impossible sa collecte par les robots de la BnF.

    L'année 2024 sera marquée par de nouvelles collectes ciblées portant notamment sur les Jeux olympiques et les élections européennes.

    Afin de respecter le droit de la propriété intellectuelle, les contenus archivés ne sont pas accessibles en ligne. Ils peuvent cependant être consultés sur des postes informatiques situés à la BnF ainsi que dans plusieurs dizaines de bibliothèques partenaires en région et en outre-mer.

    Sur le même thème : Archives du web : les conseils de Sophie Gebeil aux historiens et aux chercheurs     

    À lire sur Archimag
    Les podcasts d'Archimag
    Saison 2, Ép. 9 - Sommes-nous devenus accros aux algorithmes ? Aux recommandations de nos réseaux sociaux ou encore aux IA génératives qui se démocratisent depuis plus d'un an ? Pour répondre à cette question, nous avons rencontré Luc de Brabandère. Il se définit comme un philosophe d’entreprise, un mathématicien, un professeur, mais aussi un heureux grand-père et un Européen convaincu. Ses multiples casquettes nourrissent ses divers travaux. Luc de Brabandère est notamment l'auteur de "Petite Philosophie des algorithmes sournois", publié aux éditions Eyrolles en octobre 2023. Pour le podcast d'Archimag, il nous livre ses réflexions sur les algorithmes et revient sur son parcours atypique.
    Publicité

    Serda Formations Archives 2023

    Indispensable

    Bannière BDD.gif