L'année 2023 aura été particulièrement prolifique pour l'archivage du web français. 6 milliards d'URL ont été collectées par la Bibliothèque nationale de France qui est en charge du dépôt légal du web français depuis 2002. En plus de vingt ans de collecte, ce sont 2 000 téraoctets de données (2 pétaoctets) qui ont été archivés.
Le millésime 2023 est marqué par deux "collectes d'urgence" de plateformes ayant fermé à l’été 2023 : les skyblogs et les pages personnelles Orange. A elles seules, ces deux gisements représentent un volume de 1,9 milliard d’URL. Elles s'ajoutent aux collectes ciblées réalisées par la BnF qui ont permis de sauvegarder 4,4 milliards d'URL.
Assurer la meilleure représentativité possible du web français
"La BnF réalise des « moissonnages » de l’internet français une fois par an lors de sa collecte annuelle, mais aussi plus régulièrement à l’occasion de collectes ciblées, en lien avec les collections thématiques et spécialisées de ses départements ou avec l’actualité nationale et internationale (guerre en Ukraine, échéances électorales, Jeux olympiques...)" explique la Bibliothèque nationale de France. Objectif : assurer la meilleure représentativité possible du web français.
Parmi les sites moissonnés figurent également certains réseaux sociaux (YouTube, Instagram, TikTok) et les podcasts. En revanche, le passage de Twitter à X rend désormais impossible sa collecte par les robots de la BnF.
L'année 2024 sera marquée par de nouvelles collectes ciblées portant notamment sur les Jeux olympiques et les élections européennes.
Afin de respecter le droit de la propriété intellectuelle, les contenus archivés ne sont pas accessibles en ligne. Ils peuvent cependant être consultés sur des postes informatiques situés à la BnF ainsi que dans plusieurs dizaines de bibliothèques partenaires en région et en outre-mer.
Sur le même thème : Archives du web : les conseils de Sophie Gebeil aux historiens et aux chercheurs