Publicité

La BnF lance sa campagne annuelle de collecte du web français

  • bnf_web.jpg

    BnF-lance-campagne-annuelle-collecte-web-francais
    Plus de 5,8 millions de sites web collectés en 2025 (© Guillaume Murat/BnF)
  • La Bibliothèque nationale de France procède actuellement à sa 21ème collecte dans le cadre du dépôt légal du web.

    Plus de 5,8 millions de noms de domaines. Tel est le programme de la "collecte large" réalisée actuellement par la Bibliothèque nationale de France au titre du dépôt légal du web. Cette 21ème collecte porte sur les sites web dont les producteurs sont domiciliés en France ou dont les données sont hébergées en France.

    La liste des sites collectée est communiquée à la BnF par des bureaux d’enregistrement partenaires comme l'Afnic (Association française pour le nommage de l’internet en coopération) et OVH. En moins de vingt ans, cette liste a été considérablement enrichie en passant de 0,9 millions en 2007 à 5,8 millions de sites aujourd'hui, soit environ 60 % du web français.

    Robot moissonneur

    Cette phase de collecte est complétée par le travail d'un robot moissonneur baptisé Heritrix qui va copier les pages de ces millions de sites et tous les fichiers associés. "Une fois les pages web collectées, archivées et indexées, elles viendront enrichir les Archives de l’internet de la BnF dont les collections remontent à 1996, constituant ainsi la mémoire numérique de demain pour le patrimoine et la recherche" précise la Bibliothèque nationale de France.

    Instauré par la loi DADVSI de 2006, le dépôt légal du web repose sur un principe de représentativité et ne prétend donc pas à l'exhaustivité. Des "collectes ciblées" sont également organisées sur plusieurs dizaines de milliers de sites sélectionnés par des bibliothécaires. Des "collectes d’urgence" peuvent également être lancées sur "des événements inattendus ayant un fort impact sur la société".

    Précision importante, l'accès à ces archives du web n'est possible que dans les salles de recherche de la BnF et dans un certain nombre de bibliothèques sur le territoire français.   
     


     

    À lire sur Archimag
    Les podcasts d'Archimag
    Êtes-vous prêt pour la réforme de la facturation électronique ? À moins de 460 jours du grand lancement, l’écosystème se prépare activement. Lors de la Journée de la Facturation Électronique qui s'est tenue le 13 mai dernier à Paris, Archimag Podcast est allé à la rencontre des acteurs incontournables de cette réforme : les Plateformes de dématérialisation partenaires, ou PDP. Ensemble, nous avons parlé de leur rôle, de leurs spécificités, de leur modèle économique et de leur secret de longévité. Dans cet épisode, nous vous dévoilons qui sont ces acteurs et ce qu'ils préparent pour accompagner la réforme.

    sponsoring_display_archimag_episode_6.gif