La BnF lance sa campagne annuelle de collecte du web français

  • bnf_web.jpg

    BnF-lance-campagne-annuelle-collecte-web-francais
    Plus de 5,8 millions de sites web collectés en 2025 (© Guillaume Murat/BnF)
  • La Bibliothèque nationale de France procède actuellement à sa 21ème collecte dans le cadre du dépôt légal du web.

    Plus de 5,8 millions de noms de domaines. Tel est le programme de la "collecte large" réalisée actuellement par la Bibliothèque nationale de France au titre du dépôt légal du web. Cette 21ème collecte porte sur les sites web dont les producteurs sont domiciliés en France ou dont les données sont hébergées en France.

    La liste des sites collectée est communiquée à la BnF par des bureaux d’enregistrement partenaires comme l'Afnic (Association française pour le nommage de l’internet en coopération) et OVH. En moins de vingt ans, cette liste a été considérablement enrichie en passant de 0,9 millions en 2007 à 5,8 millions de sites aujourd'hui, soit environ 60 % du web français.

    Robot moissonneur

    Cette phase de collecte est complétée par le travail d'un robot moissonneur baptisé Heritrix qui va copier les pages de ces millions de sites et tous les fichiers associés. "Une fois les pages web collectées, archivées et indexées, elles viendront enrichir les Archives de l’internet de la BnF dont les collections remontent à 1996, constituant ainsi la mémoire numérique de demain pour le patrimoine et la recherche" précise la Bibliothèque nationale de France.

    Instauré par la loi DADVSI de 2006, le dépôt légal du web repose sur un principe de représentativité et ne prétend donc pas à l'exhaustivité. Des "collectes ciblées" sont également organisées sur plusieurs dizaines de milliers de sites sélectionnés par des bibliothécaires. Des "collectes d’urgence" peuvent également être lancées sur "des événements inattendus ayant un fort impact sur la société".

    Précision importante, l'accès à ces archives du web n'est possible que dans les salles de recherche de la BnF et dans un certain nombre de bibliothèques sur le territoire français.   
     


     

    À lire sur Archimag
    Les podcasts d'Archimag
    Pourquoi parle-t-on autant d’éthique quand il est question d’intelligence artificielle - et de quoi parle-t-on exactement ? Pour les Podcast d'Archimag, nous avons rencontré Enrico Panai, éthicien de l’intelligence artificielle. Avec lui, on clarifie ce que recouvre vraiment le mot "éthique" - au-delà des slogans - et pourquoi l’IA rend ces questions plus visibles, plus urgentes, et parfois plus confuses. On parlera aussi de l’entreprise : ses valeurs, ses contraintes, ses arbitrages… et de la manière dont une démarche éthique, quand elle intervient dès le départ, peut devenir un outil de décision et même un moteur d’innovation.
    Publicité

    sponsoring_display_archimag_episode_6.gif