Archivage du web : près de 800 To déjà collectés par la BnF

Le 22/08/2017 (Mis à jour le 23/08/2017 ) Bruno Texier

web_histoire.jpg

Chaque année la Bibliothèque nationale de France fait une collecte annuelle de près de 4,5 millions de sites. (CC0 Public Domain)

L'archivage du web est un vaste chantier désormais bien entamé. La Bibliothèque nationale de France et l'Institut national de l'audiovisuel procèdent au dépôt légal du web depuis 2006. L'heure est aujourd'hui à la création de nouveaux modes d'exploration de ce patrimoine numérique.

L'année 2016 fut l'occasion pour les internautes de célébrer un double anniversaire. D'abord les vingt ans de la fondation Internet Archive qui s'est donnée pour objectif d'archiver le web mondial. Puis les dix ans du dépôt légal du web en France. Depuis 2006, la Bibliothèque nationale de France et l'Institut national de l'audiovisuel ont pour mission d'archiver le web français (en partie tout au moins).

Autant dire qu'en l'espace de deux décennies, l'archivage du web s'apparente à une tâche sans fin tant la production numérique explose année après année.

"510 milliards de pages pour Internet Archive auxquelles il faut ajouter...

...toutes les pages archivées par les institutions nationales dans le monde !, explique Valérie Schafer chargée de recherche à l'Institut des sciences de la communication et coordinatrice du programme Web90.

Chaque année, la Bibliothèque nationale de France fait une collecte de près de 4,5 millions de sites. Quant à l'Institut national de l'audiovisuel, en plus de son archivage de sites web, sa collection de tweets liés au monde de l'audiovisuel atteint les 400 millions".

Wayback Machine

Il faut donc remonter en 1996 pour assister à la naissance du programme Internet Archive. Situé à San Francisco, cet organisme à but non lucratif réalise de copies de pages web à un rythme soutenu, mais aléatoire. A titre d'exemple, le site Archimag.com a fait l'objet de 502 prises de vue entre 1996 et le mois de mai 2017.

Mieux loti, le site de la présidence de la République a été saisi 1 975 fois depuis 1998. Et que dire du site de la Maison blanche avec 36 264 copies ! Bonne nouvelle, toutes ces copies de pages HTML sont accessibles gratuitement sur la célèbre machine à remonter le temps baptisée Wayback Machine.

A y regarder de plus près cependant, les copies laissent parfois à désirer. Notamment au niveau des illustrations qui sont soit dégradées, soit tout simplement absentes. Et les amateurs de patrimoine numérique pourront regretter que Wayback Machine ne soit pas en mesure d'archiver la totalité du web. Mais l'essentiel est assuré et l'on peut aujourd'hui puiser dans ce prodigieux fonds d'archives pour voir à quoi ressemblait le web dans années 1990 et 2000.

Collecte large, collectes ciblées

En France, l'archivage du web repose sur un principe de double collecte. La Bibliothèque nationale de France a renoncé à l'exhaustivité pour mieux se concentrer sur "une logique de représentativité". Une collecte large et des collectes ciblées ont été mises en place pour remonter des pages HTML. Résultat : près de 800 teraoctets (To) ont déjà été collectés avec un accroissement annuel de 120 To.

Chaque année, 4,5 millions de domaines sont archivés dont plusieurs centaines de sites d'actualité nationale et régionale. Certains sites font l'objet d'un archivage en profondeur alors que d'autres sont sélectionnés en raison de leur caractère événementiel : campagne électorale, commémoration de la Première guerre mondiale, attentats des mois de janvier et novembre 2015...

Côté machinerie, une cinquantaine de robots Heritrix (un logiciel libre développé par Internet Archive) explorent 24/24 et 7/7 les sites qui lui ont été désignés. Une dizaine de serveurs physiques sont nécessaire pour mener à bien le stockage.

Mais derrière ces impressionnants volumes, la Bibliothèque nationale de France souhaite organiser et éditorialiser ces milliards d'octets. "Nous avons le souci de donner des voies d'accès dans le foisonnement du web et des sites collectés", expliquait récemment Sylviane Tarsot-Gillery, directrice générale de la BNF, lors d'une journée d'étude consacrée à l'archivage du web.

La plateforme Archives de l'internet Labs propose de nouveaux modes d'exploration des collections. Conçue pour répondre aux besoins des chercheurs, elle est désormais dotée d'un moteur de recherche plein texte.

Autre initiative, le projet Corpus a pour ambition de fournir à des chercheurs des données et des outils pour les analyser, dans le respect du droit d’auteur et de la vie privée. Des outils de fouille de texte et de données (text mining, data mining) permettront "de questionner la place d’un texte dans un corpus, d’interroger ses métadonnées et ses occurrences", expliquent les promoteurs du projet. Corpus devrait être opérationnel à l'horizon 2019.

Les équipes du programme Web90, quant à elles, travaillent au développement d'un parcours guidé du web des années 1990.

43 milliards d'objets web

Du côté de l'Ina, l'archivage du web présente une particularité : la collecte se concentre sur des sources en rapport avec la télévision et la radio, soit environ 15 000 sites. Là aussi, se pose la question de la navigation : "Comment rendre visibles 12 millions de vidéos, 400 millions de tweets, 43 milliards d'objets web ?", demande Agnès Magnien directrice déléguée aux collections de l'Institut national de l'audiovisuel.

La plateforme Inatheque propose une interface de recherche qui répond en partie à la difficulté : recherche plein texte dans les différents champs qui composent les tweets, fouille de données via des nuages de mots, extractions et signalement d'entités.

A court terme, l'exploration de ces archives web devrait gagner en ergonomie et en efficacité. Mais il convient de rappeler une limite : les archives web de la BNF et de l'Ina ne peuvent être consultées que sur le site parisien de la BNF ainsi que dans une quinzaine de bibliothèques partenaires en France.

"Les archives du web, cela n'existe pas !"

Pour l'archiviste Julien Pomart, les mots ont un sens : "Les archives du web, cela n'existe pas !". Responsable des archives à la Fondation maison des sciences de l'homme à Paris, il estime que l'expression "archives du web" est une traduction malheureuse de l'anglais "archive" qu'il faudrait traduire en réalité par "fichier".

"Pourquoi l’archivage du web français est-il confié à la BNF et non aux Archives nationales ? Parce qu’un site web est un ensemble de contenus publiés, et qu’il est donc collecté au titre du dépôt légal, explique Julien Pomart. L’obligation de dépôt légal est l’obligation pour tout éditeur, imprimeur, producteur, importateur, de déposer chaque document qu’il édite, imprime, produit ou importe, à l’un des organismes dépositaires du dépôt légal, dont la BNF. En sont exclus les documents d’archives publiques".

Dans un long billet publié sur son blog, il poursuit : "Peut-on parler d’archivage et d’archives lorsque l’on se situe dans le cadre du dépôt légal, différent de celui des archives publiques ? Vouloir archiver des non-archives, c’est s’engager dans une impasse sémantique et conceptuelle"...