La mémoire du web en construction

Le site web Archimag en 2006 DR

 

Le web français est archivé par la Bibliothèque nationale de France et l’Institut national de l’audiovisuel. Un chantier monumental qui a déjà généré plusieurs milliards de fichiers informatiques. Dans le monde, d’autres initiatives moissonnent inlassablement la toile pour conserver la mémoire d’un monde numérique en train de se faire.

Alors qu’il était roi de France, en 1537, François 1er institua le dépôt légal pour le livre. Un geste fort qui permit de constituer un formidable lieu de mémoire dédié à la production intellectuelle française. Au fil du temps, cette obligation de dépôt fut étendue aux nouveaux supports qui furent inventés à travers les siècles : estampes, cartes, partitions musicales, photographies, affiches, documents multimédias… Jusqu’en 2006 où la Bibliothèque nationale de France (BNF) se vit confier la mission de collecter, conserver et communiquer les sites web au titre du dépôt légal. Cette obligation est désormais consignée dans le Code du patrimoine.

L’archivage du web porte sur les sites en .fr ainsi que sur les .org et les .com dont les auteurs sont domiciliés en France. Mais cette collecte ne vise pas l’exhaustivité. C’est plutôt « une logique de représentativité qui a été retenue », souligne-t-on à la BNF. Un corpus d’environ 30 000 sites sélectionnés par les bibliothécaires de la BNF a été constitué à la lumière de leur thématique et de leur qualité. Certains sites sont archivés très en profondeur alors que d’autres le sont de façon plus superficielle, au niveau de la page d’accueil par exemple. Une centaine de sites adossés à des titres de presse sont ainsi collectés chaque jour. Des « collectes projet » sont également réalisées à l’occasion d’évènements tels que les jeux olympiques ou les élections présidentielles.

17 milliards de fichiers archivés

A ce jour, plus de 17 milliards de fichiers (page HTML, vidéo…) ont déjà été archivés par la BNF, soit environ 300 téraoctets. La collecte est automatisée et assurée par plusieurs dizaines de robots moissonneurs qui, inlassablement, copient des pages, des images, des vidéos…

Une fois collectés, ces fichiers sont indexés avant d’être proposés à la consultation, mais uniquement dans l’enceinte de la BNF. Raison invoquée : le respect des données personnelles. Les archives du web ne sont donc pas disponibles… sur le web !

Le stockage des données, quant à lui, est assuré sur des baies de disques durs. La Bibliothèque nationale de France a procédé à une étude des risques d’obsolescence des supports et mis en place des stratégies de conversion.

archives taille mannequin

Autre institution française en charge de l’archivage du web, l’Institut national de l’audiovisuel (Ina) se concentre plus particulièrement sur les sites en rapport avec la télévision et la radio : sites officiels de programmes, sites de services de médias à la demande, blogs de téléspectateurs, etc. Au mois d’avril 2012, cette collecte embrassait un périmètre de 9 254 sites soit plus de 13 milliards de versions d’URL représentant 1,43 pétaoctets. Après une sévère cure d’amincissement (déduplication et compression), ces archives affichaient une taille mannequin de 129,4 téraoctets !

Stockées en mode hybride sur disques durs et bandes magnétiques, ces archives font ensuite l’objet d’une indexation en plein texte. A l’Ina, on fait valoir que ce type d’indexation « assure une neutralité des réponses et offre une garantie aux chercheurs en même temps qu’un contrepoids à la substitution de la mémoire du web par les monopoles industriels du web mondial ». Sont ainsi visées « les stratégies de ranking des moteurs de recherche qui servent essentiellement des intérêts commerciaux ». Les archives réalisées par l’Ina peuvent être consultées sur le site de la BNF à Paris et, depuis peu, dans d’autres bibliothèques à vocation régionale dispersées sur le territoire français.

projet Internet Archive

Dans le monde, les initiatives dédiées à l’archivage du web se sont multipliées. La Suède, la Finlande, le Danemark, l’Australie, le Canada ont mis en place, parfois dès 1996, des protocoles de collecte. Sans oublier La Bibliothèque du Congrès de Washington qui a annoncé son intention d’archiver l’intégralité des milliards de messages postés sur Twitter depuis 2006.

Mais la plus retentissante action d’archivage du web est probablement le projet Internet Archive. Cette association sans but lucratif a été fondée il y a une quinzaine d’années à San Francisco (Etats-Unis). Avec le soutien de bibliothèques des pays scandinaves, elle est à l’origine du développement du célèbre robot Heritrix. C’est cet outil qu’utilise la Bibliothèque nationale de France pour collecter le web. Depuis, d’autres institutions comme la Bibliothèque nationale de Nouvelle-Zélande ou le réseau Bibliothèque et Archives Canada ont adopté le robot Heritrix. Ce dernier se présente sous la forme d’un logiciel libre programmé en Java et accessible depuis un simple navigateur web.

un site miroir à la bibliothèque d’Alexandrie

Internet Archive est surtout connu pour son site WayBackWachine qui permet de retrouver les versions antérieures des sites web. Un exercice réjouissant qui amène à constater le chemin parcouru en matière d’ergonomie et d’interface ! Le site connaît un succès croissant en raison de sa facilité d’utilisation. Il suffit en effet de se rendre sur la page d’accueil et de saisir l’adresse URL du site désiré. A titre d’exemple, WayBackMachine a réalisé 233 archives du site Archimag.com depuis le 27 décembre 1996. Certains sites d’information à très forte visibilité comme le New York Times ont fait l’objet d’environ 4 500 captures en une quinzaine d’années. La collecte réalisée par WayBackMachine se fait au niveau des pages d’accueil, mais aussi dans la profondeur des sites. En réalité, certaines pages profondes n’ont pas pu être correctement sauvegardées et certaines images n’apparaissent plus sur les pages archivées. En revanche, le site est doté d’une frise chronologique interactive qui permet de naviguer de façon intuitive parmi les centaines de captures réalisées tout au long de l’évolution des sites.

En bons archivistes, les concepteurs d’Internet Archive ont pensé à la pérennité de leur travail. Ils ont pour cela créé un site miroir qui héberge une copie des sites collectés. Symboliquement, ce site miroir a été installé au sein de la Bibliothèque d’Alexandrie en Egypte.


+ repères
l’archivage du web en mode collaboratif
L’association Web Archivists en est convaincue : l’archivage du web passe par les internautes et le mode collaboratif. « L’archivage est une problématique collective ; qui d’autre que les internautes eux-mêmes pour identifier les sites qui ont fait l’histoire d’internet ? », demandent les membres de cette association née en 2009 et basée à Paris. Avec une moyenne d’âge de vingt-cinq ans, ils militent pour une ouverture de l’archivage du web et souhaitent élargir le nombre de contributeurs : « Plus les profils seront variés, meilleures les archives seront ! ».
L’association a plusieurs fers au feu : une cartographie des archives web, une réflexion sur le design d’interfaces d’accès aux archives ainsi qu’une plateforme collaborative dédiée à l’archivage des sites web.

Les podcasts d'Archimag
Pour cet épisode spécial Documation, nous nous sommes penchés sur une autre grande tendance de l'année 2024 : la cybersécurité, et plus particulièrement la sécurité dans le domaine de la gestion des données. La protection des données contre les menaces internes et externes est non seulement cruciale pour garantir la confidentialité, l'intégrité et la disponibilité des données, mais aussi pour maintenir la confiance des clients. Julien Baudry, directeur du développement chez Doxallia, Christophe Bastard, directeur marketing chez Efalia, et Olivier Rajzman, directeur commercial de DocuWare France, nous apportent leurs éclairages sur le sujet.