Tech&Co
Vie numérique

La mémoire du Web français pèse plus de 700 Téraoctets

Les serveurs sur lesquels sont stockés les archives du Web français.

Les serveurs sur lesquels sont stockés les archives du Web français. - David Paul Carr /BnF

La Bibliothèque nationale de France ne compte pas que des livres rares. Elle archive, avec l’INA, tous les sites Web français sur plusieurs dizaines de serveurs bien gardés qui totalisent aujourd'hui 20 ans d'archives.

La Bibliothèque Nationale de France regorge de trésors comme ces fragments de Manuscrits de la Mer Morte ou encore le Papyrus Prisse, le plus ancien livre connu écrit en hiératique vers 2350 av JC. On sait moins que l’honorable institution conserve des documents plus triviaux comme… l’intégralité du site Skyblog, qui a connu son heure de gloire dans les années 2000.

Archiver le Web est devenu obligatoire, il y a dix ans

La BNF et l’Institut National de l’Audiovisuel ont en effet pour mission d’archiver le Web français depuis la loi DADVSI de 2006, entrée en application en 2011. La France fête donc actuellement les dix ans de ce dépôt légal un peu particulier.

L’INA prend en charge les sites audiovisuels (radio et télévision), ainsi que les comptes publics d’utilisateurs sur les réseaux sociaux et les hashtags qui sont liés au secteur, ce qui représente actuellement 3,95 Pétaoctets d’informations. Le reste échoit à la BNF et pèse aujourd’hui 700 Téraoctets de données! 

Toutes les versions archivées pour le site de la chaîne TF1 en 2015 et 2016.
Toutes les versions archivées pour le site de la chaîne TF1 en 2015 et 2016. © INA

"Nous stockons tout cela sur des serveurs situés à Tolbiac et un autre site tenu secret", nous explique Arnaud Beaufort, directeur des services et réseaux de la BNF. A l’intérieur, des copies numériques de sites institutionnels commerciaux ou personnels, de blogs, de journaux en accès libres et payants, de plates-formes vidéos ou de livres numériques. Tout ce qui apparaît sur le Web avec une extension en .fr et leur variante en .com et .net, mais aussi des extensions régionales comme .bzh (Bretagne) ou .nc (Nouvelle-Calédonie).

Les documents datant de 1996 à 2011 ont été rachetés à l’Américain Internet Archive, organisme américain pionnier en la matière. "Ils nous ont tout envoyé par avion dans des Petabox, des baies de stockage sur disque, toutes rouges, que nous exposons sur le site de Tolbiac", détaille Arnaud Beaufort. L’INA a procédé de même.

Les postes de travail pour consulter les archives du web à la BNF à Paris.
Les postes de travail pour consulter les archives du web à la BNF à Paris. © Guillaume Murat/BnF

Internet Archive, le précurseur

Internet Archive a servi également de modèle techniquement avec son robot Heritrix qui repose sur un logiciel libre. Depuis, le consortium IIPC (International Internet Preservation Consoritum) a été créé. Il regroupe une cinquantaine de bibliothèques nationales ou régionales dans le monde qui mettent en commun leurs outils. Ce sont les robots développés par l’IIPC qui sont désormais utilisés.

La BNF procède à des collectes annuelles des homepages de 4,5 millions d’adresses et à des campagnes ciblées qui vont quotidiennement au plus profond des sites. "Nous avons un réseau d’une centaine de correspondants que l’on active lors d’événements comme les attentats ou le mouvement de Notre Dame des Landes. Il y a aussi des missions que l’on planifie à l’avance : c’est le cas de toutes les élections, par exemple", observe encore Arnaud Beaufort.

Exemple de consultation d'un site.
Exemple de consultation d'un site. © Guillaume Murat/BnF

Du côté de l’INA, les collectes sont plus systématiques. "L’idée, c’est que nos robots sont programmés pour capter chaque site en fonction de sa fréquence de changement donc plus que quotidiennement pour l’actualité", nous explique Agnès Magnien, Directrice déléguée aux Collections de l’INA. "Nous allons jusqu’à six clics de profondeur dans l’architecture", ajoute-elle encore. Et il y a là des focus en fonction des événements.

La plate-forme du festival de Cannes, par exemple, n’échappe pas chaque année aux robots de l’INA. Mais un archivage d’urgence a aussi été déclenché sur Twitter le jour de l’attaque contre Charlie Hebdo. Des robots spécialisés ont enfin été mis en place pour les plates-formes de vidéo en ligne comme Dailymotion et YouTube, afin de capter les vidéos en streaming.

Exemple de homepage collectée par l'INA.
Exemple de homepage collectée par l'INA. © INA

Les documents ne sont pas accessibles gratuitement et en ligne. Question de droits d’auteurs. Ils sont consultables dans 13 lieux en France pour la BNF et 27 centres liés à l’INA, chaque fois sur des postes dédiés. Pour accéder à cette mémoire numérique, il faut toutefois justifier une recherche et payer les quelques euros nécessaires à l’obtention d’une carte à la journée ou à l’année.

Une recherche thématique est possible concernant une vidéo via l'INA. Mais il n'existe pas de moteur qui indexerait tout, ce qui contraint à connaître préalablement l'url du site. Un outil que les archivistes du Web rêvent de proposer un jour...