Internet Archive Googly Eyes

Archives : comment le Web devient patrimoine

« Faire une sauvegarde de l’histoire de l’Internet au Canada pour la protéger de Trump » titrait TechCrunch le 8 décembre 2016, après l’annonce du fondateur d’Internet Archive, Brewster Kahle, d’accélérer le mouvement de duplication de l’énorme fonds d’archives du Web de la fondation pour en héberger une copie au Canada.

Archiver les campagnes électorales

Avec 284 milliards de pages web archivées depuis 1996 – notamment les sites des campagnes présidentielles de Trump de 2008 et 2012, mais aussi quantité d’archives audiovisuelles – les fonds d’Internet Archive regorgent de contenus politiques qui peuvent en faire un outil d’investigation précieux pour les journalistes, les chercheurs et plus généralement la société civile, alors que les campagnes et la communication politiques se jouent aussi – et de plus en plus – sur la Toile.

Côté français également, en 2017, serveurs et robots sont mis à contribution pour garder notamment les traces numériques des sites de campagne et des débats électoraux, grâce à une collecte spécifique conduite par la Bibliothèque nationale de France (BnF). Depuis 2002 – et en un mouvement plus soutenu depuis qu’elle s’est vue confier en 2006 dans le cadre du dépôt légal la mission d’archiver les contenus web français, la BnF sauvegarde les sites des campagnes électorales nationales lors de collectes spécifiques. Celles-ci trouvent par ailleurs également un écho du côté de l’Institut national de l’audiovisuel (Ina), au périmètre d’archivage tourné vers les sites web à contenus audiovisuels, dont nombreux seront ceux qui suivront avec attention la course à l’élection présidentielle.

Conserver les données politiques au sens large

Mais les contenus politiques conservés dans les archives du Web dépassent de loin ceux des seules élections. Dès 1996 sont archivés des sites qui peuvent être institutionnels, mais aussi militants, ou encore garder la trace de luttes sociales. Depuis 2010 Archive-It, lié à la fondation Internet Archive, a même lancé une collecte consacrée aux lanceurs d’alerte internationaux et aux pages de la Toile qui leur sont dédiées, dont les premiers résultats s’ouvrent sur les contenus concernant Snowden. Une autre a été dédiée aux documents mis à disposition par Wikileaks, ou encore à des fonds relatifs à la révolution de Jasmin et au conflit ukrainien.

Autant de collectes spéciales, tournées vers des événements politiques qui côtoient catastrophes naturelles – le tremblement de terre japonais de 2011 ou les inondations de 2008 dans l’Iowa – et humaines – collection sur les événements entourant les attentats contre Charlie Hebdo et la tuerie d’Orlando, ou auparavant sur l’affaire Michael Brown, jeune afro-américain abattu en août 2014 par un policier, et les manifestations et émeutes de Ferguson qui s’en sont suivies.

Ce sont à nouveau les événements politiques et sociaux de Ferguson qui servent de référence au projet Documenting the Now, lancé en 2016 et porté par plusieurs institutions universitaires états-uniennes, et dont la page d’accueil s’ouvre sur des photographies liées aux manifestations et émeutes et au mouvement Black Lives Matter. Visant à développer notamment une application ouverte permettant de préserver, collecter et analyser les contenus de Twitter, ses concepteurs revendiquent aussi le souci de lutter contre les silences des archives que relevait Michel-Rolph Trouillot dès 1997 dans Silencing the Past : Power and the Production of History.

Sous l’archivage du web, des choix politiques

Contenus parfois sensibles, qui posent des enjeux sociétaux et éthiques, les archives du web nous rappellent que derrière les choix de conservation et de collectes s’expriment avec vigueur des choix politiques.

Si la référence au Dépôt légal français renvoie à une histoire ancienne qui remonte à François Ier et s’inscrit dans des ambitions à la fois culturelles mais aussi une volonté de contrôle politique – et religieux, comme en témoigne l’ordonnance de Montpellier de 1537 – la Toile et les réseaux sociaux numériques par leur diversité, leur fugacité, leur logique de flux et de circulation, de duplication comme d’effacement (voir sur ce sujet les travaux de Louise Merzeau) impliquent – à défaut d’exhaustivité possible – une politique d’archivage sélectif, qui se veut représentatif, mais doit en permanence négocier entre la pléthore et la lacune.

Dès lors les périmètres d’archivage et les choix de conservation sont sujets à des négociations et inscrits dans des politiques qui, tout en prenant en compte les cadres légaux, ouvrent des choix en terme de récurrence des collectes, de profondeur, etc., débattus tant au plan institutionnel général qu’en interne.

Archiver l’actualité

Ce fut par exemple le cas au sein de la BnF lors de la collecte d’urgence consacrée aux évènements qui ont entouré l’attaque de Charlie Hebdo, que rappelait en mars 2016 Annick le Follic, alors chargée de collections numériques au département de dépôt légal de la BnF :

« Le lendemain des attentats contre Charlie Hebdo toute l’équipe s’est dit qu’il faudrait faire une collecte d’urgence. Dans la journée nous avons discuté au sein du service pour savoir quelle forme devait prendre cette collecte et la lancer aussitôt. […] Dernièrement, nous avons lancé de telles collectes pour documenter les mouvements contre l’aéroport de Notre-Dame des Landes, et celui du Mariage pour tous. […] Notre obligation légale est d’effectuer une collecte annuelle large du domaine français, mais nous nous sommes toujours dit que ce n’était pas suffisant. Comme notre cadre juridique est assez large, nous avons commencé des collectes d’urgence en 2007, après les présidentielles. » (Entretien du 21 mars 2016 avec Annick Le Follic, BnF)

Même réaction alors du côté de l’Institut national de l’audiovisuel face au caractère exceptionnel et à l’impact national et international des événements de janvier 2015 :

« La mission de l’Ina en ce qui concerne la collecte Web est de collecter les sites, réseaux socio-numériques et médias sociaux en lien avec l’audiovisuel. Or ces événements ont eu un impact énorme au plan national bien sûr, mais aussi dans l’audiovisuel français. Cela nous paraissait important de consacrer une collecte d’urgence aux événements. Et Twitter nous a semblé particulièrement important à collecter, car il y avait le risque que personne ne le fasse. » (Entretien du 21 mars 2016 avec Thomas Drugeon, responsable du DL Web à l’Ina)

Quels choix (humains) de curation ?

Ces témoignages rappellent avec force que derrière les collectes automatisées, programmées et l’action des robots moissonneurs, les choix patrimoniaux restent profondément liés à des curations humaines.

Et si la valeur de ce patrimoine nativement numérique (Born Digital Heritage pour les Anglo-Saxons) a été reconnue par une charte de l’Unesco sur le patrimoine numérique en 2003, les politiques d’inclusion de contenus peuvent être plus ou moins restrictives. Ainsi, alors que la BnF effectue annuellement une collecte dite large de 4,5 millions de sites en se fondant sur les listes de l’Afnic, d’OVH et de l’Office des postes et télécommunications de Nouvelle-Calédonie, sans distinguer, hiérarchiser ou exclure des sites en terme de « valeur » patrimoniale, la Bibliothèque nationale suisse par exemple a, elle, opté pour une stratégie plus sélective mettant l’accent sur les sites web portant sur les cantons et les communes, ou encore sur des domaines spécifiques telles que les sciences sociales ou la littérature suisse, plutôt que sur les productions dites « vernaculaires » des internautes (pages personnelles, blogs, etc.).

À l’opposé l’Archive Team, dont une des figures les plus connues est Jason Scott, s’est fait une spécialité du sauvetage de ces contenus personnels menacés, comptant parmi ses faits d’armes le sauvetage de Geocities à la suite de la fermeture du service en 2009 par Yahoo! ou encore de MobileMe et Panoramio.

Diverses visions du Web, divers accès aux archives

Derrière ces choix d’archivage s’expriment aussi des visions et des imaginaires du Web, du numérique et du patrimoine qu’il convient d’interroger à un moment de redistribution des pouvoirs patrimoniaux, en une « explosion patrimoniale » – pour reprendre la formule de Pierre Nora en 1996 concomitante de la création d’Internet Archive, qui voit encore s’accélérer le passage du « patrimoine hérité » au « patrimoine revendiqué » que relevait l’historien.

Toutefois, bien que des décisions humaines restent au cœur des politiques d’archivage, ces dernières doivent aussi composer avec des obstacles et des verrous techniques qui peuvent relever de paramètres propres aux sites et plateformes, de protocoles https ou encore des captcha, sans compter l’inclusion de robots.txt témoignant du souhait de ne pas voir certaines pages référencées.

Si Internet Archive respectait ces restrictions des robots.txt, ce qui explique par exemple que lemonde.fr n’y soit pas archivé, la BnF au titre de sa mission de dépôt légal collecte quotidiennement ce site. Différence de taille toutefois : les collections de la Bibliothèque nationale de France ne sont consultables que dans ses enceintes et plusieurs emprises régionales, alors qu’Internet Archive rend accessible en ligne via la Wayback Machine lancée en 2001 tous les contenus web qu’elle a archivés.

Même politique d’ouverture et d’accès libre du côté des archives du Web portugaises d’arquivo.pt, quand la plupart des institutions limitent au contraire la consultation aux bibliothèques, en vertu du droit d’auteur et de questions juridiques liées à la propriété intellectuelle.

Ceci n’est évidemment pas sans poser des enjeux d’accès et de consultation, les fonds européens archivés étant ainsi fragmentés en fonction des frontières nationales, sans passerelles possibles à ce jour entre eux, ni possibilité d’exporter données et métadonnées pour les croiser. Ces restrictions impliquent dès lors de plus en plus de la part des institutions d’archivage des politiques de développement d’outils, rappelées par Thomas Drugeon :

« L’utilisateur, le chercheur ne peut pas “partir” avec les données du DL Web, les sortir, aussi nos outils doivent répondre à ses besoins, pour qu’avec les outils que nous proposons il puisse faire des analyses pertinentes ».

Travail d’élaboration complexe pour ses concepteurs, « tiraillés entre ces besoins pointus, et ceux de la majorité des usagers, pour lesquels il ne faut pas trop spécialiser l’outil, sinon il devient incompréhensible », qui implique aussi des politiques de développement à l’interface entre plusieurs professions, celles de l’archivage, de l’ingénierie et de la recherche.

La fabrique de l’archivage

Saisies à l’aune de ces remarques, l’exploration de la fabrique de l’archivage et des archives du Web permet de revisiter Langdon Winner et son papier séminal Do Artefacts Have Politics ? publié en 1980 en un Do Web Archives have Politics ? dont la réponse serait assurément positive.

« Les innovations technologiques ressemblent aux textes de lois ou aux institutions publiques qui fixent un cadre destiné à durer pendant plusieurs générations. C’est pour cette raison que la même attention que celle qui est accordée aux lois, fonctions et relations politiques doit aussi être accordée à des choses comme la construction d’autoroutes, la création de réseaux de télévision, et la mise au point de caractéristiques apparemment inoffensives sur de nouvelles machines », notait Winner en 2002, dans La baleine et le réacteur.

Cette attention n’a pas échappé à plusieurs pays qui ont fait des archives du Web un enjeu non plus seulement politique mais géopolitique, que ce soit la Chine qui bloquait Internet Archive en 2014, ou encore le gouvernement russe qui en juin 2015 prenait pour argument la découverte d’une page archivée faisant la promotion du djihadisme en Russie pour bloquer également l’intégralité du domaine archive.org.

Dominique Boullier préconisait en 2008 dans Politiques de la mémoire en temps d’incertitude qu’une politique du patrimoine et de la mémoire puisse s’appuyer à la fois sur la capacité des communautés à produire leur mémoire, comme le fait la tradition, la capacité à réviser ces mémoires et les capitaliser, comme le fait l’activité scientifique, et enfin la capacité, propre aux médias, à faire émerger de nouveaux centres d’intérêt et références.

Un des enjeux de l’archivage du Web dans les années à venir pourrait être aussi d’échapper aux tentatives de capitalisation par des grands groupes de la communication qui sont devenus à part entière des acteurs de la patrimonialisation numérique, à l’instar de Facebook et Twitter, et de préserver une capacité de révision tout en empêchant le révisionnisme.


Texte initialement paru dans le sixième numéro de la revue Nichons-nous dans l’Internet, disponible en librairies ou en ligne

Auteurs

Valérie Schafer

Chargée de recherche à l’Institut des sciences de la communication, Université Pierre et Marie Curie (UPMC) – Sorbonne Universités