Qu’est-ce que CLOCKSS ?
Le centre Mersenne utilise les services de CLOCKSS pour pérenniser l’archive de ses articles.
CLOCKSS signifie « Controlled LOCKSS (Lots of Copies Keep Stuff Safe) ». CLOCKSS est une solution d’archivage pérenne par un système de réplication des données.
CLOCKSS héberge, en novembre 2021, 46 millions d’articles, 25000 titres de périodiques et 260000 livres, assortis de métadonnées. En temps normal, CLOCKSS ne fait qu’archiver les données auxquelles l’éditeur lui a donné accès. Douze sites de dépôt miroir de grandes institutions universitaires garantissent la pérennité des données stockées : si l’un des dépôts ne correspond pas aux sites miroirs, celui-ci recevra des corrections de la part des autres. Lorsqu’un élément déclencheur se produit, CLOCKSS rend les documents accessibles pour tous, dans un modèle d’accès ouvert.
Pour connaître le détail du processus technique d’archivage.
Exemple de déclenchement du système de mise à disposition des documents par CLOCKSS suite à la disparition de deux titres de la plateforme SAGE.
Objectifs d’un archivage pérenne
L’archivage numérique pérenne a, selon le CINES, trois objectifs principaux :
- « conserver le document,
- le rendre accessible,
- en préserver l’intelligibilité. »
Ces objectifs sont pensés sur le très long terme, c’est-à-dire plus de 30 ans.
Une sauvegarde classique répond aux deux premières visées : conserver le document et pouvoir le communiquer. La préservation de l’intelligibilité des documents est au centre de l’archivage pérenne. En effet, le CINES souligne les quatre risques majeurs qui menacent un fichier :
- « l’obsolescence matérielle,
- l’obsolescence logicielle,
- l’obsolescence du format de fichier,
- la perte de la signification du contenu. »
L’obsolescence matérielle est simple à comprendre. Tout d’abord, le support lui-même peut s’altérer : ainsi, par exemple, un vieux CD s’altère avec le temps. Le support peut aussi devenir obsolète et illisible s’il nécessite un lecteur : qui, de nos jours, a encore un lecteur de disquettes sur son ordinateur ?
Contre l’obsolescence logicielle et l’obsolescence du format de fichier, on préfèrera l’emploi de formats standards, normés afin d’éviter d’être dépendant d’une solution propriétaire. En effet, rien n’indique que le logiciel utilisé pour créer le document existera encore dans 10 ans. Le CINES publie une liste des formats archivables sur sa plateforme d’archivage, qui donne un bon aperçu des formats durables. Si toutefois le format utilisé dans l’archive disparaissait, il faudrait envisager une conversion de format, en s’assurant de la conservation de l’intégrité des données.
La lutte contre la perte de signification des documents est spécifique à l’archivage à long terme. En effet, contrairement à la sauvegarde qui ne conserve que le document, l’archivage conserve aussi des métadonnées associées au document. Le premier niveau, généraliste, de métadonnées en Dublin Core sert à décrire le document : titre, créateur, sujet, date, format, langue, droits d’auteur… Il est nécessaire d’ajouter des métadonnées techniques, nécessaires pour assurer la pérennité du document.
Le centre Mersenne a choisi le format de métadonnées JATS.
Pour en savoir plus sur les métadonnées de pérennisation : https://www.cines.fr/archivage/un-concept-des-problematiques/les-metadonnees-de-perennisation/