RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 2-3

Archivage à long terme

Si les données doivent être conservées sur une période prolongée (par exemple plus de 10 ans), nous risquons de ne plus être en mesure de les lire et de les comprendre. Pour éviter ceci, les données doivent être gérées. Les pages expliquent ce que cela implique concrètement.

 

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Objectifs d’apprentissage

  • Les participant-e-s sont conscients qu’il faut prendre certaines mesures préventives si l’on souhaite rendre les données accessibles sur le long terme.
  • Ils savent que les données doivent être archivées dans un format durable.
  • Ils sont conscients que les données vont changer au fil du temps, et que certaines mesures préventives particulières doivent donc être entreprises pour conserver leur authenticité et leur intégrité.
  • Ils sont conscients que les données doivent être accompagnées de nombreuses informations supplémentaires afin qu’elles soient encore compréhensibles dans le futur.

SCENARIO

Dans le cadre d’un projet de recherche, Andreas a récolté une grande quantité de données sur l’utilisation des médias en Suisse. Il part du principe que ces données seront à nouveau utiles dans quelques années pour des études longitudinales, c’est la raison pour laquelle il souhaite les archiver à long terme.

Andreas s’informe sur les mesures préventives à adopter afin que les données puissent encore être utilisées dans quelques années, et tombe par la même occasion sur les services que sa bibliothèque propose pour garantir l’authenticité de ses données.

Slide 2

Dans le module 2-2, vous avez vu que les données doivent être traitées entre le collaboration domain et le public domain. Ceci se déroule dans le curation domain. L’effort à investir dans ce domaine dépend de la forme sous laquelle les données devront être mises à disposition du potentiel utilisateur, ainsi que de la durée pendant laquelle leur réutilisation devra être garantie. Ce module se concentre sur une solution maximale: les données doivent pouvoir être réutilisées aussi longtemps que possible.

Slide 3

Si nous jetons un regard sur le passé, le long terme signifie par exemple avant l’invention du système d’exploitation MS-Dos (1981), avant l’essor du web (1991). Nous parlons alors d’une durée d’environ 25 ans. D’un point de vue organisationnel, cela signifie pourtant aussi que l’on n’a plus personne à qui demander de l’aide. Ceci pourrait être le cas pour une période de bien moins de 25 ans.

Slide 4

Slide 5

Le modèle de référence OAIS a été développé suite à des pertes massives de données des agences spatiales. Il aide à structurer les processus complexes de l’archivage à long terme de telle sorte qu’ils deviennent maîtrisables. Il ne s’agit cependant pas d’un système technique, mais purement fonctionnel. L’architecture d’archives OAIS peut donc être conçue de diverses manières.

Ce module n’introduit pas en détails le modèle de référence OAIS. Les explications se concentrent sur certains aspects particulièrement importants pour la gestion des données de la recherche. Vous trouverez quelques diapositives décrivant le modèle fonctionnel OAIS dans les matériaux annexes.

Slide 6

Si nous voulons conserver un objet, nous nous intéressons en fait au niveau conceptuel: nous ne voulons pas seulement pouvoir voir une photo, mais aussi pouvoir la comprendre: qui y apparaît, quelles étaient les circonstances de la prise de vue, quel sens avait l’image pour le photographe, et quel sens pour la personne photographiée?

L’objet conceptuel peut adopter plusieurs formes logiques. L’image peut ainsi être enregistrées dans des formats différents (par ex.: JPEG ou TIFF).

L’objet logique peut quant à lui également prendre diverses formes physiques. Il peut être sauvé sur une bande magnétique, sur un CD, dans une mémoire flash ou dans tout autre moyen d’enregistrement.

Slide 7

Slide 8

Les objets de l’archive ne sont donc plus les originaux. Ils doivent néanmoins être transmis de telle manière à ce que les potentiels réutilisateurs puissent s’y fier comme s’ils étaient des originaux. Il est donc nécessaire que chaque étape de modification de l’objet soit réalisée dans une optique de conservation du caractère original de l’objet.

Slide 9

Les mêmes caractéristiques ne sont pas importantes pour tous les utilisateurs. Dans beaucoup de cas, le fait de pouvoir encore décoder un texte suffira. Il existe sans doute aussi des circonstances dans lesquelles la représentation graphique d’un texte est essentielle. Comme il faut compter avec une perte d’information au fil du temps, il est important de définir au début du processus d’archivage déjà pour qui on archive et quelles caractéristiques de l’objet doivent absolument être conservées.

L’une des contributions considérables du modèle de référence OAIS est justement qu’il met l’accent sur le potentiel réutilisateur et exige que les caractéristiques de l’objets importantes aux yeux de cet utilisateur soient définies.

Slide 10

Une étape absolument centrale de l’archivage digital à long terme est le processus dit de l’ingest. Dans ce processus, les données sont préparées pour l’archivage à long terme de manière à être intégrées à l’archive (le dépôt) et à y être entreposées pour une longue période. Les actions énumérées sur cette diapositive sont réalisées durant le processus de l’ingest.

Slide 11

Slide 14

Slide 17

Slide 19

Lors de l’ingest, de nombreux objets sont regroupés en paquets:

  • plusieurs objets de contenu allant ensemble (par exemple certains tableaux)
  • des métadonnées – en particulier sur le processus d’archivage («preservation description information»)

Plus d’infos sur les paquets d’informations dans le module 3-2.

Slide 20

LOOK

Liens vers des listes de formats adaptés à l’archivage

Validation des formats

Pour la validation des formats, il existe plusieurs services, tels que :

Exercice
  • Sur la base des données du projet KommTech, créez un paquet d’information (vous pouvez simplement simuler)
    • Définissez quelles données doivent être intégrées au paquet.
    • Si nécessaire, créez des documents supplémentaires.
    • Enregistrez les données dans un format adapté à l’archivage (par exemple depuis Word vers PDF/A, depuis Excel vers CSV).
    • Analysez : quelles informations ont été perdues avec l’ingest ? (Portez une attention particulière aux colonnes en jaune de la feuille Excel.)
    • Réfléchissez : les objets peuvent-ils encore être utilisés ?
    • Quelles mesures doivent être entreprises pour les rendre plus facilement utilisables ?

TAKEAWAYS

Takeaways

L’archivage à long terme de données requiert des mesures diverses qui, ensemble, garantissent que les données puissent encore être lues et utilisées à l’avenir.

Il faut notamment faire attention aux aspects suivants :

  • Les données doivent se présenter sous un format acceptable pour l’archive à laquelle elles sont confiées.
  • La migration des données vers un format adapté à l’archivage peut s’accompagner de pertes d’informations. Prenez les mesures nécessaires pour minimiser l’impact de ces pertes (par exemple en documentant ce qui a été perdu).
  • Les données sont souvent difficiles à comprendre sans documentation. Ajoutez-y les informations nécessaires à un futur utilisateur pour lui permettre de travailler avec ces données.
  • Les données et les métadonnées doivent être regroupées dans un paquet d’information. Ensemble, elles permettent une réutilisation future.
Citation
STETTLER, Niklaus. Module 2-3: Archivage à long terme. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: http://www.researchdatamanagement.ch/fr/module-2-3/