RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 3-2

Préparer pour la réutilisation

Comme l’a montré le module 2-4, l’archivage à long terme se fait pour un avenir où l’on ne pourra plus interroger personne sur la signification des données. Les données doivent être auto-explicatives pour le futur utilisateur. A cet effet, elles doivent être bien préparées et accompagnées d’informations supplémentaires. Ce module montre à quoi doivent ressembler ces informations supplémentaires et comment elles peuvent être ajoutées aux données. Vous apprendrez aussi que cette étape implique un certain effort qui ne peut être investi pour toutes les données. Une évaluation anticipée des données est donc nécessaire. De possibles critères d’évaluation seront abordés également.

 

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Objectifs d’apprentissage

  • Les participant-e-s sont conscients que les données pourront être utiles dans le futur uniquement si elles sont accompagnées de suffisamment d’informations supplémentaires.
  • Ils savent à quoi doivent ressembler ces informations supplémentaires.
  • Ils savent que toutes ces métadonnées ainsi que les données à proprement parler sont regroupées en un paquet d’information.
  • Ils savent que le traitement des données pour le futur constitue un effort substantiel qui ne peut être investi que pour les jeux de données les plus importants.
  • Ils ont des critères pour déterminer s’il vaut la peine de préparer les données pour un archivage à long terme.

 

SCENARIO

Manuela – chercheuse pour une haute école – offre ses données à Barbara, la personne responsable des données de la recherche au sein de son institution, pour qu’elles soient conservées et publiées. Barbara lui explique qu’il faut bien décrire les données, si celles-ci doivent encore pouvoir être utilisées dans x années. Sans quoi les chercheurs réussiront peut-être à ouvrir les données, mais seront difficilement capables de les réutiliser.

Ensemble, Barbara et Manuela réfléchissent aux informations à ajouter aux données et à une manière le plus simple possible d’effectuer cette opération. Elles réalisent vite que cette préparation des données est liée à un effort important. Elles délibèrent alors afin de déterminer pour quelles données cet effort vaut la peine, et quelles données ne seront au contraire conservées que 10 ans, comme l’exige la revue dans laquelle Manuela a publié les résultats de son activité de recherche.

 

 

 

Slide 2

Souvenez-vous des réflexions sur les finalités de la gestion des données de la recherche. Il est important d’être conscient que, selon l’utilisation que l’on veut en faire, différentes données doivent être proposées sous différents sortes de conditionnements. Ce module aborde les diverses exigences qui doivent être imposées au traitement des données, si celles-ci doivent pouvoir être maintenues réutilisables aussi longtemps que possible. La gestion des données pour les trois autres quadrants de la figure est nettement moins complexe.

Slide 3

Nous avons vu dans le module 2-4 que l’archivage à long terme doit se concentrer fortement sur l’éventuel futur utilisateur et sur ses besoins en informations, puisque les objets subiront des modifications au fil du temps. Nous reprenons ces réflexions ici, et analysons à présent comment les objets doivent être conditionnés pour l’utilisation qui est prévue à l’avenir.

Alors que le module 2-4 abordait la question des formats adaptés à l’archivage des objets, nous nous interrogeons maintenant sur les informations devant accompagner les objets pour que ceux-ci soient encore lisibles – et donc réutilisables – à l’avenir.

Slide 4

Nous abordons ici plus en détails à quoi doivent ressembler les paquets d’informations (avec lesquels nous nous sommes déjà familiarisés). Vous vous souvenez que les informations de contenu, selon le modèle de référence OAIS, peuvent englober plusieurs objets du contenu, donc plusieurs jeux de données. Vous vous souvenez également que toutes les actions effectuées sur les objets durant le processus de l’ingest sont consignées sous formes de métadonnées en tant que «preservation description information» (PDI). «Content information» et PDI sont ainsi regroupés en un paquet d’information, qui reçoit lui-même ensuite des métadonnées descriptives.

Nous nous penchons à présent plus en profondeur sur le contenu de «content information».

Slide 5

Les mesures présentées au module 2-4 permettent de garantir que les données pourront encore être retrouvées et lues dans 50 ans. C’est déjà beaucoup. Ainsi, l’objet logique est préservé.

Les données ne sont néanmoins pas encore prêtes pour une réutilisation directe, car l’objet conceptuel n’est pas assuré.

Slide 6

Les chiffres de la figure ci-dessus, issus du jeu de données KommTech que vous connaissez déjà, ne sont pas compréhensibles de cette manière. Nous devrions au moins connaître la signification des lignes et des colonnes. Avec ces indications supplémentaires, le tableau serait déjà lisible. Cependant, les données ne peuvent vraiment être comprises qu’en connaissance de leur contexte de création.

La quantité d’information à ajouter aux données dépend avant tout de l’utilisateur potentiel. Selon la personne, les explications (par exemple la méthode) devront être plus ou moins détaillées. KommTech s’est intéressé au nombre de téléviseurs par personne. Si nous partons du principe que le réutilisateur potentiel ne sait plus ce qu’est un téléviseur, cette information devrait également être fournie avec les données, pour le futur.

Slide 8

Slide 9

Si les informations nécessaires se trouvent sur une page web présentant les données, elles ne seront disponibles que si le système d’information correspondant est maintenu en activité. Si celui-ci devait disparaître, les informations risqueraient d’être perdues. Bien que peut-être toujours disponibles, les données deviendraient alors inutilisables. Afin de prévenir ce risque, le modèle de référence OAIS propose de considérer les paquets d’information comme autonomes. Les données et les explications ne sont par conséquent pas réparties sur plusieurs systèmes, mais réunies en un paquet. Ce paquet peut être transporté ainsi et rouvert dans un nouvel environnement.

Voici ce que cela signifie pour la gestion des données: dès lors que les données doivent être mises à disposition plus longtemps que la durée de vie probable du système d’information, toutes les informations nécessaires – y compris donc ce qui se trouve sur la page présentant les données – doivent être intégrées au paquet d’information.

Slide 10

Lors de l’ingest, beaucoup d’objets sont réunis en un seul paquet:

  • Plusieurs objets de contenu correspondants (par ex.: certains tableaux sur le même sujet)
  • Des métadonnées – en particulier concernant le processus d’archivage (preservation description information)
  • Eventuellement les explications nécessaires sur les données de contenu (par ex. méthode de création des tableaux et signification des chiffres qu’ils contiennent; indications sur le logiciel permettant de lire les données)(OAIS nomme ceci « representation information ». Dans le graphique ci-dessus, cela fait partie de « content information ».)
  • « Packaging information »: métadonnées décrivant les relations entre les différents objets du paquet
  • La plupart du temps, des métadonnées descriptives (données qui se trouvent aussi dans le catalogue) sont également inclues dans l’objet.

Slide 11

Le SIP est le paquet que doit livrer le producteur. Il contient les données elles-mêmes ainsi que les explications et les métadonnées créées par le producteur. Selon l’environnement, les SIP peuvent être définis différemment.

L’AIP est entreposé dans l’archive. C’est le paquet le plus complet. Il contient, en plus des données elles-mêmes et de leurs explications, toutes les métadonnées nécessaires à une réutilisation ultérieure, à savoir la documentation complète des opérations effectuées sur l’objet au cours du processus d’archivage.

Le DIP est le paquet qui est livré à l’utilisateur. Il peut contenir éventuellement moins de métadonnées et il est conditionné pour l’utilisation. En guise d’exemple: alors que des photographies sont enregistrées en format TIFF dans l’AIP, elles sont livrées en JPEG comprimé afin d’en faciliter l’utilisation.

Slide 12

Slide 13

Slide 14

Slide 15

Slide 16

LOOK

Lignes directrices

‘Five steps to decide what data to keep: a checklist for appraising research data v.1’. Edinburgh: Digital Curation Centre. http://www.dcc.ac.uk/resources/how-guides/five-steps-decide-what-data-keep

‘How to Appraise and Select Research Data for Curation’. DCC How-to Guides. Edinburgh: Digital Curation Centre. http://www.dcc.ac.uk/resources/how-guides/appraise-select-data

‘Data appraisal at the UK Data Archive’. http://data-archive.ac.uk/media/3453/RDE_MRDOctober_Triage.pdf

Exercice, partie 1

Réfléchissez à des critères qui peuvent vous aider dans l’évaluation.

  1. Quelles données voulez-vous archiver à long terme ?
  2. Quelles données mettriez-vous dans un dépôt, prêtes à être réutilisées ?
  3. Quelles données conserveriez-vous uniquement sous forme de bit stream ?
  4. Quelles données ne conserveriez-vous tout simplement pas ?

Consignez ces critères.

Exercice, partie 2

Vous recevez une livraison de deux jeux de données.

Utilisez à présent les critères d’évaluation que vous avez développés en première partie d’exercice. Décidez quels documents et quelles données vous souhaitez conserver, et pour combien de temps.

Jeu de données 1 :

Données d’un doctorant. Thème de la thèse : Le quotidien des femmes dans les années 1950.

On vous livre :

  • La thèse elle-même
  • Un ensemble d’article de journaux
  • Le fil conducteur des entretiens
  • Des interviews, fichiers audio
  • Des transcriptions d’interviews
  • Une évaluation quantitative des interviews (tableau Excel)
  • Une base de données avec des notes de lecture
  • Des extraits / données de diverses statistiques officielles

Jeu de données 2 :

Données d’une étude pilote sur le niveau de formation des adultes en Suisse.

On vous livre :

  • Brouillon : but de l’étude
  • Le formulaire du questionnaire
  • Les règles de codage
  • La préparation des données
  • Des graphiques interprétant les données
  • Des publications
  • Le design de l’enquête future

TAKEAWAYS

Takeaways

Pour permettre la réutilisation des données, ces dernières doivent être bien préparées et décrites en détails. Si cela n’est pas fait, les données seront peut-être bel et bien disponibles à l’avenir, mais risquent de ne plus être compréhensibles. La description des données demande néanmoins un tel effort qu’elle ne peut être réalisée pour toutes les données.

En général, on peut retenir que plus les données doivent être conservées longtemps, plus elles doivent être traitées en profondeur et plus leur public-cible sera large.

Par conséquent, chaque dépôt de données se doit de définir des critères déterminant quelles données selon quel effort seront traitées.

Citation
STETTLER, Niklaus. Module 3-2: Préparer pour la réutilisation. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: http://www.researchdatamanagement.ch/fr/module-3-2/