RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 1, partie 1

Principes de base

Ce module abordera, en plus d’ une définition, deux modèles fondamentaux de la gestion des données de la recherche.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

35 min

Objectifs d’apprentissage
Dans ce module, vous apprendrez :
  • à différencier certains éléments essentiels de la gestion des données de recherche
  • les deux modèles les plus importants de la gestion des données de recherche

SCENARIO

Jonin travaille au sein d’une bibliothèque universitaire en Suisse, dans le domaine de l’archivage à long terme. La direction de la bibliothèque a inscrit la thématique des données de la recherche dans sa stratégie 2020. Le département dans lequel travaille Jonin est chargé de développer un concept pour l’archivage à long terme de ces données. Jonin doit bientôt initier son rectorat aux principes de base de la gestion des données de la recherche.

Slide 1

Slide 2

La situation initiale décrite ici peut paraître lapidaire et évidente…

Slide 3

… mais elle entraîne de nombreux changements. L’un d’eux est la formation de toute une série de nouveaux champs professionnels.

Slide 4

De nouvelles disciplines ou sous-disciplines émergent parfois.

Comme nous le verrons plus tard, tous les domaines scientifiques s’orientent de plus en plus vers les données.

Slide 5

Néanmoins, la publication de données de la recherche n’a rien de nouveau. Dès les débuts de la publication scientifique – pouvant être fixés assez précisément à la date du premier numéro du «Journal des sçavans» –, des données ont été publiées.

Slide 6

… ici par exemple les coordonnées d’une comète passsant à proximité de la Terre.

Il s’agissait néanmoins de très petites quantités de données.

Slide 7

A l’époque de l’informatique, c’est différent.

Mais que sont les données exactement?

Quand a-t-on parlé de données pour la première fois?

Et comment peut-on les définir dans le contexte de la gestion des données de recherche?

Slide 8

Tout d’abord quelques informations sur le terme «données».

Slide 9

Le premier à avoir parlé de données était Euclide, dans un ouvrage qu’il nomma justement Dedomena, Données.

Euclide y dit ce qui doit être «donné» afin de résoudre certains problèmes géométriques.

Le terme Dedomena a par la suite toujours été traduit par «Data» en latin.

Slide 10

Au jour d’aujourd’hui, les données sont souvent considérées d’un point de vue statistique; en tant que valeurs de variables qualitatives ou quantitatives, ne pouvant être triées ou alors selon une échelle correspondante.

Il s’agit cependant d’une perspective étroitement liée à la nouvelle discipline des sciences des données.

Slide 11

Dans la gestion des données de recherche, le terme est compris dans un sens bien plus large et comprend en principe tout type de données digitales présent, produit dans le cadre l’activité de recherche.

Ce qui peut bien sûr correspondre à de grandes quantités.

Slide 12

La différenciation faite ici donne un aperçu pertinent des principaux types de données existants.

Slide 13

Les données de la recherche peuvent être générées dans des proportions très diverses.

Les données produites par l’accélérateur de particules (grand collisionneur de hadrons) du CERN sont un excellent exemple de grandes quantités.

Slide 14

Les données se différencient aussi selon les médias; il s’agit ici par exemple de fichiers audio avec des cymablisations de cigales.

Slide 15

Les données peuvent aussi prendre la forme de textes, inscrits sur des supports très divers, comme la paroi d’une maison dans le cas présent.

Il convient alors de préciser que la gestion des données de la recherche ne s’intéresse «que» aux données digitales ou digitalisées. Pour toutes les données analogiques, il existe des institutions, telles que les bibliothèques, archives et musées, qui ont développé durant les siècles précédents leurs propres méthodes pour la gestion de l’information et de la connaissance.

Slide 16

Il faut retenir ici que les données deviennent de plus en plus objets de l’intérêt des sciences.

Certains scientifiques vont même jusqu’à parler d’un nouveau paradigme des sciences, les sciences intensives en données (dataintensive).

Slide 17

A cet égard, il existe déjà dans certaines disciplines d’assez bonnes solutions permettant de gérer de grandes quantités de données.

De très nombreux jeux de données, plutôt petits, sont également d’intérêt, constituant la longue traîne des sciences et pour lesquels des solutions doivent encore être développées.

Slide 18

Chaque science débute par les modèles qu’elle utilise.

A partir de là, nous souhaitons aborder le deux modèles fondamentaux de la gestion des données de recherche.

Slide 19

Le premier modèle important utilise l’image d’un circuit et traite de la curation des données.

Slide 20

Ce terme peut sembler déroutant au premier abord, mais il est très bien explicité dans la définition ci-dessus.

Il comprend tout ce que l’on peut ou devrait faire avec les données issues de la recherche afin qu’elles demeurent réutilisables.

Slide 21

Le cycle en soi est très complexe, mais nous souhaitons limiter notre analyse à quelques éléments.

Au centre se trouvent les données et les métadonnées correspondantes, et de nombreuses différentes actions s’articulent autour, dont quatre qui sont effectuées en permanence (description et représentation de l’information, planification de la préservation, suivi et participation de la communauté, ainsi que curation et préservation).

Onze actions s’ajoutent au lot, réalisées par contre de manière séquentielle.

Tout commence avec la planification (Conceptualise) de la recherche et la création ou la récupération de données. Ensuite, la plupart du temps en fin de projet, on décide si les données doivent être archivées ou simplement détruites. Les actions en lien avec l’archivage à long terme débutent alors: évaluation et tri des données, versement dans l’archive, traitement pour archivage à long terme et stockage. Il est fréquent que les données doivent être réévaluées ou migrées. Vers la fin du cycle, les données sont mises à disposition, et réutilisées, puis en général adaptées aux besoin du nouveau cycle.

Slide 22

La forme de publication que peuvent prendre les données ainsi que les circonstances de leur création et utilisation sont hautement hétérogènes.

On peut généraliser ces différences entre données bien structurées et données hétérogènes.

https://rd-alliance.org/sites/default/files/attachment/RDA-Europe-Science-Workshop-Report_final_April2014.pdf

Slide 23

Il s’agit ici d’extrêmes. La vérité se situe souvent entre les deux positions.

Slide 24

C’est pourquoi l’on parle souvent d’un continuum de données.

Dans sa forme la plus simple, il s’agit d’un continuum qui part de données avec de simples métadonnées jusqu’à des données avec métadonnées enrichies et complexes.

Les données et les métadonnées changent continuellement dans leur nature et leur composition

Ceci explique pourquoi le terme de continuum, parallèlement au terme de curation, est particulièrement important et à la base du second modèle pour la gestion des données de la recherche.

Slide 25

Les continua sont néanmoins difficiles voire pratiquement impossibles à gérer, c’est pourquoi il est mieux de les subdiviser.

Dans la gestion des données de la recherche, on utilise pour ce faire des domaines, tels que le domaine privé du chercheur, un domaine collaboratif pour plusieurs chercheurs, le domaine pérenne de l’archive ainsi que le domaine accessible au public.

Pendant le passage d’un domaine à l’autre, la quantité de métadonnées augmente généralement.

Slide 26

Tous ces points de vue sont résumés dans le modèle du data continuum.

Slide 27

Dans la forme ci-dessus, il différencie trois domaines entre lesquels un échange linéaire a lieu, suivant les Curation Boundaries.

Slide 28

Cette limite entre les domaines revêt une grande importance.

Slide 29

Il s’agit de «points de décisions virtuels auxquels les créateurs des données décident ce qu’ils veulent partager, avec qui, avec quelles métadonnées et sous quelles conditions.» (https://figshare.com/articles/figshare_and_Monash_University_combining_cloud_management_and_discoverability_with_institutional_storage/1224755)

On comprend ainsi que la différence principale entre le domaine de la collaboration et le domaine de la publication réside dans l’enrichissement des données avec des identifiants persistants ainsi qu’avec des métadonnées descriptives et techniques.

Slide 30

Le modèle du data continuum est ici à nouveau représenté sous une forme un peu différente.

Il s’agit toujours au final de l’accès aux données: qui peut y accéder quand, et sous quelle perspective temporelle (données volatiles, données intermédiaires ou données pérennes).

Dans ce contexte, le terme d’identité des chercheurs et des données prend toute son importance. Le terme de «trusted identity» et l’attribution d’identifiants jouent alors un rôle prépondérant.

Slide 31

C’est tout pour le moment au sujet des principes de base de la gestion des données de la recherche.

LOOK

Data Continuum Modell

Pour comprendre en profondeur le modèle du data continuum, la lecture de l’article suivant est recommandée :

Treloar, Andrew, David Groenewegen, and Cathrine Harboe-Ree. « The data curation continuum: Managing data objects in institutional repositories. » D-Lib magazine 13.9 (2007): 4.

http://www.dlib.org/dlib/september07/treloar/09treloar.html

TAKEAWAYS

Takeaways

Au final, tout ce qui est en rapport avec la gestion des données de la recherche est synthétisé dans les deux modèles suivants : le cycle de vie des données et le data continuum. Ceci ne signifie pourtant pas que tout ce que présentent ces deux modèles doit être mis en œuvre. Il suffit parfois amplement d’effectuer certaines activités pour pratiquer de la gestion des données de la recherche.

 

Citation
SCHNEIDER, René. Module 1-1: Principes de base. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: /fr/module-1-1/