RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 2-1

Parcours de vie des données

Dans ce module, nous accompagnons les données tout au long de leur parcours de vie. Nous voyons les données d’étapes en étapes sont intégrées et gérées par plusieurs systèmes différents. Il devient alors évident que, plus elles s’approchent de la publication, plus les données doivent être décrites en détails et documentées. La publication nécessite une bonne documentation, sans quoi les données ne pourront pas être réutilisées.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

35 min

Objectifs d‘apprentissage

  • Les bibliothécaires-données exploitent l’infrastructure de la gestion des données.
  • Ils savent que cette infrastructure doit être mise en place afin d’atteindre les buts primaires de la gestion des données de la recherche.
  • Ils savent qu’il est important d’aborder la gestion des données dans leur phase active déjà.
  • Ils maîtrisent l’architecture d’un portail pour données de la recherche.

SCENARIO

Dans la bibliothèque d’une haute école, Barbara accepte le défi de développer la gestion des données de recherche au sein de son institution. Elle se demande dans quels systèmes les données ont été stockées jusqu’à présent et comment ces systèmes pourraient être idéalement gérés. Il lui apparaît de manière claire qu’au fil de leur cycle de vie, les données deviennent de plus en plus « publiques » et doivent par conséquent être mieux documentées.

Slide 1

Slide 2

La gestion des données de la recherche poursuit plusieurs objectifs: elle doit soutenir les chercheurs (les deux quadrants de gauche) et répondre aux exigences de la communauté scientifique ainsi que du grand public (les deux quadrants de droite). La gestion des données de la recherche sert la recherche en contribuant à permettre une utilisation active des données (les deux quadrants supérieurs) et assure une certaine qualité grâce à la documentation du processus de recherche (les deux quadrants inférieurs). Les objectifs prioritaires varient selon les phases du processus de recherche.

Slide 3

Nous nous référerons plusieurs fois, dans ce module, aux données d’Urs et Lydia sur l’utilisation de la communication mobile. Celles-ci ont été collectées par l’agence Publica Data AG. Urs et Lydia les ont réutilisées.

Slide 4

L’illustration montre un processus classique de la recherche. Le parcours des données traverse trois domaines:

-Private research domain (pour les chercheurs uniquement, donc dans notre cas accessible à Urs et Lydia). Les données sont stockées sur des ordinateurs privées ou sur Dropbox, GoogleDocs, Trello, etc.

-Shared research domain (accessible uniquement à un certain cercle de personnes, par ex. l’ensemble de l’Institut, ou de la haute école). Les données sont stockées dans un système de gestion tel que BSCW ou SharePoint.

-Public domain (accessible à un public plus large, voire publiquement).

Slide 5

Les données peuvent donc se trouver dans l’un de ces trois domaines :

  • Le Private Research Domain
  • Le Shared Research Domain, ou Collaboration Domain
  • Le Public Domain, ou Publication Domain

Slide 6

Le Data Life Cycle peut lui aussi se décomposer selon les trois domaines, avec néanmoins quelques différences claires. Si l’on représente de la DDC Curation Lifecycle (ou un extrait de celui-ci) sur un axe temporel, on peut y visualiser les trois domaines. Si l’on combine les deux modèles, cela met en évidence dans quel domaine se déroulent quelles parties du cycle de vie.

Slide 7

Sur cette illustration, au-dessous des phases du DDC Lifecycle, apparaissent les étapes du cycle de vie, résumées sous une autre forme et représentées avec des images.

On note également que quelques points du cycle de vie ne se retrouvent dans aucun domaine. C’est le cas des points « Appraise & Select », « Ingest » et « Preservation » du DDC Lifecycle, qui sont résumés en tant que « Curation Boundary » dans le modèle du continuum.

Slide 8

Avec l’utilisation de nouveaux outils pour la gestion des données active, la frontière entre le Private Research Domain et le Collaboration Domain s’atténue. Les données sont stockées dans un environnement de recherche permettant de les traiter de manière active. Urs et Lydia souhaitent collaborer au moyen de SharePoint. Les données devant être mises à disposition de l’ensemble de l’Institut seront déposées dans un espace «public» spécifique.

Slide 9

Les objectifs d’une gestion des données active se basent avant tout sur les besoins des chercheurs. Afin de permettre l’échange au sein du cercle de chercheurs, les données doivent être documentées de telle manière à être compréhensibles pour tous les membres du groupe de recherche.

Slide 10

On le constate déjà durant la phase de gestion active: si les données devront servir à plusieurs chercheurs, elles doivent être saisies de la manière la plus structurée possible et bien décrites. De grands tableaux Excel sans explications des valeurs saisies ne sont utiles pour personne.

Il est tout aussi important que les décisions liées au processus de recherche soient documentées. Très souvent, les données ne sont compréhensibles que lorsque les réflexions et discussions correspondantes sont connues. La gestion des données de la recherche ne peut donc pas se limiter à la simple réception des données.

Dans le cas de projets importants, il peut être un avantage d’engager un «Embedded Data Manager», qui assistera les chercheurs dans la documentation et la gestion de leurs données.

Slide 11

Ce tableau met en évidence le fait que données et documents nécessitent d’être retravaillés dès le moment où ils doivent être utilisés par plusieurs personnes.

Slide 12

Slide 13

Jusqu’à présent, nous avons insisté sur le fait que les deux premiers domaines pourraient être gérés dans un seul système, avec l’utilisation d’instruments d’environnement de recherche.

Nous abordons maintenant le passage du Collaboration Domain au Publication Domain. On met dès lors les données à disposition d’un cercle encore plus large de personnes. Urs et Lydia mettent leurs données à disposition d’autres chercheurs. De cette manière, il devient possible de vérifier leur travail (les conclusions sont-elles plausibles?) et d’établir de nouvelles interprétations sur la base de ces données.

Slide 14

Le Publication Domain vise les objectifs des 2 quadrants de droite. Les données doivent être mises à disposition d’un cercle plus large de personnes pour réutilisation. Cela peut faciliter certaines études longitudinales. Idéalement, cela peut également épargner d’important coûts liés à la collecte de données.

On adresse par ailleurs aussi les objectifs d’assurance qualité. Les données doivent être publiquement accessibles, afin que les résultats de la recherche puissent être validés. La documentation des résultats de la recherche adopte un rôle plus important, notamment via la mise à disposition des données.

Slide 15

Slide 16

C’est dans le Curation Boundary que les données sont traitées pour la publication.

Slide 17

Il faut reconnaître que certaines points du cycle de vie ne se retrouvent dans aucun domaine. C’est le cas des points «Appraise & Select», «Ingest» et «Preservation» du DCC Life Cycle.

Dans cette phase, à savoir durant ces trois étapes caractérisées par une limite (boundary) que l’on franchit, on fait en sorte que les données soient compréhensibles et accessibles à long terme (les modules 2.2 et 2.3 donne plus de détails à ce sujet) par des tiers (personnes externes ou non impliquées dans le projet). Ce processus complexe peut d’ailleurs également être considéré comme un domaine à part entière (Curation Domain).

Slide 18

Infrastructure de Discovery (recenser les données) vs. infrastructure de stockage (enregistrer les données)

Le modèle du data continuum contient déjà des représentations de dépôts de données et de métadonnées.

Slide 19

Chaque domaine possède (théoriquement) une infrastructure de discovery ainsi qu’une infrastructure de stockage. Alors qu’un container comporte les données physiques (telles qu’un fichier SPSS, un document PDF, un script Python, etc.), un autre container comporte les métadonnées, ou plus exactement la partie des données de la recherche permettant la recherche des jeux de données. Il peut s’agir d’un système unique disposant d’un espace de stockage ainsi que d’une fonctionnalité de recherche, ou alors de deux systèmes séparés, par exemple un catalogue référençant au moyen de liens des fichiers se trouvant sur un serveur externe.

Slide 20

Attention : il s’agit ici d’une représentation simplifiée : il ne faut en principe pas considérer données et métadonnées séparément, en deux groupes distincts.

Slide 21

Alors que le transfert du domaine privé dans le domaine collaboratif est en général un procédé simple, le transfert dans le domaine public est plus exigeant. Les données doivent (ou devraient !) passer à travers un processus de migration, représenté ici en tant que « curation boundary » et plus haut en tant que « curation domain ». Les données sont traitées de sortes qu’elles soient accessibles et compréhensibles à long terme (les traitements exacts sont présentés dans le module 2-3).

Slide 22

Le métacatalogue openresearchdata.ch, encore en développement, est un exemple de portail pour données de recherche.

Slide 23

Les données pouvant être publiées dans un catalogue ne suffisent pas à rendre le jeu de données utilisable. Des descriptions plus détaillées sont nécessaires. C’est pourquoi un catalogue en ligne comporte généralement une page dite d’atterrissage (anglais: landing page): elle regroupe de plus amples informations sur un jeu de données précis. Sur l’illustration apparaît la landing page du jeu de données «Sicherheit 2014» dans le dépôt pour données de la recherche en sciences sociales FORS.

Slide 24

Ce graphique part du principe que toutes les données peuvent être publiées. Mais ceci est bien souvent impossible, par exemple pour des raisons de protection des données. Les données sont alors mises sous embargo (embargoed data), ce dernier étant généralement de durée illimitée mais pouvant également être restreint dans le temps. De telles données sont enregistrées dans des « data vaults » (en français coffres-forts de données). Il s’agit donc ici de données sous curation qui ne sont pas mises à disposition du public. Elles sont néanmoins recensées dans le catalogue de métadonnées normal avec les autres jeux de données publics. Leur existence est donc signalée, même si elles ne sont pas accessibles.

Slide 25

Les données de la recherche et leurs métadonnées peuvent se trouver dans l’un des quatre quadrants suivants :

  • Les données accessibles au grand public (public data)
  • Les données non accessibles par tous, mais par un cercle restreint de personnes (private data)
  • Les métadonnées accessibles au grand public (public metadata)
  • Les métadonnées non accessibles par tous, mais par un cercle restreint de personnes (private metadata)

Slide 26

Catalogue et dépôt maison vs. externes

Une fois que les données sont passées par le domaine de la curation, la question du stockage et du catalogue se pose.

Slide 27

Il faut distinguer essentiellement :

  • Un stockage et un catalogue maison, donc qui se trouvent au sein de sa propre institution

Un stockage et un catalogue externes, donc qui se trouvent dans le cloud, auprès d’autres institutions, organisations ou entreprises.

Slide 28

Contrairement à d’autres domaines, il est possible voire habituel dans le domaine public de déposer les données et métadonnées à différents endroits. Ainsi, les métadonnées (et plus rarement les données elles-mêmes) peuvent être disponibles dans plusieurs catalogues (voir « Métacatalogues pour métadonnées »).

LOOK

Métacatalogues pour métadonnées

Les tentatives de rassemblement des données de la recherche dispersées sur le web augmentent. On tente de plus en plus souvent de créer des métacatalogues de métadonnées (ou même de dépôts). L’alimentation de métadonnées peut se faire manuellement ou automatiquement. On peut comparer ce système avec certains projets en bibliothèques, dont le but est de rendre accessibles des catalogues distincts via un seul métacatalogue, à l’instar de Swissbib en Suisse.

Chaque référence dans un métacatalogue possède en principe un renvoi vers une « landing page », à savoir une page décrivant la ressource sur la plateforme ou le dépôt d’origine. Ces landing pages contiennent généralement les métadonnées principales ainsi que les données elles-mêmes, ou par substitution les informations permettant d’y accéder.

Le portail openresearchdata.ch est un exemple de tel métacatalogue en Suisse, tentant de référencer toutes les données de la recherche en Open Data.

Exemples: use cases

  • USE CASE 1 : archive institutionnelle (liée à l’institution)
    • A : toutes les données sont librement accessibles
    • B : toutes les données ne sont pas librement accessibles
  • USE CASE 2 : dépôt disciplinaire / centre de données (lié à un domaine thématique)
  • USE CASE 3 : dépôt multidisciplinaire / centre de données (non lié à un domaine thém
USE CASE 1A : archive institutionnelle (toutes les données librement accessibles)

Situation initiale :

  • Toutes les données peuvent être publiées librement.
  • La HTW a son propre dépôt avec le catalogue de données correspondant.

Solution possible :

  • Les données sont déposées dans le dépôt de la HTW et l’ensemble des métadonnées correspondantes sont intégrées dans le catalogue de données.
  • Pour une recherche plus aisée, les métadonnées les plus importantes sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt de la HTW (landing page).
USE CASE 1B : archive institutionnelle (toutes les données pas librement accessibles)

Situation initiale :

  • Toutes les données ne peuvent pas être publiées librement.
  • La HTW a son propre dépôt avec le catalogue de données correspondant.

Solution possible :

  • Les données publiques sont déposées dans le dépôt de la HTW et l’ensemble des métadonnées correspondantes sont intégrées dans le catalogue de données.
  • Les données à ne pas publier sont déposées séparément, sur un serveur de la HTW qui n’est pas accessible de l’extérieur. L’ensemble des métadonnées correspondantes sont néanmoins intégrées dans le catalogue de données.
  • Pour une recherche plus aisée, les métadonnées les plus importantes des données publiques et non publiques sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt de la HTW (landing page).
USE CASE 2 : dépôt disciplinaire externe (toutes les données librement accessibles)

Situation initiale :

  • Toutes les données peuvent être publiées librement.
  • La HTW a son propre dépôt et possède un catalogue de données, mais il existe un dépôt externe spécialisé dans les données du domaine de la communication.

Solution possible :

  • L’ensemble des données et métadonnées sont déposées dans un dépôt disciplinaire externe possédant un catalogue de données.
  • Pour une recherche plus aisée, les métadonnées les plus importantes sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt disciplinaire (landing page).
  • Le catalogue de données de la HTW référence uniquement les métadonnées et renvoie vers le dépôt disciplinaire (landing page).
USE CASE 3 : dépôt multidisciplinaire (toutes les données sont librement accessibles)

Situation initiale :

  • Toutes les données peuvent être publiées librement.
  • La HTW n’a pas de dépôt à elle, et ne référence en principe aucun jeu de données.
  • Il n’existe aucun dépôt disciplinaire.

Solution possible :

  • L’ensemble des données et métadonnées sont déposées dans un dépôt externe et multidisciplinaire possédant un catalogue de données.
  • Pour une recherche plus aisée, les métadonnées les plus importantes des données publiques et non publiques sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt multidisciplinaire (landing page).
Solutions
  1. a) au use case 1B
  2. b) au use case 3
  3. c) au use case 2
  4. d) au use case 1A
Exercice 2

Vous avez deux exemples devant vous : comparez-les ! Qu’est-ce qui est la marque d’une gestion des données bonne et active ? Où pratique-t-on une gestion des données probablement moins active ? Quels éléments facilitent la réutilisation ou quelles informations manque-t-il pour une réutilisation ? Où voyez-vous des problèmes en vue d’une réutilisation, et pourquoi ? Comment pourrait-on résoudre ces problèmes ?

Pour cela, ne considérez pas uniquement les métadonnées du catalogue ; dans la mesure du possible, analysez aussi les données elles-mêmes.

Remarque : Les documents au format .md (markdown) peuvent être lus au moyen d’un éditeur de texte. Pour une visualisation optimale du contenu, on peut par exemple utiliser http://dillinger.io/.

Duo d’exemples A :

Duo d’exemples B :

Duo d’exemples C :

 

TAKEAWAYS

Takeaways

  • Les données peuvent se trouver dans l’un de ces trois domaines :
    • le private research domain
    • le shared research domain, ou collaboration domain
    • le public domain, ou publication domain
  • Il existe essentiellement des infrastructures de discovery, contenant des métadonnées et répertoriant ainsi des jeux de données, et des infrastructure de dépôt, contenant les données physiques (par exemple tableaux, scripts, etc.).
  • Les (méta)donnése peuvent se situer dans quatre quadrants : public data, public metadata, private data, private metadata
  • Le dépôt des données peut se faire a) à l’interne dans un dépôt ou un catalogue maison et b) à l’externe dans des dépôts ou catalogues au sein dans le cloud, c’est-à-dire appartenant à d’autres institutions, organisations ou entreprises.
  • Contrairement a
  • Contrairement à d’autres domaines, il est possible voire habituel dans le domaine public de déposer les données et métadonnées à différents endroits. Ainsi, les métadonnées (et plus rarement les données elles-mêmes) peuvent être disponibles dans plusieurs catalogues (voir « Métacatalogues pour métadonnées »).

Sources

Lewis, John A. (2014): Research Data Management Technical Infrastructure: A Review of Options for Development at the University of Sheffield. figshare. Disponible à l’adresse : http://dx.doi.org/10.6084/m9.figshare.1202230

Lewis, Stuart (2013, 06. Dezember): The four quadrants of Research Data Curation Systems. [Blog]. Disponible à l’adresse : http://libraryblogs.is.ed.ac.9999999999uk/blog/2013/12/06/the-four-quadrants-of-research-data-curation-systems/

OpenRepos2012 (2012, 12. Juli): Anthony Beitz, Institutional Infrastructure for Research Data Management, 00:57:56 – 01:31:14. [Video]. Disponible à l’adresse : https://www.youtube.com/watch?v=JMZZsF92lTk

 

Citation
STETTLER, Niklaus. Module 2-1: Parcours de vie des données. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: /fr/module-2-1/