RESEARCH DATA MANAGEMENT
E-LEARNING PLATFORMModule 2-1
Parcours de vie des données
Dans ce module, nous accompagnons les données tout au long de leur parcours de vie. Nous voyons les données d’étapes en étapes sont intégrées et gérées par plusieurs systèmes différents. Il devient alors évident que, plus elles s’approchent de la publication, plus les données doivent être décrites en détails et documentées. La publication nécessite une bonne documentation, sans quoi les données ne pourront pas être réutilisées.
All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.
35 min
Objectifs d‘apprentissage
- Les bibliothécaires-données exploitent l’infrastructure de la gestion des données.
- Ils savent que cette infrastructure doit être mise en place afin d’atteindre les buts primaires de la gestion des données de la recherche.
- Ils savent qu’il est important d’aborder la gestion des données dans leur phase active déjà.
- Ils maîtrisent l’architecture d’un portail pour données de la recherche.
SCENARIO
Dans la bibliothèque d’une haute école, Barbara accepte le défi de développer la gestion des données de recherche au sein de son institution. Elle se demande dans quels systèmes les données ont été stockées jusqu’à présent et comment ces systèmes pourraient être idéalement gérés. Il lui apparaît de manière claire qu’au fil de leur cycle de vie, les données deviennent de plus en plus « publiques » et doivent par conséquent être mieux documentées.
LOOK
Métacatalogues pour métadonnées
Les tentatives de rassemblement des données de la recherche dispersées sur le web augmentent. On tente de plus en plus souvent de créer des métacatalogues de métadonnées (ou même de dépôts). L’alimentation de métadonnées peut se faire manuellement ou automatiquement. On peut comparer ce système avec certains projets en bibliothèques, dont le but est de rendre accessibles des catalogues distincts via un seul métacatalogue, à l’instar de Swissbib en Suisse.
Chaque référence dans un métacatalogue possède en principe un renvoi vers une « landing page », à savoir une page décrivant la ressource sur la plateforme ou le dépôt d’origine. Ces landing pages contiennent généralement les métadonnées principales ainsi que les données elles-mêmes, ou par substitution les informations permettant d’y accéder.
Le portail openresearchdata.ch est un exemple de tel métacatalogue en Suisse, tentant de référencer toutes les données de la recherche en Open Data.
Exemples: use cases
- USE CASE 1 : archive institutionnelle (liée à l’institution)
- A : toutes les données sont librement accessibles
- B : toutes les données ne sont pas librement accessibles
- USE CASE 2 : dépôt disciplinaire / centre de données (lié à un domaine thématique)
- USE CASE 3 : dépôt multidisciplinaire / centre de données (non lié à un domaine thém
Situation initiale :
- Toutes les données peuvent être publiées librement.
- La HTW a son propre dépôt avec le catalogue de données correspondant.
Solution possible :
- Les données sont déposées dans le dépôt de la HTW et l’ensemble des métadonnées correspondantes sont intégrées dans le catalogue de données.
- Pour une recherche plus aisée, les métadonnées les plus importantes sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt de la HTW (landing page).
Situation initiale :
- Toutes les données ne peuvent pas être publiées librement.
- La HTW a son propre dépôt avec le catalogue de données correspondant.
Solution possible :
- Les données publiques sont déposées dans le dépôt de la HTW et l’ensemble des métadonnées correspondantes sont intégrées dans le catalogue de données.
- Les données à ne pas publier sont déposées séparément, sur un serveur de la HTW qui n’est pas accessible de l’extérieur. L’ensemble des métadonnées correspondantes sont néanmoins intégrées dans le catalogue de données.
- Pour une recherche plus aisée, les métadonnées les plus importantes des données publiques et non publiques sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt de la HTW (landing page).
Situation initiale :
- Toutes les données peuvent être publiées librement.
- La HTW a son propre dépôt et possède un catalogue de données, mais il existe un dépôt externe spécialisé dans les données du domaine de la communication.
Solution possible :
- L’ensemble des données et métadonnées sont déposées dans un dépôt disciplinaire externe possédant un catalogue de données.
- Pour une recherche plus aisée, les métadonnées les plus importantes sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt disciplinaire (landing page).
- Le catalogue de données de la HTW référence uniquement les métadonnées et renvoie vers le dépôt disciplinaire (landing page).
Situation initiale :
- Toutes les données peuvent être publiées librement.
- La HTW n’a pas de dépôt à elle, et ne référence en principe aucun jeu de données.
- Il n’existe aucun dépôt disciplinaire.
Solution possible :
- L’ensemble des données et métadonnées sont déposées dans un dépôt externe et multidisciplinaire possédant un catalogue de données.
- Pour une recherche plus aisée, les métadonnées les plus importantes des données publiques et non publiques sont également intégrées à openresearchdata.ch, et renvoient ainsi vers le catalogue de données du dépôt multidisciplinaire (landing page).
Exercice 1
Voici quatre exemples de notices issues de catalogues de données. Chacun correspond plutôt à l’un des use cases présentés auparavant. Attribuez les bon use case aux notices.
- https://heidata.uni-heidelberg.de/dataset.xhtml?persistentId=doi:10.11588/data/10011
- http://datacite.org/10.6084/M9.FIGSHARE.1352064
- http://www.da-ra.de/dara/study/web_show?res_id=4751&lang=de&mdlang=de&detail=true resp. http://dss.princeton.edu/cgi-bin/dataresources/newdataresources.cgi?term=2
- https://beta.openaire.eu/search/dataset?datasetId=datacite____::d2828f42d0f1c5eab5ad930cb2901e27
Solutions
- a) au use case 1B
- b) au use case 3
- c) au use case 2
- d) au use case 1A
Exercice 2
Vous avez deux exemples devant vous : comparez-les ! Qu’est-ce qui est la marque d’une gestion des données bonne et active ? Où pratique-t-on une gestion des données probablement moins active ? Quels éléments facilitent la réutilisation ou quelles informations manque-t-il pour une réutilisation ? Où voyez-vous des problèmes en vue d’une réutilisation, et pourquoi ? Comment pourrait-on résoudre ces problèmes ?
Pour cela, ne considérez pas uniquement les métadonnées du catalogue ; dans la mesure du possible, analysez aussi les données elles-mêmes.
Remarque : Les documents au format .md (markdown) peuvent être lus au moyen d’un éditeur de texte. Pour une visualisation optimale du contenu, on peut par exemple utiliser http://dillinger.io/.
Duo d’exemples A :
Duo d’exemples B :
Duo d’exemples C :
TAKEAWAYS
Takeaways
- Les données peuvent se trouver dans l’un de ces trois domaines :
- le private research domain
- le shared research domain, ou collaboration domain
- le public domain, ou publication domain
- Il existe essentiellement des infrastructures de discovery, contenant des métadonnées et répertoriant ainsi des jeux de données, et des infrastructure de dépôt, contenant les données physiques (par exemple tableaux, scripts, etc.).
- Les (méta)donnése peuvent se situer dans quatre quadrants : public data, public metadata, private data, private metadata
- Le dépôt des données peut se faire a) à l’interne dans un dépôt ou un catalogue maison et b) à l’externe dans des dépôts ou catalogues au sein dans le cloud, c’est-à-dire appartenant à d’autres institutions, organisations ou entreprises.
- Contrairement a
- Contrairement à d’autres domaines, il est possible voire habituel dans le domaine public de déposer les données et métadonnées à différents endroits. Ainsi, les métadonnées (et plus rarement les données elles-mêmes) peuvent être disponibles dans plusieurs catalogues (voir « Métacatalogues pour métadonnées »).
Sources
Lewis, John A. (2014): Research Data Management Technical Infrastructure: A Review of Options for Development at the University of Sheffield. figshare. Disponible à l’adresse : http://dx.doi.org/10.6084/m9.figshare.1202230
Lewis, Stuart (2013, 06. Dezember): The four quadrants of Research Data Curation Systems. [Blog]. Disponible à l’adresse : http://libraryblogs.is.ed.ac.9999999999uk/blog/2013/12/06/the-four-quadrants-of-research-data-curation-systems/
OpenRepos2012 (2012, 12. Juli): Anthony Beitz, Institutional Infrastructure for Research Data Management, 00:57:56 – 01:31:14. [Video]. Disponible à l’adresse : https://www.youtube.com/watch?v=JMZZsF92lTk