RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 8

Outils

Lorsque l’on commence à se plonger dans la gestion des données de la recherche, de nombreuses questions pratiques se posent. La plupart interviennent déjà dans la phase de la gestion active des données. Quelles données et quels documents générées par le processus de recherche appartiennent aux données de la recherche ? Comment les collecter et les gérer ? Quels sont les outils à disposition pour le processus de recherche ?

La première partie du module s’intéresse aux différents outils pouvant assister le chercheur durant le processus de recherche en sciences humaines.

La seconde partie est dédiée aux dépôts et aborde la gestion et l’archivage des données dans ce contexte. En guise de discussions sont proposés quelques rôles possibles que peuvent assumer les bibliothèques dans la gestion des données de la recherche.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Objectifs d’apprentissage

Dans ce module, vous

  • recevrez quelques retours d’expériences réalisés dans le cadre de TextGrid, l’infrastructure de recherche mise en place pour les humanités numériques en Allemagne.
  • découvrirez l’existence de plusieurs outils génériques pouvant être utiles dans de nombreux projets en humanités numériques.
  • vous demanderez si votre institution devrait mettre certains outils à disposition des chercheurs.
  • apprendrez où les données peuvent être enregistrées.

SCENARIO

Jonas travaille dans la bibliothèque d’un institut. Il est conscient que la gestion des données de recherche gagnera énormément en importance ces prochains temps et que la bibliothèque devra au final gérer ces données et les mettre à disposition. Or, il sait que les chercheurs de son institut n’ont encore presque rien entrepris dans cette direction. Il a également consulté la littérature professionnelle, qui affirme justement que les chercheurs des humanités numériques sont généralement peu enthousiastes à préparer leurs données et à les mettre à disposition.

Il se demande donc quels sont les services qu’il peut mettre en place pour les chercheurs, afin de les encourager à livrer leurs données et afin qu’ils reconnaissent l’utilité du partage des données.

Un gros flou réside également pour lui dans le lieu où il pourra gérer ces données – s’il parvient à les obtenir. Le projet de mise en place d’un centre de données national pour les humanités numériques n’aboutira que dans quelques années. Que peut-il proposer entretemps ?

Slide 1

Slide 2

Slide 3

GDR = Gestion des données de la recherche

TextGrid est une association de recherche ayant pour but la création d’un environnement de recherche virtuel pour les sciences humaines, sociales et culturelles. Des technologies de l’information doivent être mises à disposition notamment pour les projets d’éditions scientifiques. La durée du projet était de 2005 à 2015.

DARIAH.de fait partie d’un projet de recherche européen dans lequel des outils numériques et des services pour les sciences humaines, sociales et culturelles sont développés et mis à disposition.

Les retours d’expériences présentés ici se basent sur:

  1. Bender, Forschungsumgebungen in den Digital Humanities, Berlin/Boston 2016

Workshop Adaptive Deinstleistungen zur Unterstützung von Science 2.0, München 10.-11.Sept15 http://www.ub.tum.de/workshop-science-2.0

Öffentlicher Abschlussbericht von Badenwürttemberischen Forschungsdatenmanagement-Communities bwFDM-Communities, Wissenschaftliches Datenmanagement an den Universitäten Baden-Württembergs: http://bwfdm.scc.kit.edu/downloads/Abschlussbericht.pdf

Slide 4

La littérature professionnelle affirme souvent que les chercheurs ne veulent pas partager leurs données, et que cela représenterait l’un des plus gros obstacle à la gestion des données de la recherche. C’est incontestable. Il apparaît néanmoins que les chercheurs ne sont pas satisfaits de la situation actuelle. Ils sont trop abandonnés à eux-mêmes et doivent se procurer des solutions.

Le rapport final de bwFDM-Communities (http://bwfdm.scc.kit.edu/downloads/Abschlussbericht.pdf) mène à la conclusion que les chercheurs ont des réserves par rapport à une gestion des données structurée (i.e. prescrite, imposée), souhaiteraient toutefois un soutien pour le management des données de leur propre activité de recherche. Ils apprécieraient en particulier avoir des possibilités d’interconnexion entre données et les publications ainsi qu’une prise en charge de l’archivage à long terme. Ce pourraient être de nouvelles missions pour les bibliothèques.

Slide 5

Slide 6

Slide 7

Les diapositives précédentes ont démontré que de nombreux chercheurs seraient contents d’avoir un service de conseil sur les outils et éventuellement des documents d’introduction. Les exemples ci-dessus proposent ici une première approche du monde extrêmement divers des outils.

Sur une telle base, une bibliothèque peut ensuite offrir un soutien plus approfondi, de telle sorte que les chercheurs puissent gérer plus facilement leurs données. Par exemple en garantissant un accès à certains logiciels ou en recommandant des formations pour des outils spécifiques. Le relai vers des MOOCs ou des cours vidéos sont des services classiques de bibliothèques, qui pourraient réellement contribuer à lancer les chercheurs dans la gestion de leurs données.

Slide 8

Il va sans dire que les chercheurs travaillent sur des sujets de recherche différents. On argue souvent que chaque projet a besoin de ses propres outils, ce qui est certainement vrai dans beaucoup de cas. Il existe néanmoins des tâches apparaissant dans de très nombreux projets. La liste ci-dessus énumère quelques-unes de ces tâches génériques très fréquentes.

La partie qui suit s’attarde sur certains services. Tous sont repris de l’offre de DARIAH.de.

https://dmptool.org/plans/19207.pdf

Slide 9

Le géoréférencement peut très souvent être une première forme de visualisation mettant en lumière des éléments intéressants. Le navigateur géographique de DARIAH.de permet avec un simple outil de saisir des données avec un éditeur, d’insérer des coordonnées de lieux et enfin de représenter les données sur des cartes historiques ou actuelles. Sur l’image : les lieux de publication des textes de Franz Kafka.

https://geobrowser.de.dariah.eu/edit/index.html#id=404651

Slide 10

Le second exemple est une base de données de personnes. Celle-ci permet de saisir aisément des données sur des personnes. Si les chercheurs d’un institut entretiennent ensemble un corpus avec ce genre de données, de nouvelles relations peuvent être générées.

https://de.dariah.eu/personendatenrepositorium

Slide 11

Le troisième exemple d’outil générique est un simple logiciel d’analyse de fréquence de mots dans un corpus textuel.

http://voyant-tools.org/

Slide 12

Comme quatrième exemple, voici un outil pouvant faciliter le travail collaboratif. Les logiciels assurant ce genre de fonction sont très nombreux en ce moment. Ce pourrait être la tâche des bibliothèques que d’assister le chercheur dans le choix du bon outil.

http://etherpad.org/

Slide 13

Ces quelques exemples illustrent la nécessité d’orienter les chercheurs dans la pléthore de l’offre disponible. Il est envisageable que les chercheurs d’un institut travaillent sur des sujets différents en utilisant les mêmes outils. C’est là que les bibliothèques, si elles encouragent l’utilisation de ces outils, peuvent contribuer à ce que les données de recherche soient saisies de manière systématique. Il est tout à fait possible que, au sein d’un institut, la création d’un corpus textuel commun ou d’une base de données de personnes ouvre de nouvelles perspectives.

Slide 14

Slide 15

Slide 16

Dans les humanités numériques, la documentation du processus de création des données de recherche a peut-être une importance encore plus importante que dans d’autres disciplines. Le « throughput » lui-même représente des données. La documentation est moins fiable lorsqu’elle est saisie au moyen de divers instruments. La tenue d’un cahier de laboratoire électronique s’impose alors.

Dans les industries des sciences de la vie, les ELN (electronic laboratory notebook) commerciaux sont bien établis. Ils sont à  l’inverse à peine répandus dans les humanités numériques. Des outils collaboratifs génériques, tels SharePoint ou Confluence, peuvent ici aussi fournir de bons services.

Slide 17

SharePoint et Confluence sont des outils très puissants, ne révélant leur efficacité que s’ils ont été implémentés correctement. Ceci est une tâche des hautes écoles. Si l’implémentation n’est pas entreprise systématiquement, les chercheurs se reportent rapidement sur d’autres outils.

Slide 18

EverNote ou OneNote représentent des alternatives moins complexes que les outils mentionnés précédemment, et peuvent également être utilisés pour la collaboration. Ils se basent sur des solutions cloud, ce qui suppose un certain risque de sécurité pour les données. Les bibliothèques peuvent informer sur l’existence de ces outils ainsi que sur les opportunités et risques qui y sont liés. Elles peuvent aussi faire en sorte que tous les chercheurs utilisent le même logiciel, ce qui faciliterait déjà grandement la gestion des données de recherche.

Slide 19

Chaque projet implique aussi une gestion de projet. Le tableau kanban est aujourd’hui une méthode très répandu pour une planification de projet agile. Trello est un outil pouvant afficher un tableau kanban et gérer notes et annexes – l’une des nombreuses possibilités permettant de faciliter la documentation de la création des données de recherche.

Slide 20

Slide 21

Traduction du graphique:

Dépôt disciplinaire (130)

Dépôt pluridisciplinaire (40)

Dépôt central (i.e. institutionnel)(35)

Slide 22

Les chercheurs en sciences culturelles et humaines souhaitent augmenter la réutilisation et la visibilité des données ; c’est la principale plus-value qu’ils attendent des dépôts disciplinaires. Aussi longtemps que ceux-ci ne sont pas prêts à l’utilisation – comme en Suisse –, il s’agit de mettre en place des solutions provisoires.

Méthodes possibles :

  • Mise en place de son propre dépôt institutionnel
  • Utilisation d’un dépôt déjà existant – aperçu sur : http://www.re3data.org/

Slide 23

Voici encore une alternative pouvant être particulièrement intéressante, car elle permet de gérer ensemble données et publications. Il s’agit néanmoins d’une solution propriétaire – avec tous les désavantages que cela implique.

Slide 24

Slide 25

LOOK

D’autres outils utiles sont présentés sous :

https://wiki.de.dariah.eu/display/TextGrid/Subject-specific+Tools+and+Services

Des informations plus détaillées sur les possibilités offertes par les outils de Textgrid et sur les expériences réalisées sont disponibles sous :

Neuroth, Heike, Rapp, Andrea, Söring, Sibylle (éd.), TextGrid: Von der Community – für die Community. Eine Virtuelle Forschungsumgebung für die Geisteswissenschaften, 2015: https://univerlag.uni-goettingen.de/bitstream/handle/3/Neuroth_TextGrid/TextGrid_book.pdf

 

Exercice : cahier de laboratoire électronique
  • Savez-vous avec quels outils les chercheurs de votre institution documentent leurs activités ?
  • Ont-ils un serveur commun ou un outil de GED à disposition, leur permettant de gérer les principaux documents/données ?
  • Votre bibliothèque peut-elle mettre à disposition des chercheurs un cahier de laboratoire électronique ?
  • Votre bibliothèque propose-t-elle des formations aux outils de gestion de références bibliographiques ? L’utilisation d’un cahier de laboratoire électronique peut-elle être promue par ce genre de formations ?
Exercice : que faire jusqu’à ce qu’un dépôt national pour les données des humanités numériques soit mis en place ?

L’exercice consiste en deux parties.

Dans un premier temps, cherchez des dépôts comportant des données semblables à celle qui sont produites dans votre institution. Ces dépôts peuvent éventuellement représenter des alternatives à un dépôt disciplinaire national. Utilisez pour cette recherche le service http://www.re3data.org/

Pour évaluer si les dépôts que vous avez trouvés sont envisageables, posez-vous les questions suivantes :

  • Les données sont-elles suffisamment décrites et utilisables ?
  • Les données sont-elles indexées par les moteurs de recherche et accessibles via des métacatalogues ?
  • Comment les chercheurs peuvent-ils y trouver des données publiées ?

Dans un deuxième temps, demandez-vous si ces dépôts se prêtent également à la publication des données de votre institution :

  • Les données sont-elles suffisamment décrites et utilisables ?
  • Les données sont-elles indexées par les moteurs de recherche ?
  • Pourriez-vous recommander les dépôts en question aux chercheurs de votre institution pour la publication de leurs données ?
  • Si vous avez encore des doutes, demandez-vous à nouveau à quel point un service national est important. Ne serait-il pas possible de publier les données sur TextGrid Rep ?
  • Un dépôt disciplinaire est-il obligatoire ? Sinon, Zenodo pourrait être intéressant.
Exercice : entreprendre une tâche d’envergure à petits pas ?

Débattez :

  • Comment débutez-vous avec la gestion des données de la recherche ?
  • Êtes-vous en mesure de remplir la mission principale de la bibliothèque : garantir l’accès aux données ?
  • Où pouvez-vous traiter les données ?
  • Pouvez-vous garantir que le throughput est documenté ?
  • Pouvez-vous offrir des aides aux chercheurs pour la gestion du throughput ?
  • Mettez-vous à disposition des outils pour la production des données ?
  • Comment les mesures ci-dessus modifient la relation bibliothèque-chercheurs ?

TAKEAWAYS

Takeaways

Dans le cadre des projets TextGrid et DARIAH-DE ont été développés de nombreux outils pouvant fournir de bons services aux chercheurs des humanités numériques. Les bibliothèques peuvent incarner le lieu qui sensibilise à leur usage – à l’instar de ce qui se fait pour les logiciels de gestion de références bibliographiques. Elles ont la possibilité de collaborer plus intensivement avec les chercheurs et de contribuer ainsi à rendre la production et la gestion des données de recherche plus systématique.

Il n’existe pas encore de dépôt disciplinaire national pour les données des humanités numériques en Suisse. Néanmoins, on compte déjà divers services pour la gestion et l’archivage des données de la recherche. Les premières étapes peuvent être entreprises aujourd’hui.

Citation
STETTLER, Niklaus. Module 8: Outils. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: http://www.researchdatamanagement.ch/fr/module-8/