RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 5

Données et humanités

Ce module vise à s‘initier aux différentes approches de la problématique des données dans les sciences humaines.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Objectifs d’apprentissage

Dans ce module, vous apprendrez

  • ce qu’est un processus de recherche en sciences humaines
  • quelles approches il existe par rapport aux données en sciences humaines
  • à quelles exigences doit répondre un centre de données de la recherche pour sciences humaines

SCENARIO

Silvia est directrice du département « Innovation et nouveaux services » au sein d’une bibliothèque universitaire en Suisse allemande. Elle est en train de mettre en place plusieurs projets de longue durée en sciences humaines, en particulier dans le domaine des éditions digitales. Cela implique de vérifier la compatibilité de l’ensemble des projets avec les aspects de la gestion des données de la recherche. Au tout début, elle souhaite d’abord avoir un aperçu de la « nature » des données dans le cadre spécifique des sciences humaines et des exigences qui leur sont liées.

Slide 1

Ce module se consacre au concept de données de la recherche dans les sciences humaines.

Slide 2

Ce module est structuré en trois parties.

Slide 3

Dans un premier temps, nous regarderons dans quelle mesure les sciences humaines se distinguent des sciences de la nature, d’un point de vue épistémologique.

Slide 4

Nous commençons par une délimitation des sciences humaines par rapport aux sciences exactes.

Traditionnellement, les sciences humaines s’intéressent moins aux lois ou au concept de preuve, mais admettent une multitude d’affirmations sur un niveau d’égalité.

Ainsi, leur approche des connaissances est plus vaste et moins réductionniste que celle des sciences de la nature, qui se centrent plus sur le principe de la certitude.

Slide 5

Le philosophe Karl Raimund Popper a décrit de manière assez précise le déroulement du processus scientifique. A vrai dire, cette description ne s’applique qu’à la méthodologie des sciences de la nature. Puisque les sciences humaines – comme cela vient d’être mentionné – ne sont pas centrées sur des lois ou des théories universelles, l’approche de Popper n’est pas valable pour elles.

Slide 6

Thomas Kuhn introduit le concept de la science normale et du changement de paradigme, où presque l’ensemble d’une communauté scientifique se voit adhérer à un point de vue et exclure les points de vue concurrents.

Le concept de science normale n’est pas problématique pour les sciences humaines; elles aussi trouvent toujours suffisamment d’adhérents et abordent de nombreux problèmes irrésolus, mais les résultats n’aboutissent en général pas à un changement de paradigme.

Folie 7

La nature exacte des sciences humaines peut être saisie avant tout par la collecte d’affirmations décrites. Ces affirmations décrivent en général des objets.

1.Elles ne sont pas exactes. Leur structure est plutôt narrative et leurs méthodes basées sur l’interprétation qualitative. Dit plus simplement: «Elles racontent des histoires et ne produisent aucune formule.»

2.Cela est lié au fait qu’elles se fondent en général sur des textes ou des fragments de textes. (Ceux-ci peuvent être les premiers candidats à devenir des données de recherche.)

3.Les textes à interpréter permettent une multitude d’affirmations (parfois contradictoires), d’autant plus qu’il s’agit souvent d’œuvres d’art. Umberto Eco utilisa pour ceci le concept d’œuvre ouverte.

4.Le choix des méthodes et les méthodes elles-mêmes sont plutôt heuristiques, c’est-à-dire qu’il n’y a pas de nécessité directe de considérer un artéfact ou de procéder d’une certaine manière plutôt que d’une autre.

Slide 8

Cette manière particulière de procéder est étroitement liée au fait que les sciences humaines tentent de décrire la complexité du monde, mais n’essaient pas de la réduire à certaines certitudes, comme le font les sciences de la nature.

Slide 9

C’est pourquoi les principes de l’émergence et des relations sont plus importants pour les sciences humaines que la certitude ou l’univocité.

http://www.suhrkamp.de/download/Blickinsbuch/9783518260012.pdf

Slide 10

Curieusement, parmi les caractéristiques des ordinateurs quantiques, beaucoup sont valables aussi pour les sciences humaines, même si cela peut sembler bizarre à première vue.

Voici tout d’abord une définition simple et facile à appréhender des ordinateurs quantiques : «L’ordinateur du futur ne calcule plus avec les classiques bits et bytes, mais avec des qubits. Ces unités d’information quantique peuvent prendre, bien plus que la simple valeur «0» ou «1», une infinité de valeurs intermédiaires – et ceci de manière simultanée. A ceci s’ajoute le fait que, lorsque l’on superpose des qubits, une opération de calcul réalisée sur l’un des qubits influence directement les autres.» (cité de: Zitat aus: Manfred Lindinger: Hier hilft die Quantenwelt beim Rechnen, FAZ vom 26.08.2016. www.faz.net/aktuell/wissen/physik-mehr/der-frei-programmierbare-quantencomputer-rechnet-mit-fuenf-ionen-14389807.html

Dans les sciences humaines, il existe une multitude de vérités – parfois complémentaires, parfois concurrentes – qui, juxtaposées, contribuent à la recherche de la vérité.

Slide 11

Les particularités des sciences humaines mènent également à la question suivante: dans quelle mesure les données générées par ce processus scientifique diffèrent des données des autres sciences?

Slide 12

Fondamentalement, on peut affirmer, à l’instar des conclusions de la première partie, que les données des sciences humaines sont plutôt qualitatives, et moins quantitatives.

En principe, les données consistent en des textes ou fragments de textes, c’est-à-dire en des continuums linéaires, plutôt qu’en des valeurs dissociables, donc discrètes et isolables.

De plus, rares sont les méthodes de statistique descriptive utilisées qui garantissent régulièrement une haute objectivité.

Au contraire, les chercheurs indiquent (d’où le terme «prescriptive») plutôt comment un texte ou un passage doit être compris. Ceci recèle souvent le danger de la subjectivité.

Slide 13

Si l’on considère la typologie habituelle des données de la recherche, on constate qu’en sciences humaines des données sont produites avant tout lors de l’établissement de références ou lors de numérisations. Ces dernières débouchent souvent sur les Digital humanities, qui sont néanmoins bien plus vastes. On peut cependant affirmer que les numérisations constituent la base des Digital humanities.

Slide 14

Cette relation devient évidente d’après la mise en confrontation faite sur cette diapositive.

Le processus de recherche débute par la recherche. C’est là que les données sont consommées, peu importe qu’elles soient numériques ou analogues (à savoir sur papier et autres supports physiques).

Ensuite, le chercheur évalue les données, annote, commente, crée des références, etc., et déverse les résultats dans un nouveau produit, en général un texte, qui en plus de son propre point de vue contient de nombreuses références. Les données ainsi produites deviennent alors partie intégrante du nouveau produit, de la publication scientifique.

Slide 15

Conformément à la nature des sciences humaines, le point de vue de la diapositive précédente n’est pas partagé par tout le monde ou – autrement dit – devrait être nuancé.

L’image ci-dessus décrit une fois encore la nature des sciences humaines. Elle représente les textes ou autres objets culturels, ainsi que les perspectives différentes qui s’y réfèrent.

Par la suite vous sont présentés (sous forme de dialogues imaginaires) plus en détails les divers points de vue sur les données de la recherche en sciences humaines.

Slide 16

Nonobstant ce qui précède, selon la perspective la plus radicale, les données au sens strict du terme n’existent pas dans les sciences humaines. Et même si elles existaient, les sciences humaines auraient toujours de la peine à les prendre en charge et à les intégrer proprement à leur processus de recherche.

Slide 17

Un autre point de vue part du principe que les données existent, mais plutôt dans les disciplines transversales, telles que la psycholinguistique ou la sociolinguistique.

Il s’agit alors principalement de données quantitatives, sur lesquelles s’applique le terme de «données» des autres disciplines.

Slide 18

Un troisième point de vue se centre sur les numérisations, qui seraient pour ainsi dire les données primaires des sciences humaines. Il ne s’agit cependant que de bits et de bytes, articulés pour former certains formats. Donc rien de spécifique aux sciences humaines.

Slide 19

Ce point de vue est renforcé par la citation de cette diapositive.

Slide 20

Ces données numériques sont ensuite traitées avec les algorithmes des Digital humanities.

Slide 21

Les numérisations sont souvent transcrites, par exemple au travers d’éditions.
C’est dans ce contexte que s’est développé le standard TEI, un langage de balisage ne permettant toutefois pas toujours d’éviter toute ambiguïté (conformément à la nature des sciences humaines).

Slide 22

Dans certains cas, les commentaires sur les transcriptions doivent eux aussi être ajoutés, soit en guise d’explication, soit en guise de proposition d’interprétation du fragment de texte.

Une nouvelle couche de données est constituée ici. Si cela se produit dans un environnement de recherche virtuel, les données sont alors numériques dès le début – contrairement aux numérisations.

Les exigences d’un environnement de recherche deviennent ainsi plus complexes.

Slide 23

Il est aussi envisageable que les chercheurs se référencent mutuellement au sein de cet environnement de travail virtuel, comme ils le font déjà avec les renvois et citations durant le processus de recherche habituel.

Un continuum de références voit le jour; avec les annotations et les commentaires, ils peuvent être désignés en tant que throughput.

Ces «données» ont toujours existé, mais traditionnellement sous forme de notes, d’extrait ou dans des bibliographies. Jusqu’à présent, la plupart des chercheurs pouvaient à peine s’imaginer que ces données soient aussi sujettes à publication.

Si tel était le cas, l’environnement de recherche virtuel devrait être intégré au sein d’une infrastructure qui permet de décrire et de publier l’ensemble des données générées durant le processus de recherche.

Slide 24

Il est donc important de faire la distinction entre les données primaires (c’est-à-dire le point de départ analogue ou numérique de la recherche) et les données secondaires (c’est-à-dire les publications scientifiques) qui résultent à la fin d’un cycle de recherche, et toutes les données produites entre deux, le throughput.

Slide 25

Il ne faut pas perdre de vue que la gestion des données de la recherche vise au final une mise à disposition durable des données. La question de l’archivage à long terme, abordée dans les modules de base 1 et 2, redevient centrale. Le chercheur doit alors entrer en dialogue avec les archivistes et les curateurs du centre de données, et mettre ses données à disposition de manière à ce qu’elles soient archivables et réutilisables.

Slide 26

Enfin, les éléments présentés jusqu’à présent peuvent se résumer en deux citations, sur cette diapositive et la suivante.

Slide 27

Slide 28

Le sujet peut aussi être représenté sous forme de pyramide, juxtaposant à nouveau les données primaires, le throughput et les données secondaires avec les concepts plus simples de sources, données de travail et publications.

Slide 29

Les données primaires et secondaires sont aussi liées à certains lieux, à savoir aux archives (pour les sources) et aux bibliothèques (pour les publications).

Ces institutions ont développé des outils appropriés pour la recherche (également dans les dépôts numériques, donc les bibliothèques numériques et les archives): catalogues, inventaires et moteurs de recherche.

Quel est leur lien avec les données?

Slide 30

Pour les données, des dépôts ou centres de données sont mis à disposition.

Mais quelle forme prennent ces centres de données? Quelles exigences doivent-ils satisfaire?

Slide 31

La troisième partie de ce module aborde cette question.

Les pages suivantes se basent sur un appel d’offres réel, effectué pour la création d’un centre de données pour les sciences humaines.

Slide 32

Des exigences de base sont tout d’abord posées pour un centre de données. Comme cela a été mentionné dans les modules de base, il s’agit au final toujours des questions de l’archivage à long terme et de la curation, donc le traitement continu des données tout au long du cycle de vie des données de la recherche, pour permettre un archivage et une réutilisation.

Slide 33

Ces exigences principales peuvent être subdivisées en trois axes.

Il faut noter que les centres de données ne sont pas constitués de machines uniquement, mais aussi d’un personnel qualifié, qui interagit avec les scientifiques.

Slide 34

La conception d’un centre de données doit commencer par une analyse des besoins, afin de satisfaire les besoins effectifs des chercheurs.

Par ailleurs, l’ensemble des questions juridiques doivent être clarifiées, notamment les questions sur le transfert de la propriété intellectuelle et sur la mise en œuvre du contrat.

Slide 35

Le transfert des données est un moment important, également dans le contexte du data continuum model.

Pour cela, les questions juridiques et de contenu doivent être clarifiées; elles doivent être pensées en lien avec les métadonnées qui décriront les données.

Une option peut résider ici dans l’utilisation du Linked Data.

Slide 36

Ensuite: ne pas oublier l’aspect de la réutilisation; ceci touche les questions de l’archivage à long terme.

L’ensemble des processus du Data life cycle doivent non seulement être modélisés, mais aussi réalisés et appuyés par des outils appropriés. Ils doivent être organisés.

Slide 37

Le conseil au chercheur et à son organisation est un service important de la gestion des données de la recherche

Une infrastructure correspondante doit être mise en place, l’exploitation de cette infrastructure doit être assurée et les coûts doivent être transparents et compréhensibles.

Slide 38

On peut toutefois se demander, après avoir pris connaissance de ce catalogue d’exigences, si ces critères sont suffisants dans le contexte de la recherche en sciences humaines.

Slide 39

D’autant plus que la première et la deuxième partie ont démontré que le processus de recherche en sciences humaines se différencie des processus en sciences naturelles a) par la continuelle multiperspectivité et en particulier b) par le throughput.

Slide 40

C’est pour cette raison que nous avons souhaité regarder un autre point de vue sur un centre de données de la recherche, qui se base bien plus sur quatre paradigmes à assurer que sur un catalogue de critères.

Ces quatre paradigmes sont décrits sur les pages suivantes (i.e. cités de la publication de Sahle et Kronenwett).

Slide 41

Slide 42

Slide 43

Slide 44

Avant toute chose, le dernier point est décisif pour la saisie et le traitement du throughput.

Le catalogue de critères présenté précédemment omet ce point.

Slide 45

Les exigences résultantes sont grandes et la réalisation extrêmement complexe.

Il est aussi envisageable qu’une répartition subsiste, selon les phases du projet.

Le throughput est pris en charge par l’aspect atelier, c’est-à-dire par les instruments de l’Active Data Management.

Slide 46

Il est relativement aisé de développer des solutions génériques pour la gestion des données de la recherche, qui englobent toutes les données et parviennent à fonctionner. Or, plus on examine les particularité des données au sein de leur discipline ou de leur projet (un procédé souvent nommé «Disciplinary Data Deep Dive»), plus on constate que la solution souhaitée diverge de la solution générique.

Dit simplement: le diable se cache toujours dans les détails.

il.

Slide 47

Enfin, on peut dire que la conception d’un centre de données pour les sciences humaines n’est pas une entreprise facile.

C’est pourquoi il est nécessaire, pour le moment, d’encourager les petites initiatives bottom-up, afin d’éviter que se créent des containers où les données disparaissent tout bonnement.

Slide 48

Il ne faut pas non plus ignorer l’un des principaux reproches: les sciences humaines – encore plus que les autres sciences – sont souvent critiquées pour le fait qu’elle s’enferment dans une tour d’ivoire, qu’elles conçoivent la recherche comme l’art pour l’art et qu’elles ne parviennent pas à sortir de leur cercle vicieux d’autoréférencement.

La gestion des données de recherche en sciences humaines devrait donc être conçue de telle sorte que les données se laissent plus facilement intégrer dans des activités de recherche interdisciplinaires ou transdisciplinaires.

LOOK

Approfondissement « Données et humanités »

En guise d’approfondissement, nous recommandons la lecture d’un article d’un e-journal ainsi que d’un billet de blog :

L’article de journal ci-dessous vous offrira une compréhension encore plus profonde des particularités du travail scientifique en sciences humaines.

TAKEAWAYS

Takeaways

Dans ce module, vous avez appris

  • que les sciences humaines se distinguent des autres sciences, notamment par l’ambiguïté des données à interpréter et par la diversité des perspectives adoptées.
  • que le terme de données (comme presque tout) en sciences humaines n’est pas sans équivoque et que le throughput – en plus de l’input et l’output du processus de recherche scientifique – est particulièrement intéressant.
  • qu’un centre de données pour les sciences humaines doit aussi prendre en considération, en plus des traditionnels aspects de l’archivage à long terme, un caractère d’atelier pour l’intégration du throughput.
Citation
SCHNEIDER, René. Module 5: Données et humanités. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: /fr/module-5/