RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 3-1

Linked Data

Pour avoir une coopération fructueuse avec les chercheurs, les bibliothécaires-données (data librarians) doivent avoir une idée de la manière dont les données sont réutilisées, ainsi que des exigences qu’elles doivent satisfaire. Ce module vise à illustrer quels usages peuvent être faits de données de la recherche publiées. Il prendra l’exemple de l’utilisation de données liées.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Objectifs d’apprentissage

Ce module vous permettra de :

  • vous familiariser avec les concepts de base des données liées, et d’apprendre à les utiliser au moyen d’exemples concrets
  • vous familiariser avec le langage d’interrogation SPARQL et de reconnaître le potentiel des données liées
  • constater que l’interconnexion de jeux de données permet de faire de nouvelles découvertes.

SCENARIO

Stefan est collaborateur scientifique au sein d’une haute école et travaille sur la thématique du développement de l’innovation. Dans le cadre de sa thèse de doctorat, il souhaite mettre en lien des données démographiques et socioéconomiques issues de différents pays, et sur cette base effectuer une analyse pour éventuellement découvrir des corrélations intéressantes. Pour son étude, plusieurs jeux de données existent, néanmoins très hétérogènes car ils proviennent de bases de données et de dépôts différents. Pour pouvoir être traitées, ces données doivent d’abord être nettoyées et transformées. Ceci nécessite beaucoup de temps et de savoir-faire, vu les divers formats et modèles de données présents, ne contenant pas toujours les métadonnées nécessaires. Stefan réfléchit à la possibilité de réaliser une intégration simplifiée des données, et découvre ainsi le potentiel des données liées.

Slide 1

Slide 3

C‘est leur interprétation qui rend les données utiles. Elles doivent pour cela être bien documentées et préparées.

Slide 4

Plus j’en sais sur la source et plus la base de départ que je crée ou utilise est détaillée, plus le potentiel de nouvelles découvertes est important.

Slide 6

Les visualisations peuvent être utiles à l’interprétation des données. De grandes quantités de données et des structures complexes deviennent plus claires. Une visualisation efficace nécessite cependant des connaissances pointues.

Slide 7

Les données ouvertes se basent généralement sur des formats, des standards de métadonnées et des modèles de données différents. La question suivante se pose alors: à quel degré les données sont-elles ouvertes?

La qualité et la documentation des données ne sont pas les seuls critères décisifs pour la réutilisation; les données doivent aussi être interopérables. L’intégration de données hétérogènes représente souvent un obstacle et un défi pour les chercheurs lors de la réutilisation.

Slide 8

Pour pouvoir être utilisées, les données doivent souvent être cherchées, vérifiées, nettoyées et transformées au prix d’efforts acharnés, afin qu’une comparaison ou une interconnexion soit possible.

Les données doivent être interopérables, aussi bien structurellement et syntaxiquement (par exemple sous forme de services web) que sémantiquement (au moyen de transformations de modèles).

Slide 9

L’aspect de l’interprétation automatique des données publiées est important: comment les contenus peuvent-ils être compris par des machines?

Slide 10

Intégrer des données au moyen du Linked Data, comment ça marche?

Nous interconnectons les données avec des données de diverses sources, ainsi qu’avec leurs descriptions et relations. Nous en créons des données que l’on peut rechercher, agréger et réutiliser.

Que nous apporte le Linked Data?

  • un modèle uniforme pour la représentation de données hétérogènes
  • une réutilisation simplifiée
  • l‘interconnexion des données est aisée
  • l‘évolution des schémas de données est possible
  • utilisation d’entités déjà existantes chez d’autres prestataires de données
  • enrichissement de ses propres données par leur interconnexion
  • optimisation des possibilités de recherche
  • les vocabulaires peuvent être aisément réutilisés et étendus selon les besoins

Le Linked Data permet la recherche, l’interconnexion, la description et la réutilisation de tous types de données.

Slide 11

Idée: évolution d’un réseau de documents («web of documents») vers un réseau de données («web of data») composés d’assertions fractionnées et lisibles par machine. Grâce aux méthodes d’inférences logiques, on peut générer des connaissances supplémentaires.

Slide 12

RDF est une syntaxe générale pour la représentation de données sur le web. Chaque information exprimée en RDF est dite «triplet» et fait partie d’un graphe.

Cela signifie que des faits sont décrits de manière isolée et indépendantes, sous forme de triplets (sujet-prédicat-objet). Des URIs sont utilisés pour identifier les entités/ressources.

Slide 13

Les triplets peuvent être reliés entre eux et représentés au moyen d‘un graphe.

Slide 14

Un graphe RDF est un ensemble de triplets RDF. Grâce à ce modèle, des données dispersées peuvent facilement être reliées entre elles.

La sérialisation de graphes RDF peut se faire selon diverses syntaxes: Turtle, N-Triples, RDF/XML, JSON-LD.

Exemple en syntaxe N-Triples:

<http://www.europeana.eu/portal/record/03919/FCD38BDE7A03579F24BEDA5D157943B75BB36F11.html><http://purl.org/dc/terms/creator><http://dbpedia.org/resource/Leonardo_da_Vinci> .

Slide 15

Dans la mesure du possible, les ontologies les plus connues sont à préférer. Les vocabulaires RDF peuvent être réutilisés et étendus sans trop de problème.

Le site http://lov.okfn.org/dataset/lov/ permet de chercher des vocabulaires RDF déjà existants.

Slide 16

Source: Thull, Bernhard, Kerstin Diwisch, and Vera Marz. « Linked Data Im Digitalen Tanzarchiv Der Pina Bausch Foundation. » X.media.press Corporate Semantic Web (2015): 259-75. Web.

Slide 17

Slide 18

SPARQL in 11 minutes

PREFIX pour URIs (Namespaces)

SELECT pour le choix (variables apparaissant dans les résultats), WHERE pour les conditions

WHERE définit des conditions pour les variables et les comparaisons

SPARQL endpoint public de DBpedia:

http://dbpedia.org/sparql

Slide 20

LOOK

Aperçu des ressources pédagogiques sur le Linked Data

The Program for Cooperative Cataloging’s Standing Committee on Training has released a revision of their Report on Available Linked Data Training Resources / Environmental Scan Summary.

PCC Summary on Linked Data Training Resources

TAKEAWAYS

Takeaways

Nous avons vu que nous pouvons relier les données et créer des requêtes complexes.

Conditions :

  • les données peuvent être recherchées et interprétées
  • les données sont complètes et suffisamment documentées
  • la qualité des données est bonne
  • les données sont disponibles en RDF
  • les ontologies utilisées doivent être connues
Citation
MASTRANDREA, Elena. Module 3-1: Linked Data. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: /fr/module-3-1/