RESEARCH DATA MANAGEMENT

E-LEARNING PLATFORM

Module 7-2

Perspectives et outils de la TEI

Ce module présente les principes de base de la Text Encoding Initiative (TEI).

Il cherche aussi à identifier dans quelle mesure le processus éditorial a évolué et quels outils existent à ce jour pour les activités de transcription, de collation et de publication en TEI.

All cartoons courtesyof JørgenStamp,
Digitalbevaring.dk.CC BY 2.5.

  35 min

Objectifs d’apprentissage

Dans ce module, vous apprendrez

  • quel rôle joue la TEI dans le processus éditorial
  • à quelles évolutions ce processus fait face.

SCENARIO

La réorientation du projet d’édition pour lequel travaille Luc a pour principal leitmotiv l’interopérabilité. Au-delà de l’utilisation de la TEI, déjà acquise dans le projet précédent, Luc étudie comment et avec quels outils on peut garantir une bonne interopérabilité ainsi que les aspects de l’Open Access, l’Open Data et l’Open Source.

 

Slide 1

Slide 2

Slide 3

Ce module introduit la Text Encoding Initiative (TEI).

Slide 4

L’un des éléments déclencheurs de la TEI a été le fait que, dans les années 80’, presque chaque projet utilisait un format binaire maison. La TEI a donc été une initiative pour créer un langage commun à tous ces projets.

Slide 5

La TEI se base entièrement sur XML. C’est une application de XML pour les textes.

Slide 6

XML a ses avantages et ses défauts, surtout en lien avec la représentation des structures hiérarchiques.

Slide 7

La TEI n’est pas un standard, mais une série de recommandations articulées en différents modules. Un document peut avoir une en-tête TEI très riche; c’est là où sont saisies les métadonnées du texte.

(Voyez les exemples sur la page de e-codices; choisissez pour ce faire un document numérisé et cliquez sur «Description», puis «Show XML».)

Slide 8

Cette diapositive montre à titre d’exemple un encodage de texte en XML.

Comme vous pouvez le voir, il s’agit d’une tentative de représentation de la structure du document.

Slide 9

Cette forme de balisage démontre un travail éditorial important sur certains aspects, par exemple ici la représentation de deux graphies pour le mot «delivered».

Slide 10

Cet exemple montre comment la TEI permet de marquer certains passages flous.

Slide 11

Cet encodage tente de représenter le processus d’écriture de l’auteur.

Slide 12

Des imbrications hiérarchiques sont possibles, par exemple ici une liste au sein d’un paragraphe, lui-même au sein d’un chapitre.

Slide 13

Pour chaque document, diverses représentations TEI sont possibles. En haut à gauche, il s’agit d’une reproduction visuelle du texte, respectant la casse. En bas, la représentation est plutôt centrée sur le contenu.

Slide 14

En haut, plusieurs variantes d’écritures sont exprimées, en ancien français et en français moderne. En bas, la structure linguistique est analysée, avec indication pour chaque mot («w») s’il s’agit d’une préposition, d’un article, d’un substantif, d’une conjonctions de coordination, etc.

Slide 15

Dans le cas ci-dessus apparaît un appareil critique. Il permet de séparer les données des outils, et de considérer les données sous un angle nouveau.

Slide 16

Les éléments et attributs constituant la TEI sont définis grâce à la technologie des schémas XML.

Slide 17

La TEI comprend énormément d’éléments et d’attributs. Certains ne sont pas forcément tous utiles ou au contraire manquent. C’est pourquoi on peut personnaliser la TEI en fonction de ses besoins.

Slide 18

Slide 19

Numérisation ne signifie pas toujours simplification. Au contraire, le processus éditorial d’aujourd’hui est d’une complexité sans pareille, et est même devenu dans certains cas encore plus compliqué.

De plus, tous les problèmes n’ont pas encore reçu de solution et on innove à un rythme effréné. Ce qui est aujourd’hui considéré comme moderne risque d’être dépassé demain déjà.

Slide 20

Ceci concerne la recherche de sources…

Slide 21

… tout comme l’accès aux sources…

http://eebo.chadwyck.com

https://www.hathitrust.org/

Slide 22

… les processus…

http://www.impact-project.eu/

Slide 23

… et les outils de transcription.

Illustrant ce dernier aspect, la partie suivante de ce module (au-dessous de ce diaporama) présente une série d’outils de transcription.

Slide 24

La comparaison de variantes de textes a également évoluée, aujourd’hui des logiciels permettent d’automatiser une bonne partie du travail.

Slide 25

Il existe divers instruments pour faire ce travail de comparaison, puis de collation (assemblage). Des exemples vous sont aussi présentés dans la partie suivante de ce module.

Slide 26

Enfin, il existe une multitude de médias différents sur lesquels des éditions numériques peuvent être présentées.

Slide 27

Voici ici quelques outils pour la publication de TEI. Leurs caractéristiques sont synthétisées sous forme de tableau après cette présentation.

Slide 28

Deux tendances sont beaucoup discutées actuellement: le Linked Open Data (LOD) et IIIF (prononcé à l’anglaise «triple I F»).

Les deux – tout comme la TEI, qui est en quelque sorte un précurseur du web sémantique – visent un échange facilité des données. IIIF concerne avant tout l’interopérabilité des images, et le LOD celle des métadonnées.

https://ddmal.github.io/diva.js/

Slide 29

Parallèlement, l’ouverture des données gagne en importance. Il s’agit ici essentiellement de l’accès pour tous, de la renonciation aux droits d’auteurs et de la durabilité lors de la création d’algorithmes et d’outils numériques.

Slide 30

En ce qui concerne la TEI, nous vous avons résumé pour conclure certaines précautions pouvant être prises.

Slide 31

‣Women Writers Project, RESOURCES FOR TEACHING AND LEARNING TEXT ENCODING

http://www.wwp.northeastern.edu/outreach/

‣Digital.Humanities@Oxford, Initiation à l’encodage XML-TEI

http://tei.it.ox.ac.uk/Talks/2011-02-aix/

TEI By Example project

http://teibyexample.org/TBE.htm

Slide 32

LOOK

Vue d’Ensemble « Perspectives et outils de la TEI »

Voici trois blocs comprenant divers outils :

1 – Une série d’outils de transcription

2- Une série d’outils de collation

3- Une série d’outils de publication de TEI

Exercise
  1. Téléchargez le fichier TEI proust.xml ci-dessous.
  1. Faites valider la syntaxe de ce fichier
    1. soit en vous rendant sur le service de validation en ligne du site « TEI By Example » (TBE). Il faut alors copier et coller le contenu du fichier dans la zone blanche, puis cliquer sur « Validate ! ».
    2. soit en utilisant votre propre logiciel XML si vous en possédez un (ex. : Oxygen).
  2. Le document est-il bien formé et valide ? Si non, essayez d’en corriger les erreurs.
    Pour corriger les erreurs, lisez attentivement le résultat de l’étape de validation, puis éditez le fichier XML

    1. soit en utilisant votre propre éditeur XML.
    2. soit en utilisant un éditeur en ligne (ex. : tutorialspoint).
    3. soit directement dans la zone blanche du validateur en ligne.
  3. Validez à nouveau le fichier jusqu’à ce qu’il soit correct.

Attention ! Il se peut que le validateur bug si vous utilisez la fonction « Upload ». Nous vous recommandons d’utiliser le copier-coller dans la zone blanche.

Solution

Le fichier n’est pas valide et comporte trois erreurs.

  • La première erreur est de type syntaxique : les éléments sont mal imbriqués. L’élément « body » comporte une mauvaise balise fermante en trop, à supprimer.
    Ligne 20 : corriger <body /> en <body>

A présent, le document est bien formé (la syntaxe XML est correcte) mais ne remplit pas les critères de la TEI.

  • Selon la TEI, l’élément « class » ne peut être vide.

Ligne 22 : supprimer toute la ligne <class>unknown</class>

  • Selon la TEI, l’élément « div » ne peut comporter d’attribut « addition ».
    Ligne 27 : supprimer l’attribut addition= »unknown »

A présent, le fichier et valide !

Solution : XML-File_solution

TAKEAWAYS

Takeaways

Dans ce module, vous avez appris ce qu’est la Text Encoding initiative, à savoir une série de recommandation pour le balisage de textes, ainsi qu’un outil flexible permettant de séparer le contenu de la fonctionnalité.

Vous avez également appris qu’il existe une vaste palette d’outils pour chaque étape du processus éditorial.

 

Citation
PUGIN, Laurent. Module 7-2: Perspectives et outils de la TEI. In: MASTRANDREA, Elena, PRONGUÉ, Nicolas, SCHNEIDER, René et STETTLER, Niklaus, Manuel de gestion des données de la recherche [en ligne]. HTW Chur – HEG Genève, 2017. Disponible à l’adresse: http://www.researchdatamanagement.ch/fr/module-7-2/