Text Encoding Initiative
TEI Text Encoding Initiative
La Text Encoding Initiative (abrégé en TEI, en français « initiative pour l’encodage du texte ») est un format de balisage et une communauté académique internationale dans le champ des humanités numériques visant à définir des recommandations pour l’encodage de ressources numériques, et plus particulièrement de documents textuels. Depuis 1987, le modèle théorique s’est adapté à différentes technologies, d’abord sous la forme d’une DTD SGML, puis XML. Dans sa version P5 (2007), le schéma TEI est représenté dans plusieurs langages, et notamment, Relax NG. Le schéma TEI est un noyau autour duquel gravitent beaucoup d’activités coordonnées sous forme de comités démocratiques et internationaux pour, notamment, conduire la maintenance et la croissance du schéma, rédiger la documentation, développer des outils génériques, assurer le support sur des listes de diffusions et faire connaître le format. ObjectifsSelon l'un de ses fondateurs, Lou Burnard, le but de la TEI est de « fournir des recommandations pour la création et la gestion sous forme numérique de tout type de données créées et utilisées par les chercheurs en Sciences humaines et sociales[1] ». Les trois principales raisons d'utiliser la TEI sont selon lui les suivantes :
Origine : les « principes de Poughkeepsie »Le projet TEI a commencé le aux environs de New York, à Poughkeepsie. Une conférence organisée avec un cofinancement de la fondation nationale américaine pour les sciences humaines (National Endowment for the Humanities)[2] et de l’Union européenne a résulté en un texte définissant ses objectifs. Bien avant la fondation du W3C, un groupe se proposait de définir des recommandations pour l’encodage des textes informatiques. Après plus de trente ans, ces principes restent d’actualité pour décrire l’intention de la TEI, tant dans ses documents et son code, que son organisation. Le plus simple est de proposer une traduction de ces principes pour comprendre de quoi il s’agit[3]. ![]() Les recommandations visent à fournir un format standard pour favoriser l’échange de textes dans les sciences humaines et à suggérer des principes abstraits pour l’encodage des textes. Elles doivent définir une syntaxe recommandée pour ce format, définir un métalangage pour la description des structures d’encodage de textes, puis décrire ce format et ces structures, à la fois dans ce métalangage et en langage naturel. Les recommandations doivent également proposer des ensembles de conventions d’encodage adaptés à plusieurs applications différentes. Notamment, il faut qu'elles incluent un ensemble minimal de conventions pour l’encodage de nouveaux textes. Les recommandations seront rédigées par plusieurs commissions coordonnées par un comité d’organisation représentant les principaux organismes impliqués (financièrement ou pas). On distinguera :
La compatibilité avec des standards existants sera maintenue le plus longtemps possible. Plusieurs grandes bibliothèques de textes sont d’accord sur le principe de soutenir les recommandations de la TEI dans leur fonction de format d’échange, encourageant tous les commanditaires à soutenir le développement d’outils pour faciliter cet échange. La conversion de textes numériques existants vers ce nouveau format implique la traduction de leurs conventions dans la syntaxe du nouveau format. Aucune information supplémentaire n'est exigée pour la conversion dans ce nouveau format. La TEI est donc une organisation qui se réunit pour définir un format d’encodage. Dès l’origine sont distingués la représentation des composants textuels, qui ne dépend pas d’un ou plusieurs chercheurs et peut valoir pour une communauté large sur le long terme, et l’interprétation propre à une expérience, un projet de recherche, une école, ou une discipline. Cette information s’est jusqu’ici inscrite sous forme de balises, dans un schéma XML (ou SGML) ; mais elle est aussi réfléchie comme des principes abstraits, indépendants de toutes technologies, afin de faciliter l’importation en provenance d’autres formats, ainsi que le transcodage dans les formats futurs. Historique (schéma et organisation)
![]() La TEI a été initiée en 1987 par trois sociétés savantes, l'Association for Computers and the Humanities[5], l'Association for Computational Linguistics[6] et l'Association for Literary and Linguistic Computing[7]. À l'heure actuelle, le « TEI Consortium » est une institution sans but lucratif financée par ses 64 membres[8], parmi lesquels on compte : le Research Technologies Service[9] à l'université d'Oxford (Royaume-Uni) ; le Scholarly Technology Group[10] à l'université Brown (États-Unis) ; un groupe francophone de recherche, à Nancy, composé de l'ATILF, de l'INIST, et du LORIA ; l'Electronic Text Center[11] et l'Institute for Advanced Technology in the Humanities[12] à l'université de Virginie (États-Unis) ; OpenEdition (France). Le consortium s’organise en différentes instances[13]. La TEI Board of Directors[14] (conseil d’administration) décide de la direction stratégique et de la gestion financière. La TEI Technical Council[15] (conseil technique) maintient et développe les recommandations ainsi que les systèmes TEI. Les TEI Workgroups[16] (groupes de travail) sont des groupes spécialisés conduits par le conseil technique qui doivent faire des propositions concrètes pour les recommandations (ex : bibliographie, encodage de caractères…). Finalement, les TEI Special Interest Groups[17] (groupes d’intérêt spécifique) sont des groupes qui travaillent autour d’un sujet en lien avec la TEI mais pas nécessairement destiné à alimenter les recommandations (ex : outils, correspondances, enseignement…). Exemple introductifPour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du Cid de Pierre Corneille[18]. On cherche à représenter :
Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ». <h1>Acte II, Scène 2</h1>
<br /> <b>DON RODRIGUE</b> À moi Comte, deux mots.
<br /> <b>LE COMTE</b> ... Parle
Avec le schéma TEI, on obtiendrait ceci : <div type="act" n="II" xml:id="II"><head>Acte II</head>
<div type="scene" n="2" xml:id="II2"><head>Scène 2</head>
<sp><speaker>Rodrigue</speaker>
<l part="I">À moi, comte, deux mots.</l></sp>
<sp><speaker>Comte</speaker>
<l part="M">Parle</l></sp>
<sp><speaker>Rodrique</speaker>
<l part="F">Ôte-moi d'un doute</l>
<l>Connais-tu bien Don Diègue ?</l></sp>
<sp><speaker>Comte</speaker>
<l part="M">Oui</l></sp>
<sp><speaker>Rodrigue</speaker>
<l part="F">Parlons bas, écoute.</l>
<l>Sais-tu que ce vieillard fut la même vertu,</l>
<l>La vaillance et l'honneur de son temps ? Le sais-tu ?</l></sp>
...
</div>
...
</div>
La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). En fait, « les conventions élaborées dans le cadre du TEI visent à permettre la description de la manière dont un document a été créé ainsi que la façon dont il a été structuré : pages, paragraphes, lignes, chapitres, dialogues, soulignements, ajouts marginaux, ratures, etc. »[19]. Cet exemple montre notamment l'imbrication des actes et des paragraphes : deux éléments Notion de balisagesStructure globale
Structure des métadonnées
Comparaison avec d’autres schémasLa TEI n’est pas le seul langage de balisage de document. Sa naissance doit beaucoup à la normalisation officielle de SGML ISO 8879:1986 qui posait déjà les principes fondamentaux qui inspirent TEI. En effet, une application SGML doit distinguer strictement un schéma (DTD), une feuille de style isolant les informations de présentation, et des documents purement sémantiques, balisés selon ce schéma. Vers la même époque sont apparues d’autres applications SGML dont certaines existent encore, DocBook (1991), EAD (1993), ou HTML (1993). Ces trois exemples permettront de mieux situer TEI par comparaison avec d’autres milieux et besoins s’emparant de la même norme SGML. Docbook, EAD et HTML permettent de bien situer la différence de TEI parce que beaucoup de membres de la communauté connaissent très bien ces autres schémas et se situent relativement à eux. S’intéressant d’abord à l’encodage des textes du patrimoine, ce schéma concerne surtout les milieux académiques, les institutions de conservation (bibliothèques, archives), et parfois un peu, les maisons d’édition. DocbookDès sa naissance, Docbook s’est concentré sur la documentation technique, et plus particulièrement, informatique. En associant le développement logiciel UNIX (commercial et libre) avec un éditeur de livres informatique O'Reilly, le schéma s’est donné d’emblée plusieurs destinations à satisfaire automatiquement à partir d’un même document balisé : impression papier, man page (manuel UNIX pour la console), puis HTML. La communauté est organisée comme un projet logiciel libre, avec un comité qui se réunit régulièrement pour présider à la croissance ordonnée du schéma selon les propositions des utilisateurs. Ce schéma est de taille comparable à TEI (v5, ~400 éléments), mais plus limité car plus précis dans ses objectifs. Docbook distingue par exemple explicitement les éléments L’attention que la TEI porte au texte lui complique lourdement la tâche d’exploitation des documents. Le simple développement de feuilles de style ne donne pas des résultats satisfaisants pour toute la variété des documents possibles. Docbook, grâce à la restriction de ses objectifs, est un modèle de déploiement applicatif d’un schéma (ex : la plupart des distributions linux ont un paquet pour le schéma Docbook et les transformations XSLT). EADComme la TEI, l’EAD (Encoded Archival Description : description archivistique encodée) concerne les documents patrimoniaux ; mais il s’agit d’un schéma métier, restreint dans son approche et sa vision du document. C’est d’abord la transposition XML de la Norme générale et internationale de description archivistique, l’ISAD(G). L’EAD encode principalement des inventaires de fonds d’archives, mais elle dispose d’assez d’éléments et d’attributs pour transcrire le texte des documents. EAD a beaucoup emprunté à la TEI Elle est très stable dans le temps : la version 1 date de 1998 (SGML), la version 2 date de 2002 et consiste surtout à transposer la version 1 en XML, la troisième version a été publiée en 2016. L’EAD pourrait représenter une sorte d’idéal d’interopérabilité pour les documents XML patrimoniaux, mais ce résultat s’obtient par une grande limitation. HTMLHTML s’affiche comme une application SGML[21], souhaitant respecter les principes de séparation entre sémantique et présentation, avec une centaine d’éléments. Cependant les éléments sémantiques Pensée modulaire du schémaLes 582 éléments de la TEI (en 2020) constituent un dictionnaire très important, avec une combinatoire potentiellement imprévisible. Cette complexité serait difficile à maîtriser dans sa totalité, tant par les utilisateurs que les développeurs, s’il n’y avait pas des regroupements et de la hiérarchie. Comme n’importe quel langage de programmation, les syntaxes de schéma permettent de factoriser des déclarations répétitives. Soit par exemple la structure de contenu d’un paragraphe, il peut enchâsser du texte et des balises diverses : italique, noms de personnes, apparat critique… Un item de liste, une note de bas de page, ou une citation, bien d’autres éléments textuels peuvent partager une structure de contenu similaire à un paragraphe. Il ne serait pas rationnel de répéter la même déclaration pour chaque conteneur de niveau paragraphe, d’autant que cela compliquerait la maintenance du schéma (si par exemple un élément est introduit, il faudrait l’ajouter dans tous les lieux où il peut être pertinent). Dès SGML, les DTDs proposèrent le mécanisme des entités paramètres, sur le modèle des macros. Un langage de schéma XML permet donc de définir des raccourcis pour remplacer une déclaration plus importante. Ainsi par exemple, la TEI a une macro.paraContent[22] qui définit le contenu de 52 éléments différents. Modulariser un gros schéma n’est pas spécifique à TEI, EAD a une macro para.content[23], HTML parle de flow content[24] et Docbook stipule que les paragraphes, comme les citations ou les titres, contiennent tous les éléments de niveaux caractère (inline). Par ailleurs, comme une macro peut contenir une macro, récursivement, un schéma peut devenir une véritable ontologie de l’objet qu’elle modélise. Ce qui est original à TEI, c’est de montrer ces macros dans la documentation, parce qu’elles ne sont pas seulement des commodités de développeurs, mais une tentative scientifique pour décrire tous les textes possibles. Cet idéal d’organisation est cependant pondéré par l’effet social des groupes de travail à l’origine de la documentation. Selon les principes de “Poughkeepsie”, le schéma TEI se veut aussi bien décrit pour les machines que pour les humains. L’édifice s’est donc constitué en croisant l’effet de deux logiques appliquées aux textes : l’intelligence, concevant le plan général, et l’informatique, validant les détails. Il en résulte une structuration de la documentation qui apparait dès 1992, dans la table des matières de la TEI P2. L’ordre et l’organisation de ces chapitres a varié en une vingtaine d’années, mais pas les titres, que l’on retrouve presque à l’identique en 2015[25]. Chaque chapitre de prose documente un module du schéma presque indépendant, si bien que la TEI n’est pas un schéma, mais une bibliothèque de schémas librement combinables. Le consortium propose même un formulaire en ligne, Roma[26], pour que chacun puisse se construire son propre profil TEI, adapté à son corpus. Par exemple, le noyau de balises Core Tags and General Rules comprend l’entête TEI ou la page de titre électronique (TEI Header) et les balises communes à tous les schémas (Tags Available in All TEI DTDs). Les balises spécifiques de description des textes Base Tag Sets comprend le Base Tag Set for Prose (prose), le Base Tag Set for Verse (poésie), le Base Tag Set for Drama (théâtre), le Base Tag Set for Transcriptions of Spoken Texts (oral), le Base Tag Set for Printed Dictionaries (dictionnaires), etc. Enfin, les autres balises Additional Tag Sets comprennent des outils d'interprétation de liens, de segmentation et d'alignement (Segmentation and Alignment), des degrés de confiance du balisage interprétatif (Certainty), de manuscrits (Manuscripts, Analytic Bibliography, and Physical Description of the Source Text), des entités nommées (Additional Tags for Names and Dates), des graphes (Graphs, Digraphs, and Trees), des figures comme les tables, formules, images, partitions, etc. (Graphics, Figures, and Illustrations ; Formulae and Tables) et des corpus linguistiques (Additional Tag Set for Language Corpora). Ces autres balises comprennent également des outils d'analyse linguistique des phrases, propositions, syntagmes, mots, etc. (Simple Analytic Mechanisms), des appareils pour d'autres analyses possibles comme la phonétique, la sémantique, les personnes, etc. (Feature Structure Analysis), ainsi que des apparats critiques (Text Criticism and Apparatus). Pertinence de la modularitéCette apparente liberté modulaire bute cependant sur la pertinence des divisions imposées. Depuis la TEI P4[27] (2001), la table des matières ne hiérarchise plus les chapitres, ce qui masque l’articulation de ces différents groupes de balises. On retrouve pourtant l’intention initiale de distinguer profondément ce qui relève de la description des textes, et de leur interprétation. Cette distinction reste hautement pertinente et toujours à rappeler, même s’il y a nécessairement de l’imprécision sur les franges. Lorsque l’on entre dans le détail, les chapitres ne sont pas également heureux. Le chapitre sur les dictionnaires par exemple, signé par Nancy Ide (en) et Jean Véronis, est d’une qualité de modélisation toujours actuelle. Par contre, la distinction traditionnelle entre vers et prose bute frontalement sur la réalité des textes. Le théâtre classique est notoirement en vers ou en prose. Le roman semble par exemple un genre typique de la prose, pourtant Alice au pays des merveilles ou Le livre de le Jungle contiennent des chansons et donc des vers. Un roman français, par exemple Balzac, citera des lettres ou des affiches publicitaires. La critique littéraire peut citer du théâtre ou de la poésie. Lorsqu’on en vient à chercher les éléments les plus pertinents pour décrire un texte, il est nécessaire de piocher des exemples et des idées dans tous les chapitres. Les divisions de l’ontologie TEI ne fonctionnent pas vraiment. Cet ordre a été utile à la production de la documentation et reste assez logique comme plan d’exposition, mais il est à la fois trop contraignant, et pas assez, dès que l’on se met en contact avec les textes. Les appareillages proposés pour l’interprétation sont très inégaux[réf. nécessaire]. Le chapitre sur les graphes, par exemple, semble désormais obsolète[réf. nécessaire] depuis la généralisation de RDF-OWL, largement plus employé, avec un grand support logiciel. En 1990, on pouvait comprendre que la TEI doive contenir tous les types d’outils de balisage. Depuis la spécification sur les espaces de noms XML (1999), il semble beaucoup plus pertinent d’insérer un langage spécialisé comme OWL dans du TEI. L’universalité actuelle de HTML pourrait même suggérer d’en faire le noyau de la TEI, afin qu’elle se concentre sur son apport académique, plutôt que de répéter par exemple un même appareillage pour les tables, qui ne diffère de HTML que par les noms. Cette science académique du texte informatisé mérite pourtant de devenir le standard de la révolution du livre électronique en cours dans l’édition, afin d’envisager l’encodage des textes à la source, dès la production. Depuis 2015, une standardisation de la TEI se met en place dans l’édition académique, notamment en France via le développement de la chaîne d'édition multi-support Métopes[28], à l'initiative du pôle Document numérique[29] de la Maison de la recherche en sciences humaines de l'Université de Caen et via le logiciel d'édition numérique Lodel développé depuis 2010 par l'infrastructure OpenEdition Center[30] (USR 2004, anciennement Centre pour l'édition électronique ouverte, CLEO). La TEI intéresse aussi des maisons d’édition privées, par exemple la Librairie Droz, confrontée comme bien d’autres à la diffusion multi-support, tant papier que livre électronique, ou bien de bases de textes en ligne. Le vocabulaire TEI se diffuse, et avec lui un désir de pérennité, pour que les textes qui s’encodent actuellement soient compris par les générations suivantes. Notes et références
Voir aussiArticles connexesBibliographie
Liens externes
|
Portal di Ensiklopedia Dunia