XML/TEI eine Einführung Teil 2/3: TEI (und OxygenXML-Editor) 1
Was Sie hier erwartet Datenmodellierung XML TEI Was ist TEI? Schema-Generierung mit ROMA Header-Elemente Elemente der Textgestaltung Semantische Auszeichnungen Kritisches Editieren Verweise in TEI Warnhinweise XPath und XSLT Sonstige nützliche Werkzeuge OxygenXML-Editor 2
Was ist TEI? Oder: Wie sieht die vermeintliche eierlegende Wollmilchsau aus? 3
Was ist TEI? Einige TEI-Editionen Beispiele GAMS-Editionen in Graz Moralische Wochenschrift Gesamtbriefwechsel Wittgensteins Unterschiede zu Print-Editionen Unterschiedliche Darstellungen von demselben Text Filterungen : Keine Volltextsuche, sondern das Aussuchen der Stellen nach Markierung 4
Was ist TEI? Nicht nur Editieren Mit TEI kann man editieren Transkribieren Kommentare einfügen Kritische Apparate erstellen andere Sachen auszeichnen Namen, Datumsangaben Metadaten festhalten Wo liegen die Manuskripte? Physische Beschreibungen Geschichte der Bearbeitung Damit ändert sich die Erstellung vom Text- Corpus und der Umgang mit ihm 5
Was ist TEI? Was sagt TEI-Consortium? TEI besteht im wesentlichen aus zwei Teilen: TEI-Guidelines: Eine Ansammlung von Richtlinien, wie man etwas kodieren soll. TEI-Schema: Ein Regelwerk, welches von XML-Editoren verstanden wird. TEI liefert auch eine Web-Applikation (ROMA), welches für die Anwenderinnen angepasste XML- Schemas generiert. TEI ist opensource. Richtlinien können frei über das Internet bezogen werden. (Gedruckte Fassung kostet.) Schema-Teile und die Webapplikation können frei verwendet werden, und seine Quellcodes sind ebenfalls freizugänglich. 6
Was ist TEI? Noch ein Mal MVC-Pattern Controller View Model Im Kontext von MVC-Pattern ist TEI das Model Im Kontext von Editionen ist TEI die maschinlesbare Version des Transkripts 7
Header-Elemente in TEI Oder: Das, was in (fast) allen TEI-Dateien vorkommen 8
Header-Elemente in TEI Überblick <TEI>: Wurzel-Element <teiheader>: Header-Bereich <filedesc> <encodingdesc> <revisiondesc> <facsimile>: Einbindung von Facsimiles, optional <text>: Text-Bereich <front> <body> <back> 9
Header-Elemente in TEI <teiheader> In <teiheader> werden die Metadaten festgehalten Prinzipiell gibt es zwei Möglichkeiten, in <teiheader> Metadaten einzugeben: strukturiert oder semistrukturiert In <teiheader> finden wir Informationen über Autoren- und Herausgeberschaft, Quellen- und Standort-Angabge, Kodierungs- und Formatierungsspezifikation etc. 10
Header-Elemente in TEI <filedesc> <filedesc> <titlestmt> <title>von Ludwig Wittgenstein an Hermine Wittgenstein, [Ende August 1922]</title> <author>wittgenstein, Ludwig</author> </titlestmt> <publicationstmt> <p>ludwig Wittgenstein: Gesamtbriefwechsel, 2. Auflage</p> </publicationstmt> <sourcedesc> <p>original an der ÖNB (Autogr. 1190/1-5); Kopie im BA.<lb/>Publiziert (<hi rend="italic">familienbriefe</hi>, S. 93).</p> </sourcedesc> </filedesc> <filedesc>: file description Beschreibung der Datei <titlestmt>: title statement Titelei <title> Titel <author> Autorenangabe <publicationstmt> Angabe über die Ausgabe <sourcedesc> Qullen-Angabe* * <sourcedesc> kann entweder mit <p> oder mit <msdesc> angegeben werden. 11
Header-Elemente in TEI <msdesc> <msdesc> <msidentifier> <country>austria</country> <settlement>innsbruck </settlement> <repository> Forschungsinstitut Brenner- Archiv</repository> <idno>11/8.1</idno> </msidentifier> <physdesc> <p>brief, 2 Blatt (A4), 4 Seiten.</ p> </physdesc> </msdesc> <msdesc> Manuscript Desc Manuskript-Beschreibung <msidentifier> Information über die Identität von Archivalien <country> <settlement> <repository> Archiv <idno> Signatur <physdesc> Beschreibung des physikalischen Zustandes 12
Header-Elemente in TEI Andere Elemente <encodingdesc> <p>kodiert nach TEI P5</p> </encodingdesc> <revisiondesc> <list type="simple"> <item>2007/06: Conversion from Folio Flat File to XML</ item> </list> </revisiondesc> <encodingdesc> Hält fest, wie eine Datei kodiert wird. <revisiondesc> Hält die einzelne Veränderungen an der Datei fest.* * Leider ist es sehr aufwendig, <revisiondesc> immer mitzuschreiben. Ich empfehle, die einzelnen Revisionen zwischen den Auflagen mit geeignetem Software (z.b. Subversion) zu dokumentieren, und erst dann einen Eintrag in <revisiondesc> zu machen, wenn die Datei wirklich publiziert worden ist. 13
Elemente der Textgestaltung Oder: Was braucht man alles, um den Text wiederzugeben? 14
Elemente der Textgestaltung Überblick Elemente, die dazu dienen, Text als Text wiederzugeben <text> <front>, <body>, <back> <div>, <head>, <p>, @rend, @type <hi> und @rend, @rendition <note> <table> und <list> <graphic> und <formula> 15
Elemente der Textgestaltung Hauptelemente <text> Beherbergt den ganzen Text-Bereich Drei Kinderelemente: <front>, <text> und <back> Beispiel: Buch <front>: Vorderer Klappentext, Titelei <body>: Haupttext, samt Nachwort <back>: Hinterer Klappentext Beispiel: Brief <front>: Umschlag? <body>: Brieftext 16
Elemente der Textgestaltung <div>, <head> und <p> <div type="commentary"> <head>kommentar</head> <p>brief. Zur Datierung: Wittgenstein muß diesen Brief nach seinem Aufenthalt in Hallein und Innsbruck und auch nach seinem Treffen mit Engelmann, aber noch vor seiner Fahrt auf die Hochreith geschrieben haben.</p> <div type="comment"> <p>wittgenstein besuchte seinen Onkel Paul Wittgenstein am 4.8. in Hallein bei Salzburg.</p> </div> </div> <div> Division <div> kann auch innerhalb <div> vorkommen, um bsp. Unterkapitel zu kennzeichnen <head> Überschrift <p> Paragraph, Ansatz Absätze können nicht ineinander verschachtelt werden @rend Rendition/Darbietung Mit @rend können <div>, <head> und <p> formatiert werden @rendition Formatvorlage In <encodingdesc> / <tagsdecl> / <rendition> sind die Vorlagen definiert 17
Elemente der Textgestaltung <hi>, @rend Oder vielmehr, es war gemütlich, aber nur in den letzten Tagen <hi rend="underline">ganz</ hi> Wenn ein Musiklehrer sagt, ein Stück <hi rend="fontstyle: italic; ">müsse</hi> in einer bestimmten Weise gespielt werden und es dann vorspielt, was spricht er da an? <hi> Highlight Hervorhebungen werden mit <hi> gekennzeichnet. Hierbei wird in das @rend die Art und Weise, wie hervorgehoben wird, festgeschrieben @rend Mehrere Weisen, @rend anzugeben: frei, xsl-fo oder css. CSS Cascade Stylesheet WWW verwendet auch CSS Struktur: Element { Format-Art1: Spezifikation; Format-Art2: Spezifikation; } 18
Elemente der Textgestaltung <note> Soweit diese primitiven Sprachen reichen, taucht das Problem, was diese Wörter bedeuten, was ihr wirklicher Gegenstand<note place="footnote"><p> Was der Gegenstand, der wirklich gut ist T.</p></note> ist, [der schön oder gut genannt wird R.] gar nicht auf <note> Anmerkung Fuß- und Endnoten @place Wo steht die Anmerkung? footnote: Fußnote endnote: Endnote NB: <note> dient der Kennzeichnung von Fuß- und Endnoten, nicht der von Einzelstellenkommentaren. 19
Elemente der Textgestaltung <table> und <list> <table rend="width:100%;"> <row> <cell rend="width: 20%"> <seg>26.4.</seg> </cell> <cell> <seg>in Wien geboren</seg> </cell> </row> </table> <list type="simple"> <item>2007/06: Conversion from Folio Flat File to XML</item> <item>2010/05/03: formulas and graphic added</item> </list> <table> Tabelle <row> <cell> @cols und @rows: Über wie viele Reihen/Spalten spannt sich diese Zelle? <list> Liste <item> Listeneintrag 20
Elemente der Textgestaltung <graphic> & <formula> <figure> <figdesc>bild</figdesc> <graphic url="images.jpg" height="7.6em" width="13.3em" /> </figure> <formula corresp="formula.gif"> <math xmlns="http://www.w3.org/1998/ Math/MathML" display="block"> <semantics> <mrow><munder> <mi>π</mi> <mn>4</mn> </munder></mrow> </semantics> </math> </formula> <figure> Einbindung von Bildern <figdesc> Figure Description Bildüberschriften <graphic> Einbindung von Bildern und Graphiken @url: Die URL zur Bilddatei @width und @height: Größe <formula> Formel-Objekte Die Formeln selbst können bsp. in Latex oder in MathML geschrieben werden 21
Semantische Auszeichnung Oder: Wie bringen wir Computer Namen und Datumsangaben bei? 22
Semantische Auszeichnung Überblick Warum semantische Auszeichnungen? Eine Person wird unterschiedlich genannt: Frau Wittgenstein, Hermine Wittgenstein, Hermine, Mine Anderseits gibt es unterschiedliche Personen mit dem gleichen Namen Es muss aber möglich sein, alle diese Stellen auszusuchen! Elemente, die der semantischen Auszeichnung dienen <persname>, <placename> <date> Wichtige Attribute @key und @xml:id 23
Semantische Auszeichnung <persname> <title>von <persname key="wittgensteinludwig" role="sender">ludwig Wittgenstein</persName> an <persname key="wittgensteinhermine role="recipient">hermine Wittgenstein</persName>, [Ende August 1922]</title> <persname key="hänselludwig">ludwig Hänsel</persName> <persname> Person Name Personennamen werden mit diesem Element gekennzeichnet @role Rolle Was für eine Rolle spielt diese Person @key Schlüssel Für jede Person soll es einen eigenen, individuellen Schlüssel geben Dieser Schlüssel darf nicht mit einer Nummer anfangen und kein Leerzeichen beinhalten 24
Semantische Auszeichnung <date> <date when="1925-11-12">12. November 1925</date> <date notbefore="1922-08-20" notafter="1922-09-01">[ende August 1922]</date> <date notbefore="1946-05">nach Sommer 1948</date> <date> Datumsangaben @when In einer standardisierten Form (meist JJJJ-MM-TT) sollte der Zeitpunkt festgehalten werden @notbefore, @notafter In einer standardisierten Form werden der früheste Zeitpunkt und der späteste Zeitpunk festgehalten. 25
Kritisches Editieren Oder: Wie verschmelzen diplomatische und normative Fassungen miteinander? 26
Kritisches Editieren <add>, <del>, <gap> I would <del>am </del>like to <del>write </del>tell you that I got a position here in Cambridge in a small <add>war</add> Tool-Factory in Old- Chesterton <add> Addition Hinzufügungen <del> Deletion Durchstreichungen <gap> Gap Löcher @hand Mit einem Verweis auf ein ID (z.b. #wl ) kann festgehalten werden, wer die Hinzufügungen bzw. Durchstreichungen geschrieben hat NB: Diese Elemente sind nicht dazu da, um die Verbesserungen der Editorinnen festzuhalten Kodierung der Leerzeichen bei <add> und <del> achten! 27
Kritisches Editieren <app>, <rdg>, <lem> <p>liebe <app> <lem>mining</lem> <rdg>mi<add>n</ add><del>m</del>ing</ rdg> </app>!</p> <app> Apparatus Kritisches Apparat <lem> Lemma Das, was von der Herausgeberin bevorzugt/als richtig erachtet wird <rdg> Reading Lesart oder Variante @hand Woher stammt diese Variante? NB: <app> soll verwendet werden, um die Korrekturen der Herausgeberinnen zu kennzeichnen 28
Verweise in TEI Oder: Wie können wir in TEI verlinken? 29
Verweise in TEI Einfache Links Einfache Links in der Form: A B <anchor> oder ein anderes Element mit @xml:id: Zielpunkt <ref> mit @target: Startpunkt Wobei @target hat als Wert # +@xml:id von Ziel Verwendung Cave: Die meisten Links sind doppelte Links in der Form A B Einzelstellen-Kommentare: Diese können als Fußnoten mit <note> oder als <ref> kodiert werden Der Rücksprung wird mit XSLT programmiert Sonstige Verweise wie Siehe, wenn der Rücksprung nicht notwendig ist 30
Verweise in TEI Einfache Links, Beispiel <ref target="#b1922_08_31_an_wittgensteinhermine_c004">die Drobilsche "Schlummernde"</ref> hat wie sie jetzt ausschaut mich und <hi rend="underline">engelmann</hi> entzück <div type="comment xml:id="b1922_08_31_an_wittgensteinhermine_c004"> <p>vgl. Hermines Brief vom 23.4.1922<ref target="#b1922_04_23_von_wittgensteinhermine_a001">*</ ref> und Ludwigs Brief an Hermine datiert mit [Anfang Juni 1922]<ref target="#b1922_06_00_an_wittgensteinhermine_a001">*</ ref>.</p> </div> 31
Verweise in TEI Schlüsselwert mit @key Bereits in <persname> haben wir @key kennen gelernt Mit @key haben wir die Person, auf die verwiesen wird, eindeutig festgelegt Wichtig ist, dass zwei Personen nicht denselben Key haben, aber es ist möglich, dass eine Ortschaft und eine Person den gleichen Key haben. @key ist an Element-Namen gebunden Was mit solchen Elementen passiert, welche ein @key haben, ist eine Sache für XSLT Herausgeberinnen müssen sich darum nicht kümmern 32
Verweise in TEI Inhaltsverzeichnis & Index Inhaltsverzeichnis Die Überschriften werden mit <head> ausgezeichnet Ausnahme: Das Digitalisat von gedruckten Büchern Indizes In TEI sind mehrere Elemente dafür vorgesehen <index> mit @indexname und <term> <term> mit @key Für Personen- und Ortsverzeichnisse sollen <persname> und <placename> mit entsprechenden @key-werten verwendet werden. Mit XSLT werden die Verzeichnisse automatisch hergestellt 33
Warnhinweise Oder: TEI kann unser Leben schwerer machen! 34
Warnhinweise Unnötige Auszeichnungen Zu viele Auszeichnungen Jede Auszeichnung, jeder Tag braucht Zeit Wenn man versucht, alles, was ausgezeichnet werden kann, auszuzeichnen, wird man nie fertig mit der Arbeit Jede Auszeichnung, die nicht in der Datenverarbeitung verwendet wird, ist eine überflüssige Auszeichnung Prinzip: So wenig Elemente wie möglich, so viel wie nötig 35
Warnhinweise Tabulatoren In TEI gibt es keinen Tabulator! Grund: Für die Typographie ist Tabulator einfach eine bestimmte Anzahl von Leerzeichen. Aber für die meisten Anwendungen von Tabulatoren gibt es bessere Kodierungsmöglichkeiten Einrückung der ersten Zeile eines Paragraphs: Hier ist @rend=text-indent: 8en (oder @rendition) besser Formatierung von Tabellen: Hier ist der Einsatz von <table> adäquater Listen-Formatierung: Hier ist <list> besser Um eine größeren Abstand zwischen zwei Wörtern zu gewinnen: Hier soll der Abstand einfach als eine Reihe von (feste Leerzeichen) kodiert werden 36
Warnhinweise @xml:id, @key, @target @xml:id, @key und @target sind für die Verweise sehr nützlich @xml:id darf innerhalb eines Corpus nur ein Mal vorkommen. Es empfiehlt sich daher, wenn man mehrere Dateien zu einem Corpus zusammenfasst, in @xml:id auch den Namen der Datei festzuhalten @target soll wenn innerhalb eines Corpus verwiesen wird mit # anfangen. Sonst soll der Verweis als URI oder vollständigen URL angegeben werden @key ist relativ frei. Die Vergabe von @key bei <persname> muss nur innerhalb von <persname> konsistent sein. Die Herstellung von Links ist letztlich die Aufgabe von XSLT, d.h. ohne XSLT auch keine Überprüfung von Links 37
Warnhinweise Text-Struktur ausnützen Im Gegensatz zu den Relationalen Datenbanken kann in XML die Text- Struktur ausgenützt werden So wird die Reihenfolge der Daten in einer Tabelle nicht erhalten und kann nicht für die Datenverarbeitung herangezogen werden In XML ist die Reihenfolge aber sehr wichtig und wird bei der Verarbeitung immer behalten. Diese Reihefolge kann ausgenützt werden. Bsp: wenn die Briefe chronologisch gereiht werden, kann u.u. auf die Auszeichnung der Datumsangaben verzichtet werden 38
Warnhinweise Einfach & dokumentiert TEI-Quellcodes werden gelesen Möglichst einfache Kodierung; dafür darf XSLT ausgefallen sein In <encodingdesc> sollen die Spezifikationen der Kodierung festgehalten werden In @rend, @type etc. soll möglichst englischsprachige Bezeichnungen verwendet werden. Also statt @rend= kursiv lieber @rend= italic Die Konventionen, wonach die @xml:id, @key etc. vergeben werden, sollen auch in <encodingdesc> stehen 39