XML/TEI eine Einführung

Ähnliche Dokumente
Textauszeichnung mit XML

Semistrukturierte Daten

XML Extensible Markup Language

X-Technologien. XML and Friends. Jörn Clausen 9. Juli 2001

Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis HANSER

... MathML XHTML RDF

Ich baue ein eigenes Korpus

XML Extensible Markup Language

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis

XML, TEI & and. Abkürz. Zu verwirrenden Begriffen für Editorinnen und Editoren im digitalen Zeitalter

Bibliothekssysteme / Verbundsysteme / Netze

2. XML 2.1 XML 1.0 und XML Schema. Jörg Schwenk Lehrstuhl für Netz- und Datensicherheit

Verteilte Anwendungen. Teil 2: Einführung in XML

XML 1. Einführung, oxygen. Ulrike Henny. IDE Summer School 2013, Chemnitz

Klaus Schild, XML Clearinghouse Aufbau von XML- Dokumenten

XML Vortrag. 1. Beispiel XML. 2. Begriffe. 3. XML Standards

Kurze Einführung in XML

X-Technologien. Ein Überblick. Ulrike Henny. IDE Summer School 2013, Chemnitz

Textkodierung mit XML

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was

Inhaltsverzeichnis. Teil 1 - XM L Einleitung Motivation...15

TEI und XSLT. Referat von Hannah Goldschmidt und Christian Lütticke Datenbanktechnologie Sommersemester 2011

Textkodierung mit XML

Tobias Hauser. XML-Standards. schnell+kompakt

Grundzüge und Vorteile von XML-Datenbanken am Beispiel der Oracle XML DB

<Trainingsinhalt> XML umsetzen und nutzen

XML - die zukünftige Sprache des WWW? Daten im WWW strukturiert speichern, übertragen, darstellen und verketten. Max Riegel XML

Dataport IT Bildungs- und Beratungszentrum. Access Grundlagenseminar Access Aufbauseminar... 3

XINDICE. The Apache XML Project Name: J acqueline Langhorst blackyuriko@hotmail.de

App-Entwicklung für Android

Einführung in XML. Arthur Brack FHDW Hannover. 1. Oktober 2009

Einführung in XML. Seminarunterlage. Version 3.05 vom

LOC 02. XML in der Übersetzung. tekom Herbsttagung 2015 in Stuttgart Angelika Zerfaß,

Einführung in die extensible Markup Language

<XML und XSLT Eine Einführung/> Katharina Hemmeter, Claus Ludewig SQ: Digitale Dokumente

Konzeptionelle Modellierung von XML-Dokumenttypen

IN A NUTSHELL. Elliotte Rusty Harold & W, Scott Means. Deutsche Übersetzung von Kathrin Lichtenberg & Jochen Wiedmann O'REILLY*

Single Source Publishing mit XML

1 Erläuterungen zur Datensatzbeschreibung

Institut für Dokumentologie und Editorik. XML-Datenbanken und XQuery

Tutorial: Verwendung von Visual Studio 2005 als XML-Werkzeug

Datenbanksysteme. XML und Datenbanken. Burkhardt Renz. Sommersemester Fachbereich MNI Technische Hochschule Mittelhessen

XSL-FO. Dienstag, 16. Mai Manuel Montero Pineda data2type GmbH

Java und XML 2. Java und XML

Programmieren lernen mit Groovy Informationsstrukturen - Datenstrukturen - Textstrukturen (CSV, HTML, XML)

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

Johannes Hentrich DITA. Der neue Standard für Technische Dokumentation VERLAG

Medienkompetenz. Sprachtechnologien, Informations- und Wissensmanagement VO Bartholomäus Wloka.

XML. Einführung, XML-Grundlagen und -Konzepte. XPath DTD. XQuery. XML-Schema XSLT XML-Grundlagen, -Sprachen, -Datenhaltungsfragen

Hypertext Markup Language HTML. Stefan Szalowski Internet-Technologien HTML

Java: Kapitel 9. Java und XML. Programmentwicklung WS 2008/2009. Holger Röder

1. Einführung 2. DTD 3. XML Schema 4. XPath 5. XSLT 6. XSL-FO 7. XQuery 8. Web Services 9. XML und Datenbanken

Dokumentbeschreibungssprachen


Persistenz. Ralf Gitzel

XML. Eine Einführung. XML (C) J.M.Joller 1

Informationsmodellierung in XML und SGML

Dokumentautomation mit XML am Beispiel einer Banddiskografie

Agenda GRUNDKURS INFORMATIK 8 BESCHREIBUNG VON DATEN XML. Von SGML zu XML. Grundbegriffe XML Dokument. XML Beispiel

01 Einführung in PHP. Einführung in PHP 1/13 PHP in Aktion

Datenaustauschformate. Datenaustauschformate - FLV

Übungsbeispiel 1 Erstellen Sie eine Homepage für Ihre Gruppe in XML und überprüfen Sie die Wohlgeformtheit in einem Editor/Browser.

GRUNDKURS INFORMATIK. Marcel Götze

Web-Programmierung (WPR)

Dr. Thomas Meinike Hochschule Merseburg

Daten- und Metadatenstandards Wintersemester 2011 / November 2011 XML II: DTD

Einführung in XML. Von Klammern, Schachteln und gefüllten Keksen. Hier im Folienmaster Präsentationstitel eintragen

03 XML Grundlagen. Manuel Burghardt Lehrstuhl für Medieninformatik

Datenbanken für Online Untersuchungen

XML, XHTML und MathML

Webdesign im Tourismus

1 Was ist XML? Hallo XML! Kommentare in XML 52

Beuth Hochschule Die erweiterbare Markierungssprache XML WS10/11

XML Informationsmodelle

2. Einführung in Datenbanken und XML

Transkript:

XML/TEI eine Einführung Teil 1/3: Datenmodellierung und XML 1

Was Sie hier erwartet Datenmodellierung XML Model-View-Controller Datenverarbeitung mittels Relationalen Datenbanken Strukturierte vs. semi-strukturierte Daten Was ist XML? XML-Bestandteile: Element, Processing Instruction, Comment TEI XPath und XSLT Sonstige nützliche Werkzeuge 2

Datenmodellierung Oder: Was ist der Unterschied zwischen Text und Tabelle? 3

Datenmodellierung MVC-Pattern MVC ist eine gängige Programmier-Technik Trennung von einzelnen Modulen eines Programms Model: Datenmodelle View: Anzeige Controller: Verarbeiten der Daten 4

Datenmodellierung MVC: Ein Beispiel Controller Such-Algorithmus Eingabe View Sprachausgabe Web-Interface Model Bücherdatenbank Lagerbestände Joseph Wang 2010 XML/TEI: Eine Einführung. Teil I: Datenmodellierung und XML. 5

Datenmodellierung Gängige Vorgehensweise Prinzip der Relationalen Datenbanken Daten liegen in Tabellen vor, die miteinander verknüpft werden Möglichst wenige Datenverdopplung Verknüpfung der Tabellen über Fremd-ID Vorteile Sehr schnelle Datenverarbeitung Konsistenz ist überprüfbar 6

Datenmodellierung Strukturierte Daten In relationalen Datenbanken können strukturierte Daten verwaltet werden: Tabellarische Listen Ein Eintrag entspricht einer Zeile Alle Einträge in einer Tabelle haben dieselbe Datenstruktur Mittels Fremd-ID wird auf Daten in einer anderen Tabelle verwiesen Datenverarbeitung heißt hier: Neue Tabelle aus den vorhandenen zusammenstellen! 11

Datenmodellierung Daten im Text In vielen Bereichen liegen strukturierte Daten vor Reihe von (Temperatur-)Messungen Statistische Erhebungen Warenhandel Es gibt (kaum) strukturierte Daten in den Geisteswissenschaften! Gesprochene und geschriebene Texte können nicht in tabellarischer Form wiedergegeben werden Darstellende Kunst und Musik sind auch nicht tabellarisch abbildbar 12

Datenmodellierung Semistrukturierte Daten Computer kann nur relativ wenig mit einem Text anfangen: Darstellen Verarbeitung auf der Buchstaben-Ebene : Wörter suchen, ersetzen EDV-Anwendungen ähnlich der Relationalen Datenbank fehlen Ohne Hilfe kann Computer nicht eine Stapel von Texten filtern bzw. sortieren Ohne Hilfe kann Computer aus dem folgenden Text die Lagerbestände nicht adäquat verändern: Heute kauften zwei Kunden jeweils ein Exemplar von Die Brüder Karamasow von Dostojewski. 13

Datenmodellierung Semistrukturierte Daten Da ein Text vom Computer nicht automatisiert verarbeitet werden kann, sollte der Text semistrukturiert werden! Text in Tabellen aufzuspalten ist nicht sinnvoll! Stellen, die von der späteren Datenverarbeitung herangezogen werden können, sollen markiert werden Anhand der Markierungen kann Computer dann Berechnungen durchführen XML ist ein allgemeines Regelwerk, welches vorschreibt, wie solche Markierungen von Textstellen festgehalten werden sollen XML schreibt aber NICHT vor, was die Markierung bedeutet! Analogie zu Farbmarkern : XML kann man vergleicht mit einem Satz Leuchtstift 14

Datenmodellierung Elektronische Edition Unterschiede zwischen elektronischen und traditionellen Editionen Traditionelle Vorgehensweise: Erstellung von einem Buch, welches unterschiedliche Anforderungen genügen soll Digitale Editionen: Erstellung von einem Modell, mittels dessen viele Bedürfnisse gestillt werden sollen Digitale Editionen dienen nicht nur der Volltext-Suche, sondern ermöglichen uns eine Datenverarbeitung, die in anderen Bereichen des Alltags bereits gängig ist Joseph Wang 2010 XML/TEI: Eine Einführung. Teil I: Datenmodellierung und XML. 15

Was ist XML? Oder: Die Doppeldeutigkeit von Auszeichnen 16

XML: Eine Einführung SGML Bereits in den 1960er Jahren wurde die SGML erfunden. SGML: Standard Generalized Markup Language HTML ist ein Derivat davon. Auch XML ist eigentlich ein Derivat. Prinzip der Auszeichnung: Will man dem Computer mitteilen, dass in einem bestimmten Abschnitt etwas Besonderes zu beachten wäre, markieren zwei Tags ein Tag am Anfang des Abschnitts, ein Tag am Ende des Abschnitts diese besondere Stelle. 17

XML: Eine Einführung SGML 2 Mit SGML liegen nun wirklich semistrukturierte Daten vor. SGML konnte sich nicht (ganz) durchsetzen: Die Tags sind schwer zu lesen und zu schreiben Regelwerke sind schwer zu verfassen Software, die SGML-Daten verarbeiten, sind sehr anfällig: In SGML kann man Tags verschachteln, manchmal darf auf Endtags verzichtet werden. Ergebnis: Die Markierung ist nicht eindeutig Konsequenz: SGML wird nur noch selten verwendet. Stattdessen hat man XML eingeführt, die eine strengere Syntax verlangt 18

XML: Ein Einführung Was ist XML? XML extensible Markup Language Ähnlich SGML jedoch mit folgenden Einschränkungen In jeder Datei nur ein Wurzel-Element Alle Elemente müssen einen Anfangs- und ein Endtag haben Attribute von Elementen komme ausschließlich in Anfangstag vor Verschachtelung von Elementen ist nicht erlaubt Dank der rigiden Syntax können Software viel schneller entwickelt werden 19

XML: Eine Einführung XML ist eine Dateiformat XML ist eine Dateiformat Dateiformate schreiben vor, wie eine Datei aufgebaut sein muss, damit der Inhalt sinnvoll interpretiert werden kann XML schreibt vor, wie eine XML-Datei aufgebaut sein muss, damit sie interpretiert werden kann Aber XML ist NICHT eine Dateiformat für Texte! XML ist v.a. ein Container-Format. Man kann XML auch dazu verwenden, um Musik-Noten, Tabellen, Datenbank-Inhalte, Bilder und Powerpoint-Präsentationen zu speichern D.h. es gibt Subformate, sog. Schemas, für XML-Dateien, die unterschiedlichen Zwecke erfüllen TEI ist ein solches Schema. Andere Beispiele: docbook, MathML, XSLT-Stylesheet 20

XML: Eine Einführung Bestandteile in XML XML-Einleitung, DTD-Declaration, Processing- Instruction, Comment Diese Bestandteile enthalten normalerweise keine eigentliche Information. Element (element) root-element Anfangstag Attribute Inhalt des Elements: andere Elemente u.o. Text Endtag Milestone Text 21

XML: Eine Einführung Meta-Informationen Doctype-Declaration Start mit <!DOCTYPE und hört mit > auf Kann auch Definition für Entity beinhalten <!DOCTYPE html SYSTEM "http://www.w3.org/tr/xhtml1/dtd/xhtml1-transitional.dtd"> Processing Instruction Startet mit <? und hört mit?> auf. Beinhaltet Informationen für die Software Comment <?xml-stylesheet type="text/css" href="themes/default.css"?> Startet mit <!-- und hört mit --> auf, darf kein -- beinhalten Comments werden von Computer normalerweise ignoriert. <!-- TODO: Kurzbiographie von Clara Schumann schreiben. --> 22

XML: Eine Einführung Element Elemente sind die Hauptbestandteile von XML- Dateien Jede XML-Datei hat genau ein Wurzel-Element (root) Ein Element hat genau einen Anfangstag und genau einen Endtag Inhalte (children) von Elemente können sein: Attribute Texte Andere Elemente Elemente, die keine anderen Elemente und keinen Text beinhalten, können in einer verkürzten Schreibweise geschrieben werden (sog. Milestones) 23

XML: Eine Einführung Element 2: Tags Anfangstag Steht am Anfang von einem Element Struktur: < + Elementname (+ Attribute) + > Endtag Steht am Ende von einem Element Struktur: </ + Elementname + > Milestone Element ohne Text und Kinder-Elemente, kann aber Attribute enthalten Struktur: < + Elementname (+Attribute) + /> Innerhalb von einem Tag dürfen keine Meta- Informationen stehen 24

XML: Eine Einführung Attribute Attribute sind Tupeln von Schlüssel (key) und Wert (value) Kommen ausschließlich im Anfagstag vor Werden verwendet, um ein Tag zu spezifizieren, z.b. um die Formatierungsparameter für ein Paragraph festzuhalten Reihenfolge, in der die Attribute stehen, wird von Software ignoriert <hr align="left" width="70%"/> und <hr width="70%" align="left"/> sind gleichwertig. 25

XML: Eine Einführung Text-Node Texte in XML-Dateien sind normale Zeichenkette mit Besonderheiten: Leerzeichen, \r, \t und \n sind alle normalerweise gleichwertig. Selbst wenn mehrere von diesen Zeichen (gemischt) hintereinander auftreten, werden diese nur als ein Leerzeichen gezählt Sonderzeichen: Anstatt verschiedene Schriftarten für unterschiedliche Sonderzeichen zu verwenden, werden diese in Unicode kodiert. (XML-Dateien werden meist in utf-8 gespeichert) Entitäten: XML-immanente Zeichen ( <, > ) müssen als Entitäten umschrieben werden 26

XML: Eine Einführung Entitäten Eingebaute Entitäten: < : < > : > : " : &apos; & :& Unicode-Entitäten: (Leerzeichen): oder Selbstdefinierte Entität 27

XML: Eine Einführung XML im Alltag MS-Office 2007 Neue.docx-Formate basieren auf XML Web-Seiten Die XML-Variante von HTML nennt sich XHTML XIMS basiert auf XML Viele sog. Web 2.0-Anwendungen verwenden XML im Hintergrund für den Datenaustausch Metadaten-Dschungel Praktisch alle modernen Metadaten-Sets basieren auf XML (dc, rdf, oai etc.) 28

XML: Eine Einführung EDV mit XML Durchzählen und Rechnen Verlinken Transformieren Dank XSLT können XML-Dateien relativ einfach in andere XML-Dateien umgewandelt werden XML bildet daher eine sehr gute Grundlage für das Model in MVC-Pattern 29

XML: Eine Einführung Arbeitswerkzeuge Erzeugen/Bearbeiten von XML-Dateien: Allgemeine XML-Editoren Spezielle XML-Editoren Speichern/Verwalten von XML-Dateien XML-Datenbanken XML-Archivierungssoftware Software-Bibliotheken SAX, DOM Saxon 30