Semistrukturierte Daten



Ähnliche Dokumente
Semistrukturierte Daten

Semistrukturierte Daten

XML 1. Einführung, oxygen. Ulrike Henny. IDE Summer School 2013, Chemnitz

2. XML 2.1 XML 1.0 und XML Schema. Jörg Schwenk Lehrstuhl für Netz- und Datensicherheit

Verteilte Anwendungen. Teil 2: Einführung in XML

Textauszeichnung mit XML

Kurze Einführung in XML

Einführung in XML. Arthur Brack FHDW Hannover. 1. Oktober 2009

... MathML XHTML RDF

XML Extensible Markup Language

03 XML Grundlagen. Manuel Burghardt Lehrstuhl für Medieninformatik

XML. Einführung, XML-Grundlagen und -Konzepte. XPath DTD. XQuery. XML-Schema XSLT XML-Grundlagen, -Sprachen, -Datenhaltungsfragen

FileMaker Konferenz 2010 XML / XSLT. Ein Workshop mit [x] cross solution Armin Egginger

Textkodierung mit XML

Textkodierung mit XML

XML/TEI eine Einführung

Klaus Schild, XML Clearinghouse Aufbau von XML- Dokumenten

Datenbanksysteme. XML und Datenbanken. Burkhardt Renz. Sommersemester Fachbereich MNI Technische Hochschule Mittelhessen

X-Technologien. Ein Überblick. Ulrike Henny. IDE Summer School 2013, Chemnitz

2. Einführung in Datenbanken und XML

Dokumentbeschreibungssprachen

Document Type Definition (DTD)

<B1>Skript</B1> Skript zur Vorlesung Auszeichnungssprachen Stand: September 2016

Einführung in die extensible Markup Language

XML 1.1. Grundlagen. Heiko Schröder. 4. Ausgabe, 1. Aktualisierung, Oktober 2013 XML11

Einführung in XML. Seminarunterlage. Version 3.05 vom

Strukturierung von Inhalten

XML Grundlagen Teil I

XML, XHTML und MathML

IN A NUTSHELL. Elliotte Rusty Harold & W, Scott Means. Deutsche Übersetzung von Kathrin Lichtenberg & Jochen Wiedmann O'REILLY*

IT-Zertifikat: Daten- und Metadatenstandards

XML steht für Extensible Markup Language. Helmut Vonhoegen (2007) beschreibt XML unter anderem so:

Agenda. Einführung. Usecase: Urlaub buchen. Information Retrieval - Semantic Technologies. Albert Weichselbraun

Einführung in XML. Von Klammern, Schachteln und gefüllten Keksen. Hier im Folienmaster Präsentationstitel eintragen

Tobias Hauser. XML-Standards. schnell+kompakt

12. Jgst. 3. Kursarbeit Datum: Fach: Informationsverarbeitung (Leistungskurs) & )!!*+,!- -.!-

1 Was ist XML? Hallo XML! Kommentare in XML 52

X-Technologien. XML and Friends. Jörn Clausen 9. Juli 2001

Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis HANSER

Datenaustauschformate. Datenaustauschformate - FLV

Single Source Publishing mit XML

1. Einführung 2. DTD 3. XML Schema 4. XPath 5. XSLT 6. XSL-FO 7. XQuery 8. Web Services 9. XML und Datenbanken

XML Extensible Markup Language

Geodaten: Modelle und Strukturen

Zusammenfassung XML. Metasprache um Dokumenttypen zu definieren

Auszeichnungssprachen. Auszeichnungssprachen

Python-Praxis XML & XML-Prozessierung

3.1 Sinn und Zweck von Namensräumen

<Trainingsinhalt> XML umsetzen und nutzen

1 Erläuterungen zur Datensatzbeschreibung

Web-Programmierung (WPR)

Java und XML 2. Java und XML

Tutorial 3 Einführung in XML

<XML und XSLT Eine Einführung/> Katharina Hemmeter, Claus Ludewig SQ: Digitale Dokumente

Prof. Dr. Martin Leischner Fachbereich Informatik XML. Prof. Dr. Martin Leischner Fachbereich Informatik. Anwendungen (SOAP,WSDL, ) Verknüpfungen XSL

Gruppe 3 / 5 / 10. Tutorübung zu Einsatz und Realisierung von Datenbanksystemen (SS 17) Michael Schwarz


Agenda GRUNDKURS INFORMATIK 8 BESCHREIBUNG VON DATEN XML. Von SGML zu XML. Grundbegriffe XML Dokument. XML Beispiel

Logische Dokumentenstruktur mit SGML und XML

XML. extensible Markup Language. Dr. Beatrice Amrhein.

Transkript:

Semistrukturierte Daten XML Stefan Woltran Emanuel Sallinger Institut für Informationssysteme Technische Universität Wien Sommersemester 2014 Stefan Woltran, Emanuel Sallinger Seite 1

XML Was ist XML? XML steht für Extensible Markup Language Industriestandard des W3C (World Wide Web Consortiums) Syntax zur Beschreibung semistrukturierter Daten Eigenschaften von XML Trennung von Struktur und Präsentation Erlaubt Spezifizierung anwendungsspezifischer Dokumenttypen als Datensaustauschformat sehr gut geeignet XML will be the ASCII of the web basic, essential, unexciting (Tim Bray) Stefan Woltran, Emanuel Sallinger Seite 2

Geschichte 1945: Hypertext 1969: GML 1986: SGML (ISO Standard) 1989: HTML (Tim Berners-Lee, CERN) 1994: W3C gegründet 1996: SGML Subset Arbeitsgruppe gegründet 1998: XML 1.0 1999: XSLT 2001: XML Schema... laufend neue Industriestandards Stefan Woltran, Emanuel Sallinger Seite 3

HTML vs. XML HTML Fix definierte Elementnamen vor allem zur Präsentation bzw. Layout Browser verarbeiten HTML fehlertolerant verschiedenste Erweiterungen ( lebender Standard HTML5) XML Elementnamen haben keine vordefinierte Bedeutung Metasprache für Markup Sprachen Syntax muss strikt eingehalten werden viele ergänzende Standards (Schema-, Abfragesprachen) Stefan Woltran, Emanuel Sallinger Seite 4

Was XML nicht ist... XML ist keine Programmiersprache XML ist kein Netzwerkprotokoll XML ist keine Datenbank Ein XML-Dokument existiert einfach. Es tut nichts. Stefan Woltran, Emanuel Sallinger Seite 5

Beispiel (XML Dokument) <?xml version="1.0"?> <!-- DBAI --> <?xml-stylesheet type="text/css"href="lehre.css"?> <lehre> <veranstaltung jahr="2014"> <titel>semistrukturierte Daten</titel> <vorbesprechung> <datum>do 6.3.</datum> <zeit cum tempore="yes">09:00</zeit> <ort>hs 8</ort> </vorbesprechung> <schlagwort>xml</schlagwort> <schlagwort>dtd</schlagwort> <schlagwort>sgml</schlagwort> </veranstaltung> </lehre> Stefan Woltran, Emanuel Sallinger Seite 6

Beispiel (Dokumentbaum) root comment: DBAI PI: xml-stylesheet... lehre veranstaltung jahr: 2014 titel vorbesprechung schlagwort schlagwort schlagwort Semistrukturierte Daten datum zeit ort XML DTD SGML cum tempore: yes Do 6.3. 09:00 HS 8 Stefan Woltran, Emanuel Sallinger Seite 7

Struktur eines XML Dokuments Baumstruktur keine Einschränkung der Baumstruktur durch den XML Standard ist selbstbeschreibend die Ordnung der Knoten ist signifikant Zeichendaten vs. Markup Markup repräsentiert die Struktur Zeichendaten repräsentiert die restliche Information beide sind einfach als Text abgelegt Markup steht innerhalb spitzer Klammern <...> (oder &...;) Stefan Woltran, Emanuel Sallinger Seite 8

Elemente repräsentieren die strukturelle Information der Name des Elements steht in spitzen Klammern <datum>do 6.3.</datum> Der Inhalt des Elements wird begrenzt durch den Start Tag <datum> und den End Tag </datum> Stefan Woltran, Emanuel Sallinger Seite 9

Elemente Der Inhalt eines Elements sind Elemente Text oder beides beliebig gemischt <datum><tag>do</tag>7.3.</datum> Elemente mit leerem Inhalt können abgekürzt werden: <datum/> Stefan Woltran, Emanuel Sallinger Seite 10

Elemente Verschachtelung von Elementen verschachtelte Elemente ermöglichen Baumstruktur beliebig tiefe Verschachtelung möglich erlaubt: Verschränkte Tags sind ein Syntaxfehler <b>bold<i>bold-italic</i>bold</b> nicht erlaubt: <b>bold<i>bold-italic</b>italic</i> Stefan Woltran, Emanuel Sallinger Seite 11

Namen Der XML Standard selbst definiert (fast) keine Namen Namen sind case sensitive Genaue Regeln sind komplex (basierend auf Unicode) Erlaubt sind: Buchstaben, Ziffern, Unterstrich, Bindestrich, Punkt Doppelpunkt erlaubt (aber hat später Spezialbedeutung) Fast der gesamte Unicode Zeichensatz erlaubt Verboten sind: Beginn mit Ziffern Beginn mit den Zeichen xml (in beliebiger Groß-/Kleinschreibung) Stefan Woltran, Emanuel Sallinger Seite 12

Dokumente Bestehen aus genau einem Element je nach Standard Wurzelelement oder Dokumentelement genannt Optional vor dem Wurzelelement kann eine XML Deklaration stehen <?xml version="1.0"?> Kann zusätzliche Information wie das Encoding enthalten wenn nicht deklariert: UTF-8 <?xml version="1.0" encoding="iso-8859-1"?> Stefan Woltran, Emanuel Sallinger Seite 13

Attribute Elemente werden durch Attribute genauer beschrieben Attribute werden im Start Tag des Elements definiert bestehen aus dem Namen des Attributs gefolgt von dessen Wert in Anführungszeichen <zeit cum tempore="yes"> Ein Element kann beliebig viele Attribute enthalten jeder Attributname darf allerdings nur einmal vorkommen wobei die Reihenfolge nicht signifikant ist Stefan Woltran, Emanuel Sallinger Seite 14

Attribute Der Wert eines Attributs ist reiner Text das Zeichen < ist nicht erlaubt es kann kein Anführungszeichen vorkommen <zeit cum tempore="yes"> Alternative Notation mit Apostrophen das Zeichen < ist ebenfalls nicht erlaubt es kann kein Apostroph vorkommen <zeit cum tempore= yes > Stefan Woltran, Emanuel Sallinger Seite 15

Kommentare Für Menschen bestimmte Kommentare werden vom Paser nicht unbedingt an die Applikation weitergereicht dürfen die Zeichenfolge -- nicht enthalten sind überall erlaubt, wo ein Element stehen darf <!-- DBAI --> Stefan Woltran, Emanuel Sallinger Seite 16

Processing Instructions Für Applikationen bestimmte Processing Instructions werden vom Paser an die aufrufende Applikation weitergereicht bestehen aus Target (alles vor dem ersten Leerzeichen) und dem Inhalt (alles nach dem ersten Leerzeichen, wenn vorhanden) sind überall erlaubt, wo ein Element stehen darf <?xml-stylesheet type="text/css"href="lehre.css"?> der Inhalt einer Processing Instruction muss nicht in XML Syntax sein! Stefan Woltran, Emanuel Sallinger Seite 17

Character References Referenzen auf Zeichen mit Spezialbedeutung < für < > für > " für " &apos; für & für & das Zeichen & hat daher natürlich auch eine Spezialbedeutung mehr Referenzierungsmöglichkeiten mit DTD im Standard werden lt, gt, quot, apos, amp vordefinierte Entitäten genannt und es können selbst zusätzliche Entitäten definiert werden Stefan Woltran, Emanuel Sallinger Seite 18

Whitespace Whitespace bezieht sich auf Leerzeichen Zeilenumbrüche Tabulator Tritt in zwei Rollen auf: innerhalb von Elementinhalt, Attributwert: wird an die Applikation weitergereicht zwischen Attributwerten, vor und nach dem Dokumentelement: nicht signifikant Genaue Behandlung komplex und teilweise parserabhängig insbesondere findet eine Normalisierung von Whitespace statt zum Teil steuerbar durch Spezialattribute Stefan Woltran, Emanuel Sallinger Seite 19

Rund um XML Durch das W3C definierte Industriestandards: Schemasprachen DTD (Teil des XML Standards) XML Schema Abfragesprachen XPath XQuery XSLT Stefan Woltran, Emanuel Sallinger Seite 20

Rund um XML In vielen Spezifikationen verwendet: Namespaces Datatypes (Teil des XML Schema Standards) Sehr viele Standards verwenden XML Syntax Office-Dokument Formate Präsentationsformate (z.b. XHTML) Web Services... Stefan Woltran, Emanuel Sallinger Seite 21