Linux I II III Res WN/TT NLTK XML Weka E XML BNC XSLT BNC/XML 7 BNC/XML XML BNC XSLT. Ressourcen-Vorkurs

Ähnliche Dokumente
Web (Site) Engineering (WebSE)

XSL Transformation. Eine praxisorientierte Einführung Philip Heck

Übersicht. Web (Site) Engineering (WebSE) XML-Beispieldokument. Simple API for XML (SAX) [Pro] XML-Beispiel. Vorlesung 6: Tools und Programmierung

Seminar Dokumentenverarbeitung

Eine Schnelleinführung in XSL

IN A NUTSHELL. Elliotte Rusty Harold & W, Scott Means. Deutsche Übersetzung von Kathrin Lichtenberg & Jochen Wiedmann O'REILLY*

Projektseminar "Texttechnologische Informationsmodellierung"

XML Extensible Markup Language

XML Extensible Markup Language

Extensible Stylesheet Language Transformations XSLT

Transformation von XML-Dokumenten mit XSLT

XML-Praxis.

Grundlagen der Extensible Stylesheet Language

1 Was ist XML? Hallo XML! Kommentare in XML 52

TEI und XSLT. Referat von Hannah Goldschmidt und Christian Lütticke Datenbanktechnologie Sommersemester 2011

CARL HANSER VERLAG. Dirk Ammelburger XML. Grundlagen der Sprache und Anwendungen in der Praxis

Gruppe A PRÜFUNG AUS SEMISTRUKTURIERTE DATEN Kennnr. Matrikelnr. Familienname Vorname

Softwaretechnik 2 - XML -

XML Extensible Markup Language

X-Technologien. XML and Friends. Jörn Clausen 9. Juli 2001

IT-Zertifikat: Daten- und Metadatenstandards. Transformation von XML-Dokumenten mit XSLT (und XPATH) XSLT kurz und knackig. XSLT und die Praxis

Einführung in XML Extensible Markup Language

XML-Praxis. XML-Anwendungen. Jörn Clausen

bitflux CMS ein crossmedia-fähiges opensource System ein Vortrag von Marcel Linnenfelser

XSL. extended Stylesheet Language. Die Stylesheet Sprache für XML

Web Technologien XML, XQuery, XPath und XSLT

XSL Transformationen. -Teil 2 - Schwerpunkt: Templates und Kontrollstrukturen. XSL Transformationen - Teil 2 Christina Krieglstein / 66

Gruppe A Bitte tragen Sie sofort und leserlich Namen, Studienkennzahl und Matrikelnummer ein und legen Sie Ihren Studentenausweis

... MathML XHTML RDF

Textkodierung mit XML

XML exemplarisch. nach: André Bergholz, Extending Your Markup: An XML Tutorial IEEE Internet Computing, Jul./Aug. 2000, 74 79

Einführung in XML. Arthur Brack FHDW Hannover. 1. Oktober 2009

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was

XML-Praxis.

XML Extensible Markup Language

Weiterführende Literatur: M. Knobloch, M. Kopp: Web-Design mit XML, dpunkt-verlag 2001

Vorlesung Einführung in Web-bezogene Sprachen WS 2006 / Folie 801

XSLT XSL Transformations

Textkodierung mit XML

Automatisierte Erzeugung des LATEX-Drucksatzes aus XML-Dokumenten

Konzept und Realisierung Extensible Stylesheet Language

XSLT XSL Transformations

XML 1. Einführung, oxygen. Ulrike Henny. IDE Summer School 2013, Chemnitz

XSL und XSLT. Inhalt. Mathias Heilig XSL Übersicht. Formatierungsprozess. Sprachbeschreibung. Vorführung Resümee

XML Extensible Markup Language

Agenda. 1. Was können wir mit XSLT alles machen? 1. Beispiele: 1. Webseiten 2. Textprozessierung 3. Datenbankabfragen

Semistrukturierte Daten

Einführung in XML Torsten Schaßan SCRIPTO digital Wolfenbüttel

<XML und XSLT Eine Einführung/> Katharina Hemmeter, Claus Ludewig SQ: Digitale Dokumente

Texttransformation mit XSLT

mach,, Benjamin Kurtz, Bastian Bonnermann

Verteilte Anwendungen. Teil 2: Einführung in XML

extended Markup Language (XML)

Klinikum Göttingen BE Tumorzentrum XML-Schema und TuDaSch-XML

Es gibt immer einen Schlüssel und einen zugehörigen Wert,

Projektarbeit: Übersetzung von XML-Updatesprachen

APEX und Apache FOP Freie PDF-Erstellung mit APEX 3.0.1

Einführung in XML. Von Klammern, Schachteln und gefüllten Keksen. Hier im Folienmaster Präsentationstitel eintragen

Klaus Schild, XML Clearinghouse Transformation von XML-Dokumenten

X-Technologien. Ein Überblick. Ulrike Henny. IDE Summer School 2013, Chemnitz

ASN.1 <-> XML TRANSLATION

Hypertext Markup Language HTML. Stefan Szalowski Internet-Technologien HTML

XML. Teil 1: Grundbegriffe. Abteilung Informatik WS 02/03

Gruppe A PRÜFUNG AUS SEMISTRUKTURIERTE DATEN Kennnr. Matrikelnr. Familienname Vorname

Single Source Publishing mit XML

Seminar Mobile Computing: Wireless Markup Language. Tobias Schwegmann

Präsentation von XML-Dokumenten mit Hilfe von Stylesheets

Java und XML 2. Java und XML

Inhaltsverzeichnis Seite 1. Inhaltsverzeichnis. Ein I.T.P.-Fachbuch


Transformation von XML-Dokumenten. IDE SummerSchool 2013, Chemnitz

FileMaker Konferenz 2010 XML / XSLT. Ein Workshop mit [x] cross solution Armin Egginger



Informationsextraktion mit XSLT

XML. XML extensible. Markup. Language TECHNISCHE UNIVERSITÄT DRESDEN. Internet in der AT SS 06 Koycheva/Braune. Lehrstuhl für Automatisierungstechnik

Softwareentwicklung mit Komponenten

XML-Praxis. Mit XSLT arbeiten. Jörn Clausen

XML-Praxis. Mit XSLT arbeiten. Jörn Clausen

Einführung. Hallo-Welt in XSLT

XSL < Extensible Stylesheet Language/>

HTML. HyperText Markup Language. von Nico Merzbach

XML. Einführung, XML-Grundlagen und -Konzepte. XPath DTD. XQuery. XML-Schema XSLT XML-Grundlagen, -Sprachen, -Datenhaltungsfragen

XML. Einführung, XML-Grundlagen und -Konzepte. XPath DTD. XQuery. XML-Schema XSLT XML-Grundlagen, -Sprachen, -Datenhaltungsfragen

XML Vorlesung FHA SS

Datenaustauschformate. Datenaustauschformate - FLV

Textauszeichnung mit XML

XML Informationsmodelle

XML. XML-Verarbeitung mittels XSL

Query Transformation based on XSLT

Ich baue ein eigenes Korpus

Seminar im Sommersemester 2006 Institut für Mikrosystemtechnik, niversität Siegen

Marek Kubica Michael Kerscher Rechnernetze und Verteilte Systeme Übungsblatt 10 Gruppe G

Gruppe A PRÜFUNG AUS SEMISTRUKTURIERTE DATEN Kennnr. Matrikelnr. Familienname Vorname

Praktikum zu XML: Übung 11

Inhaltsverzeichnis. Teil 1 Grundlagen 5. Teil 2 Formatierung 31 INHALTSVERZEICHNIS

Online-Publishing mit HTML und CSS für Einsteigerinnen

XML Vorlesung FHA SS

XSL Templates. Mit Templates arbeiten. XSL Templates

Transkript:

BNC/XML 7 BNC/XML XML BNC XSLT

extensible Markup Language I XML erlaubt es, strukturierte Daten in Textdateien zu speichern. Zum Schreiben und Lesen von XML-Dateien genügen einfache Text-Editoren wie Emacs und vi. Generische XML-Parser erkennen die Struktur von allen in XML formatierten Daten. http://w3schools.com/xml

extensible Markup Language II Beispiel <? xml version =" 1.0 " encoding ="UTF -8"?> < people > <person > <name >Luke Skywalker </ name > < homeworld > Tatooine </ homeworld > </ person > <person > <name >Han Solo </ name > < homeworld > Corellia </ homeworld > </ person > </ people >

extensible Markup Language III Beispiele (Attribute, Leere Elemente) <person > <name >Han Solo </ name > < homeworld > Corellia </ homeworld > <height unit =" meters ">1.8 </ height > </ person > <person > <name >Luke Skywalker </ name > <jedi /> </ person >

Zeichenvorrat I An sich können sowohl in den Attributen als auch zwischen Tags beliebige Zeichen aus UTF-8 verwendet werden. Aber: Entities & & < < (less than) > > (greater than) &apos; (apostrophe, single-quote) " (quotation mark, double-quote) Beispiel <text >7 > 5</ text >

Zeichenvorrat II CDATA-Deklaration Innerhalb von XML-Tags kann die CDATA-Deklaration verwendet werden, um anzuzeigen, dass Character-Daten verwendet werden. Dann müssen keine XML-Entities benutzt werden Beispiel <text ><![ CDATA [7 > 5]] ></ text >

Leere Tags Beispiele (Verschiedene Arten, leere Elemente zu notieren) <jedi ></ jedi > <jedi /> <jedi /> Beispiel (Auch leere Tags können Attribute enthalten) <jedi dark ="no" />

Kommentare Beispiel <person > <name >Han Solo </ name > < homeworld > Corellia </ homeworld > <! -- dies ist ein kommentar -- > </ person >

XML-Parser SAX SAX-Parser sind relativ effizient. Dabei definiert man vorher, welche Funktion aufgerufen werden soll, wenn ein bestimmtes Element gefunden wird. Die Funktion sieht dann nur genau dieses Element und nicht den Kontext. Es ist sehr aufwändig, mit SAX-Parsern auf die Baumstruktur zuzugreifen oder sich darin zu bewegen. http://www.saxproject.org DOM DOM dagegen liest erstmal das gesamte XML-Dokument ein und baut eine Baumstruktur im Speicher auf. Die einzelnen Knoten des Baumes sind dann Objekte in einer objektorientierten Programmiersprache. Mit Methoden kann dann z.b. auf die Kind-Knoten eines Knotens zugegriffen werden. http://www.w3.org/dom/

XML und HTML Historisch gesehen kommt XML nach HTML, ist aber allgemeiner und einfacher. HTML wird benutzt, um Webseiten darzustellen. Dafür gibt es XML-tags, die die Texteigenschaften beschreiben, z.b. kursiv oder fett. Beispiel <b> Fetter Text. </b> Das ist ein <a href =" http: // www. google.de"> Link </a> http://de.selfhtml.org

British National Corpus Der British National Corpus ist eine Sammlung geschriebener und gesprochener Sprache. Insgesamt enthält er rund 100 Millionen Wörter. http://www.cl.uni-heidelberg.de/resources/bnc/

Verzeichnisstruktur Doc Dokumentation als HTML-Seiten Frequency Frequenzen aus dem BNC Texts Die Texte XML Einige XSLT-Scripte um Informationen aus dem BNC zu extrahieren

BNC XML Grundstruktur < bncdoc xml:id =" A00 "> <! -- Meta - Informationen gemäß der Text Encoding Initiative ( TEI ) -- > < teiheader >... </ teiheader > <! -- Written Texts --> <wtext >... </ wtext > </ bncdoc >

demo

XPath I Wie bereits festgestellt, sind XML-Strukturen baumartige Strukturen. XPath wird benutzt, um Pfade durch den Baum zu beschreiben. Die Notation ist den Pfaden auf der Unix-Kommandozeile nicht unähnlich. So wie ein Pfad in Unix eine bestimmte Datei oder ein Verzeichnis beschreibt, beschreibt ein XPath einen Knoten in der XML-Datei. XPath-theoretisch ist praktisch jede Enität in XML ein Knoten: Elemente, Attribute, Text, Kommentare,... http://www.w3schools.com/xpath/

XPath II Beispiel < people > < person > <name >Luke Skywalker </ name > </ person > < person > <name >Han Solo </ name > </ person > </ people > /people /people/person /people/person[1] people person (Wählt mehr als ein Element aus!) person (wählt das erste person unter people)

XPath III Syntax knotenname Wählt alle Kinder des Knotens / Pfad beginnt am Root-Knoten // Wählt Knoten im Dokument unabhängig davon wie tief sie eingebettet sind.. Wählt des aktuellen Knoten.. Wählt den Eltern-Knoten des aktuellen Knotens @ Wählt Attribute

XPath IV Beispiele people Wählt alle Kind-Knoten des people- Elements /people Wählt das root-element people people/person Wählt alle person-elemente, die Kind von einem people-element sind //person Wählt alle person-elemente, egal wo sie im Dokument stehen //@unit Wählt alle Attribute, die unit heißen /people/person[last()] Wählt das letzte person-element unter people //height[@unit= meters ] Wählt alle height-elemente, die ein Attribut unit haben, das auf meters gesetzt ist

XSLT I Extensible Stylesheet Language Transformations ist eine XML-basierte Sprache, die benutzt wird, um XML-Daten in andere XML-Daten oder reinen Text zu konvertieren. Mittels XPath definiert man, was wie einzelne Knoten ausgegeben werden sollen. http://www.w3schools.com/xsl/

XSLT II Beispiel ($ homeworld.xslt) <? xml version =" 1.0 " encoding ="UTF -8"?> < xsl:stylesheet version =" 1.0 " xmlns:xsl =" http: // www.w3.org /1999/ XSL / Transform "> < xsl:output method =" text " /> < xsl:template match ="/"> <xsl:for - each select =" people / person "> <xsl:value -of select =" homeworld " /> </ xsl:for - each > </ xsl:template > </ xsl: stylesheet >

xsltproc Das Programm, das die XSLT-Skripte ausführt und auf eine XML-Datei anwendet, heißt xsltproc. Beispiel ($ xsltproc homeworld.xslt starwars.xml) TatooineCorellia

demo

Übung 7