Annotationen (Annotea, Adobe, etc.), RDF Integration in XML Dokumente, Microformats

Größe: px
Ab Seite anzeigen:

Download "Annotationen (Annotea, Adobe, etc.), RDF Integration in XML Dokumente, Microformats"

Transkript

1 Annotationen (Annotea, Adobe, etc.), RDF Integration in XML Dokumente, Microformats Maximilien Kintz Betreur: Martin Rotard Seminar Semantic Web Technologien Universität Stuttgart Abstract: Der Vortrag wird verschiedene kleine Anwendungen des Semantic Webs vorstellen, genauer gesagt wird er zeigen, wie man semantische Informationen, die ein Dokument beschreiben, speichern kann. Zuerst werden zwei allgemeine Methoden zum Kommentieren und Beschreiben von Dokumenten vorgestellt: XMP (extensible Metadata Platform) einerseits, die von Adobe entwickelt wird und für Desktop- Publishing geeignet ist, und andererseits Annotea, die von W3C entwickelt wird, und für viele Web-basierte Anwendungen geeignet ist, da die Annotationen direkt in einem Browser dargestellt werden können. Dann werden verschiedene Methoden präsentiert, die zeigen, wie man semantische Informationen in die Dokumente selbst eintragen kann: Zuerst ganz allgemein RDF Integration in XHTML Dokumente, anschließend wird sich mein Vortrag anhand von Microformats mit konkreten Beispielen befassen. So können zum Beispiel Konferenzen nicht nur effizienter in Web-Seiten präsentiert werden, sondern es besteht auch noch die Möglichkeit, Verbindungen zwischen Applikationen wie dem Web-Browser, der Client oder sonst einem elektronischen Kalender herzustellen.. Diese verschiedenen Beispiele illustrieren die Ziele des Semantic-Webs: Die Anwendungen sollen so miteinander kommunizieren, dass der Benutzer nicht, alles selbst zu tun braucht so, dass mehr Aufgaben automatisch durchgeführt werden können.

2 Inhaltsverzeichnis 1 Einleitung 3 2 RDF Integration in XML Erstes Beispiel RDF Containers und Collections Typed literals XMP Warum braucht man XMP? Wie sieht XMP aus? Annotationen Annotea Komponente von Annotea Eigenschaften von den Annotea Komponenten Annotationen und Bookmarks OntoAnnotate Mögliche Beziehungen in OntoAnnotate OntoAnnotate nutzen RDF in XHTML, Microformats RDF in XHTML Dokumenten Microformats Was sind Microformats? Wie sehen Microformats aus? Microformats heute und morgen Schlusswort 10 7 Ressourcen 11

3 1 Einleitung 2 RDF Integration in XML Mit RDF (Ressource Description Framework) kann man Metadaten, die Ressourcen beschreiben, repräsentieren. RDF kann man mit Graphen, mit Listen von Tripeln oder auch in XML-Form wiedergeben. RDF in XML zu schreiben hat viele Vorteile, da XML ein sehr verbreitetes und einfaches Format ist. Es gibt präzise Regeln, die erklären, wie man RDF in XML schreibt: Diese Regeln nennt man die Serialisierung von RDF in XML, sie werden von W3C spezifiziert. W3C hat einen Standard veröffentlichtn den RDF/XML. 2.1 Erstes Beispiel Folgender RDF-Graph beschreibt das Seminar Semantic Web Technologien. Man sagt, dass das Seminar einen creator und einen title im Dublin-Core ( dc ) Sinne hat, deren Werte Martin Rotard und Semantic Web Technologien sind. Abbildung 1: RDF Graph Beispiel Dieser Graph wird wie folgt in RDF/XML serialisiert: <?xml version="1.0 <rdf:rdf xmlns:rdf=" xmlns:dc=" <rdf:description rdf:about=" show lect load.php?id=172 <dc:creator>martin Rotard</dc:creator> <dc:title>semantic Web Technologien</dc:title> </rdf:description> </rdf:rdf>

4 Die erste Zeile kennzeichnet das Dokument als XML-Dokumentd, die zweite charakterisiert es als RDF-Dokument. Man braucht zwei Namensräume: einen für RDF un einen weil man Dublin-Core (dc) Attribute verwendet. 2.2 RDF Containers und Collections Mit RDF kann man auch kompliziertere Graphen darstellen. RDF-Containers und Collections (Containers mit einer maximalen Anzahl von Elementen) sind oft sehr nützlich. Es gibt verschiedene Containers: Bags, hne Ordnungsbeziehung, Sequences, mit Ordnungsbeziehung, und Alternatives (man muss ein Element wählen). Diese Figur zeigt ein Beispiel von Bag : es gibt drei Kontributoren für die Webseite des Seminars. Abbildung 2: RDF Bag Beispiel Dies wird wie folgt in XML serialisiert: <dc:contributor> <rdf:bag> <rdf:li rdf:resource=" <rdf:li rdf:resource=" <rdf:li rdf:resource=" </rdf:bag> </dc:contributor> 2.3 Typed literals Eine letzte RDF-Möglichkeit, die ziemlich interessant vorzustellen ist, sind RDF Typed literals, das heißt RDF-Objekte die nicht nur eine Zeichenkette sind, son-

5 dern eine Nummer oder ein Datum, also einen Typ haben. Um die zu beschreiben, muss man einen RDF-Datentyp spezifizieren. Zum Beispiel, ein Datum wird in RDF/XML so geschrieben: <dc:date rdf:datatype=" </dc:date> Es gibt Regeln für alle RDF Möglichkeiten, aber diese drei Beispiele zeigen schon wie das funktioniert. 3 XMP XMP (extensible Metadata Platform) ist ein von Adobe entwickeltes Framework, welches das Eintragen von XML-Metadaten in Dokumente erlaubt. Die Spezifikation wurde 2005 veröffentlicht. XMP ist heutzutage schon in fast allen Adobe Produkten (Photoshop, Illustrator, Acrobat...) implementiert, und ist also für Desktop-Publishing Anwendungen ganz gut geeignet. 3.1 Warum braucht man XMP? Mit XMP will man solche Probleme vermeiden: Bildtext, der nicht immer das Bild begleitet, Autor des Dokuments, den man nicht identifizieren kann, usw. Um diese Probleme zu vermeiden braucht man klare Metadaten. XMP bietet also einige Vorteile, im Vergleich zu Metadaten wie sie früher existierten: mit XMP befinden sich die Metadaten (auch der Bildtext) immer in den Dateien, XMP ist auf XML und Unicode basiert, XMP ist also Standard und für Internationalisierung bereit, XMP ist extensible, das heißt erweiterbar: Man kann Metadaten einfügen, die in der Spezifikation nicht beschrieben sind. 3.2 Wie sieht XMP aus? XMP Metadaten sind RDF Metadaten und können deshalb mit RDF-Graphen dargestellt werden. Die Daten können in XML serialisiert werden, genau wie RDF Daten mit RDF/XML serialisiert werden. XMP ist also für Informatiker die RDF/XML schon kennen, ganz einfach: Die Regeln, die für RDF/XML gelten, gelten auch für XMP. Es gibt natürlich einige kleine Änderungen, da XMP für Dekstop-Publisihing

6 spezifisch entwickelt wurde. Die serialisierten XML Daten müssen in die Dateien eingetragen werden. Die Regeln, die erklären, wie man das macht, befinden sich natürlich in der Spezifikation für XMP. Es gibt Regeln für fast alle Adobe-Dateiformate, also PDF, Photoshop, Illustrator oder ählinche Formate, sowie für Formate wie JPEG und HTML die oft verwendet werden. 4 Annotationen Das Annotieren von Dokumenten erleichtert Zusammenarbeit, da die Kommentare von anderen Autoren klar dargestellt werden können. Es gibt verschiedene Methoden, um Dokumente zu annotieren, hier werden zwei davon, die ganz besonders für HTML Dokumente geeignet sind, vorgestellt. 4.1 Annotea Annotea wird von der W3C entwickelt. Es ist ein Framework zum Annotieren von HTML Dokumenten, das speziell für Zusammenarbeit gedacht wurde Komponenten von Annotea Die Komponenten von Annotea kann man so beschreiben: Im Mittelpunkt steht der Web-Browser (auf einem Computer oder Handy oder einen anderen Gerät). Die Benutzer spielen natürlich eine wichtige Rolle: Sie lesen die Dokumente, lesen und schreiben die Annotationen. Die Dokumente (also Webseiten) komment über HTTP-Protokoll von einem Web Server. Die Annotationen müssen gespeichert werden: Das kann entweder lokal geschehen, auf der Festplatte der Benutzer, oder auf einem Annotea Server, mit HTPP Protokoll. Eine letzte Möglichkeit wäre die Annotationen in die Dokumente einzutragen Eigenschaften der Annotea Komponenten Ein Annotea Objekt ist eine Web-Ressource. Es hat ein URI und enthält RDF Daten. Ein Annotea Objekt enthält immer einen Link zu einer anderen Web-Ressource, meistens die URL der Webseite, die annotiert wird. Diese Objekte werden von der Web-Browser GUI gezeigt, zum Beispiel in Amaya oder in Firefox mit der Erweiterung Ubimarks.

7 Abbildung 3: Komponente von Annotea Annotationen und Bookmarks Annotea Objekte sind normalerweise entweder Annotationen, oder Bookmarks. Diese zwei Typen haben verschiedene Eigenschaften: Annotationen sind Kommentare über eine Webseite. Die Post-itMetapher gibt eine gute Idee davon, was Annotationen wirklich sind. Die Annotaionen haben einen Autor, eine Benutzergruppe oder andere Eigenschaften, die man zum Filtern benutzt, um so die gewünschten Annotationen zu finden. Die sind heutzutage nur in Web-Browsern implementiert, aber das Konzept ist allgemeiner und könnte auch für andere Programme erweitert werden. Bookmarks in Annotea sind so, wie man sie schon in allen Web-Browsern vorfindet: Ein Mittel, um eine Webseite einfach wiederfinden zu können. Aber sie sind auch mehr als eine Verknüpfung: Sie werden durch Topics charakterisiert, diese Topics haben Beziehungen (es gibt Topics und Subtopics: Man kann also zwischen vergleichbaren Topics und Bookmarks browsern). 4.2 OntoAnnotate OntoAnnotate ist eine Anwendung eines allgemeinen und wichtigen Konzepts: ontologiebasierter Anotationen. Eine Ontologie ist eine Wissensrepräsentation eines formal definierten Systems von Begriffen und Relationen. Das bedeutet, das Inferenzen, Schlussfolgerungen oder automatische Angaben zur Annotation von Dokumenten ermöglicht werden: man kann Dokumente schneller und effizienter annotieren (weil komplexe Annotationen einfach werden).

8 4.2.1 Mögliche Beziehungen in OntoAnnotate Die semantische Bedeutung der Objekte wird wie folgt definiert: Objekt Identifikation (muss natürlich sein), Objekt-Klasse Beziehung (nur eine Klasse pro Objekt), Objekt-Attribute Beziehung (nur wenn die Klasse es erlaubt, das Attribut ist ein String oder ein Ausschnitt des Dokuments), Objekt-Objekt Beziehung (nur wenn die Klasse es erlaubt, ein Objekt kann sich auf alle Objekte beziehen, ja sogar auf sich selbst) OntoAnnotate nutzen Wenn man eine Webseite mit OntoAnnotate kommentieren will muss man zuerst eine Klasse wählen, die die Webseite gut beschreibt. Dann muss man dem Objekt einen eindeutigen Namen geben. Die Klasse gehört zu einer Ontologie, der Computer weiß also welche Attribute erwartet werden. Man braucht jetzt nur ganz einfach entweder mit Text-Eingabe oder mit Drag-and-Drop die Attributenwerte einzutragen. Am Ende kann man die Beziehungen zwischen Objekten spezifizieren. OntoAnnotate stellt eine Liste von möglichen Objekten vor, man muss die Objekte in dieser Liste wählen. Mit OntoAnnotate ist es deswegen einfach, Dokumente schnell und effizient zu annotieren, da der Computer Vorschläge macht. Ganz anders ist es um die Ontologie bestellt, die man zuerst gut beschreiben muss, was eine wichtige, aber oft eine schwierige Arbeit ist. 5 RDF in XHTML, Microformats 5.1 RDF in XHTML Dokumenten Web Seiten kann man als strukturierte Daten betrachten. Die Struktur hat eine Bedeutung für den Computer, die Daten für den Benutzer. RDF Integration kann man als wichtige Fortschritte einstufen: die Daten erhalten für den Computer eine Bedeutung, was Interaktionen zwischen Programmen ermöglicht.

9 5.2 Microformats Was sind Microformats? Microformats sind ein Mittel, um semantische Information in ein XHTML Dokument (also in eine Webseite) einzufügen. Auf der Webseite von Microformats ( kann man folgende Definition lesen: Designed for humans first and machines second, microformats are a set of simple, open data formats built upon existing and widely adopted standards. Microformats sind so gut für Menschen, wie für Maschinen gedacht. Sie sind einfache (und kleine) Datenformate, die auf schon-existierenden Standards basieren. Microformats braucht man, wenn man einfache Arbeiten automatisieren will, wie das Eintragen einer Adresse in einen Kontakt-Manager. Der Computer muss verstehen, dass er eine Adresse liest, deshalb muss man die Adresse mit semantischen Attributen beschreiben. Diese Attributen sind typischerweise HTML classattribute. Neun Spezifikationen von Microformats existieren schon, es gibt auch zahlreiche Entwürfe. Die wichtigsten davon sind hcalendar, zur Beschreibung von allem, was mit einem Datum versehen ist, hcard, zur Beschreibung eines Kontakts und geo oder adr, zur Lokalisierung von Orten, letztere betragen geographische Koordinaten. hcalendar, zum Beispiel, basiert auf dem icalendar W3C Standard, und hcard basiert auf vcard: icalendar und vcard sint sehr verbreitete Standards, deshalb haben die Microformats ein großes Erflogspotential Wie sehen Microformats aus? Ein Microformat besteht aus einfachen HTML-Elementen: classöder ähnlichen Attributen, die normalerweise für Stil-Eigenschaften verwendet werden, aber hier auch eine semantische Bedeutung haben. Hier, als Beispiel, die Beschreibung eines Vortrags über Microformats, der am 25. Mai 2007 stattfindet: <div class="veventïd="hcalendar-vortrag-microformats <a class=ürl"href=" show lect load.php?id=172 > <abbr class="dtstart"title=" t May 25th 9:45am</abbr> <abbr class="dtend"title=" t th 11:15am, 2007</abbr> <span class=ßummary Vortrag Microformats</span> at <span class="location Seminarraum 0.124</span> </a>

10 </div> Microformats heute und morgen Obwohl Microformats eine sehr neue Technologie sind, ist es heute schon möglich, sie zu benutzen. Man muss dafür die Firefox-Erweiterung Operator installieren, oder ein Plug-in für Safari. Aber bald (vielleicht schon nächstes Jahr) werden Microformats in den wichtigsten Browern (Firefox 3.0, Internet Explorer 8.0, höchstwahrscheinlich auch Opera) zur Standardeinstellung gehören. In einigen Webseiten sind Microformats gang und gäbe. Man kann zum Beispiel Flickr, oder Yahoo! Local und den hcard Microformat nennen. hcalendar begegnet man oft auf Webseiten von Konferenzen wie Siggraph. 6 Schlusswort RDF Integration in XML hat immer einen und denselben Zweck: die Information muss für den Menschen und für den Computer eine Bedeutung haben. Das soll die Automatisierung von Aufgaben ermöglichen. Die Serialisierung von RDF in XML ist ein Standard, der viele Anwendungen zulässt ermöglicht: XMP, womit man Metadaten in Dokumente einzutragen kann, eignet sich sehr gut für Desktop- Publishing; Annotationen von Webseiten erleichtern die Zusammenarbeit, und das verstärkt in einem höheren Maße, wenn sie ontologiebasiert sind; RDF Integration in XHTML ist eine allgemeine Methode, um semantische Informationen in Webseiten einzufügen, die für Web Browsers sehr wichtig sind, aber die vielleicht zu kompliziert ist, implementiert zu werden. Microformats sind eine einfache und erfolgsversprechende Alternative dafür. Schon heutzutage und ganz wahrscheinlich noch mehr nächstes Jahr werden wir sehr viel davon hören: RDF Integration bietet sehr interessante Perspektiven an.

11 7 Ressourcen RDF in XML XMP Annotea Amaya Web Editor/Browser: OntoAnnotate sstetal 2001.pdf RDF Integration in XHTML Dokumente Microformats