Hauptseminar WS.2005/6: Information Retrieval Dozentin: PD Dr. Haenelt. Semantic Web. Referentin: Michiko Tamakoshi

Hauptseminar WS.2005/6: Information Retrieval Dozentin: PD Dr. Haenelt Semantic Web Referentin: Michiko Tamakoshi WS 05/06 Hauptseminar: Information Retrieval 1

Inhalt Semantic Web Einführung W3C: Semantic web Die Idee Ihre Arbeit Grundlage: RDF/Resource Description Format Ontologien Auswertung WS 05/06 Hauptseminar: Information Retrieval Der Inhalt besteht aus 4 Punkten. Als Einführung: Was ist die Idee vom semantic web? Semantic web ist ein grosses Informationsnetz, das über das Internet verbunden ist. Das Informationsnetz besteht aus Konzepten. Ich will nachher erklären, wie mit Hilfe von Konzepten Informationen effektiver gefunden werden können. W3C: grosse Organisation für das World Wide Web. Die Idee vom semantic web kommt vom W3C. W3C ist die Abkürzung für World Wide Web Consortium. Die Idee: Man wollte noch eine bessere Dokumentbeschreibungssprache als HTML haben. Programme können XML verarbeiten, aber XML alleine ist nicht ausreichend. Die Idee ist, eine Dokumentbeschreibungssprache,die RDF heißt, zu entwickeln. Die Abkürzung bedeutet Resource Description Format. Die Arbeit vom W3C ist Standards zu entwickeln, so dass für den Benutzer eine bessere Informationssuche möglich ist. Mit Hilfe von Standards können Computer im Internet kommunizieren und die Daten einheitlich verarbeiten. Dies verbessert die Informationssuche über Suchmaschinen. Grundlage von RDF ist die Definition von Konzepten. Die eigentlichen Daten (z.b: Homepage) werden mit RDF ergänzt. Der Browser zeigt das RDF nicht an, sondern es wird hauptsächlich zur Suche genutzt. Ontologien sind Hierarchien von Konzepten. Dies wird auf Basis von RDF definiert. Auswertung: welche Probleme sind noch zu überwinden? 2

What is it? WS 05/06 Hauptseminar: Information Retrieval Das Bild zeigt ein Beispiel einer Semantic Web Anwendung Schritt 1: zeigt eine Suche, um einen XML-Experten zu finden, mit Hilfe von Web- Daten. Die Suche wird an einen Agenten geschickt. Ein Agent ist ein Programm, das selbständig z.b. Daten sammeln kann oder Aktionen ausführen kann. Das Programm als Vermittler sucht Informationen aus dem Web. Das Programm beginnt, Informationen zur Beantwortung der Anfrage zu sammeln. DAML ist eine Sprache zur Definition von Ontologien. Schritt 2: Der Agent holt Informationen über einen XML-Kurs von einer Seite. Schritt 3: Die Kursnummer wird auf einer anderen Seite gefunden. Schritt 4: Auf noch einer anderen Seite wird der Kursleiter gefunden. Schritt 5: Der Name des Kursleiters wird als Ergebnis der Suche an den Benutzer zurückgeschickt. Der Unterschied zu Google ist, dass hier nicht wortweise gesucht wird. Google sucht entweder den ganzen Satz oder Wörter, die gemeinsam auf einer Seite stehen. Die Suche mit Wörtern findet richtige und falsche Seiten, das Suchergebnis muss vom Benutzer nach Nutzen geprüft werden. Die Suche im Semantic Web nutzt jedoch Informationen von mehreren Seiten, um die benötigen Daten zu finden. Dabei werden die Daten miteinander verbunden (hier: Seite 1 mit Seite 2, und Seite 2 mit Seite 3). 3

Semantic Web: Anforderungen Komplexe semantische Anfragen schreiben Verteilte Information WWW wird als verteilte Datenbank betrachtet Könnte sogar sonst unlesbare Informationen identifizieren (z.b. ausländische Internetseite) Agenten verteilt auf... Web Servern / Teil von Web Services Client-Anwendungen Mobilen Geräten Oder sogar irgendeine Art von Tool / Maschine, z.b. Kühlschrank WS 05/06 Hauptseminar: Information Retrieval Ich habe mit dem vorherigen Beispiel einige Eigenschaften / Anforderungen des semantischen Webs demonstriert. Die Suche und die Ergebnisse sollen genauer sein als heutige Suchmaschinen. Das semantische Netz muss Suchanfragen (effektiv) beantworten können Weil die Informationen auf WWW verteilt sind, muss es möglich sein, die Informationsstücke zu sammeln und zu einem Ganzen zu kombinieren In Zwischenschritten wird Information gesammelt. Nicht alle gesammelten Informationen werden gezeigt. Das Konzept in RDF ist unabhängig von der Sprache. Deshalb kann der Agent die gleiche Bedeutung auf Deutsch und in der ausländischen Sprache suchen, jedoch sind das Schema und Tags meistens auf Englisch beschrieben. Agenten (Programme) können überall auf Computern verteilt sein. 4

W3C (I): Semantic Web Vision (getrieben von Tim Berners-Lee) Ermöglicht den Web-Zugriff nicht nur für Menschen Sondern auch automatisierte Verarbeitung (Datenaustausch, Web-Agenten,...) Infrastruktur zur automatisierten Verarbeitung Aktivitäten beim W3C W3C Track bei der 10. WWW-Konferenz (Tim Berners-Lee, Übersicht SW) W3C Workshops Mitglieder der Arbeitsgruppe: W3C, IBM, Nokia,... WS 05/06 Hauptseminar: Information Retrieval Die Idee vom semantic Web wird vom World Wide Web Consortium (W3C) unterstützt. Insbesondere der Direktor des W3C, Tim Berners-Lee, unterstützt diese Idee. Tim Berners-Lee ist der Erfinder vom WWW, HTML, Hyperlinks. Die unstrukturierten Daten des Webs sind ein grosses Problem für Computerbenutzer. Strukturierte Daten sind Voraussetzung für das Semantic Web. Mit RDF kann man aus den unstrukturierten Daten im Web strukturierte Daten machen. Dadurch kann der Benutzer auf die strukturierten Daten wie auf eine Datenbank zugreifen. Beispiel: Kundenaufträge. Erst wenn die Daten strukturiert sind, können Computer sie nutzen und verarbeiten. Wenn die Daten unstrukturiert z.b. Word, HTML, Excel, Powerpoint, bzw. Textdokument sind, kann der Computer mit diesen Daten nicht arbeiten. Beispiele für die Infrastruktur und automatische Verarbeitung für das Semantic Web: RDF, Ontologien, XML, DAML, Agenten, Programme... Es gibt mehrere Aktivitäten beim W3C. WWW-Konferenz, Workshops, Arbeitsgruppen. 5

W3C (II): Anforderungen Semantic Web Voraussetzung: alles kann mit URI beschrieben werden Semantic Web = Web der semantischen Aussagen Benötigt gemeinsames Datenmodell RDF (Resource Description Framework) Gemeinsames Modell Aussagen Zitate (Aussagen über Aussagen) Warum gemeinsames Modell? Aussagen Infrastruktur für semantisches Web Zitate benötigt z.b. von Metadaten-Anwendungen WS 05/06 Hauptseminar: Information Retrieval Die Voraussetzung für das Semantic Web ist, alles mit URIs zu beschreiben. URI = Universal Resource Identifier. Die Konzepte sind mit einer URI verbunden/assoziiert, deshalb sind sie eindeutig im Internet. Seiten/Objekte haben einen Link auf das Schema (beschreibt Eigenschaften der Objekte). Wenn verschiedene Objekte auf das gleiche Konzept zeigen und sind sie in einer Datenbank gespeichert, können sie bei einer Anfrage gemeinsam gefunden werden. Damit Computer Informationen über RDF finden können, müssen alle Webseiten RDF als Beschreibungssprache benutzen. Daher ist RDF das allgemeine Datenmodell des semantic Web. Gesammelte Informationen können über Aussagen verbunden werden. Man kann Aussagen über Aussagen machen. Beispiel: Eine Metadaten-Anwendung gruppiert Aussagen zu Themensammlungen. Die eigentlichen Aussagen (z.b. Shakespeare ist Autor von Hamlet) werden einem Themengebiet zugeordnet. Damit wird die eigentliche Aussage dem Thema Kunst zugeordnet. 6

W3C (III): Geschichte der Aktivitäten Metadaten-Aktivität Semantische Web-Aktivität (2/04) Semantik-Road Map (10/98) RDF Syntax Recommendation (2/99) (2/01) RDF Schema Candidate Recommendation RDF Rec. RDF Schema Rec. OWL Rec. 1998 1999 2000 2001 2002 2003 2004 2005 WS 05/06 Hauptseminar: Information Retrieval Der Prozess bis zum Standard beginnt mit der Idee, danach folgt der Draft, der dann fortlaufend innerhalb der Working Group geändert wird, bis Candidate Recommendation. Mit der Candidate Recommendation wird die Spezifikation (z.b. des RDF) der Öffentlichkeit bekanntgegeben und es kann Feedback gegeben werden. Danach erfolgt die Proposed Recommendation und endlich die Recommendation. Anfang der Entwicklung des W3C Semantic Web war die Metadaten-Aktivität (RDF Syntax in XML und in Graphen Sprache als Recommendation), von 1998 bis 2001. Danach wurde die Entwicklung mit der semantischen Web-Aktivität fortgeführt (RDF und RDF Schema und OWL Recommendation). In einer W3C Activity werden mehrere Standards entwickelt. Z.B. in der Metadaten- Aktivität wurde RDF und RDF Schema als 2 Standards entwickelt. 7

Road Map Architekturschichten Aussagen-Modell (Aussagen über Resourcen) Schema-Ebene Definition von Schemata/ Konzeptlisten Definition von Klassen von Resourcen Logische Ebene Erstellen logischer Beweise Das Architekturbild zeigt den Technologiestack von Internetstandards, der die Grundlage des semantic Web bildet. Road Map: Weg von der Idee bis zur fertigen Architektur. Das W3C versucht, alle W3C Standards zu einer einheitlichen Architektur zusammenzubauen bzw. mehrere Standars sollen zusammenpassen, d. h. alle Funktionen sind integriert. In einer Schichtenarchitektur wie dieser wird in jeder Schicht, die auf einer Schicht liegt und die untere Schicht benutzt, zusätzliche Funktionalität ermöglicht. Bsp.: RDF Schema hat grössere Ausdrucksmöglichkeiten als RDF, setzt zugleich RDF als Basissprache voraus. In einer Schichtenarchitektur können obere Schichten die unteren Schichten benutzen, aber nicht umgekehrt. Bsp.: RDF Schema hat grössere Ausdrucksmöglichkeiten als RDF, setzt zugleich RDF als Basissprache voraus. Grundbausteine sind URIs (identifiziert eindeutig Resourcen) und Unicodezeichen zur Codierung jeder Sprache. XML: Dokumentbeschreibungssprache zur automatischen Verarbeitung für Computer. In XML lassen sich neue Tags definieren, und Programme können diese Tags verarbeiten. XML definiert eine Struktur. Die Tags ermöglichen es aber, eine XML-Sprache z.b. RDF zu definieren. XML Schema und Namespaces: Definition von Dokumentschemas und Namensräume. Man definiert einen Dokumenttyp als eine Menge von erlaubten Tags, die in dem Dokument verwendet werden können. Jedes Tag ist in einem Schema definiert. Um Tags zu unterscheiden, die den gleichen Namen haben aber zu einem unterschiedlichen Schema gehören, verwendet man Namensräume. Jedes Schema hat einen eigenen Namensraum. 8

XML (I) : Grundbaustein für das Semantic Web Extensible Markup Language / XML Definition von Markup-Sprachen Für Programme zur Verarbeitung geeignet Definition der Dokumentenstruktur Verschachtelte Strukturen möglich XML-Dokument Kopf Optional: Definition Rumpf Struktur aus Elementen Attributen WS 05/06 <?xml version= 1.0?> <document href= Hamlet > <author> <name>shakespeare</name> </author> </document> Hauptseminar: Information Retrieval Die Sprachen, die das Semantic Web verwendet, wie z.b. RDF oder RDF-Schema, sind alle mit Hilfe der Dokumentbeschreibungssprache XML definiert. XML wird für das Semantic Web verwendet, weil Programme XML gut verarbeiten können. XML-Strukturen sind eindeutig wie Daten in Programmen. Im Gegensatz dazu ist HTML nicht immer eindeutig, trotzdem können Browser sie oft darstellen, weil sie Fehler im Dokument einfach überspringen. Die Programme des Semantic Webs verarbeiten z.b. Anfragen von Benutzern, die Programme suchen im Internet nach RDF-Aussagen oder verwenden Regeln, um aus Daten neue Daten zu erzeugen. Die Programme können XML und RDF verarbeiten. Ein XML-Dokument besteht aus dem Kopf, einer optionalen Definition (Schema mit der besonderen DTD-Sprache) und dem Rumpf(Body), der aus den eigentlichen Daten besteht. Anfangstag, Inhalt des Tags und Endetag bilden ein Element. Attribute stehen im Anfangstag. Elemente können verschachtelt sein. Beispiel: <author> ist im Element <document> enthalten. 9

XML (II) : Beziehung von RDF zu anderen Standards RDF Schema unterschiedlich zu XML Schema XML schema definiert Syntax RDF schema definiert Semantik XML und RDF Schemata müssen zusammenpassen W3Cs Themen der Zukunft Web-Architektur: XML Protokoll, Services, Schema-Verzeichnisse Internet Programm Web-Server Java-Script Browser Anfrage <RDF:Query, Person, Sculpts, Monalisa /> Das W3C versucht, alle W3C Standards zu einer einheitlichen Architektur zusammenzubauen bzw. mehrere Schichten sollen zusammenpassen, d. h. alle Funktionen sind integriert. Auch RDF Schema und XML Schema sollten zusammenpassen. Wiederverwendung z.b. von XML Schema Datentypen sollte in RDF möglich sein. In einem XML Schema ist die Syntax definiert, nicht Semantik. XML definiert eine Struktur, z.b. die Verschachtelung und Tags. Das W3C arbeitet auch an dem zukünftigen Thema Web Services, und hat z.b. ein XML Protokoll d.h. (SOAP/Simple Objekt Access Protokol) entwickelt. Beispiel: Ein Benutzer schickt von seinem Browser aus eine RDF-Anfrage (besteht aus Konzepten, Resourcen in XML) über SOAP an einen Web-Server, falls der Web- Server SOAP versteht. Der Webserver sendet das Ergebnis mit SOAP an den Browser zurück, die Anfrage in XML geeignet ist, das Programm vom Webserver mit Daten zu versorgen. 10

XML (III) Definition semantischer Beziehungen Shakespeare ist Autor von Hamlet. Shakespeare <author> <uri>hamlet</uri> <name>shakespeare</name> </author> Author of Hamlet <document> <uri>href= Hamlet </uri> <author> <name>shakespeare</name> </author> </document> <document href= Hamlet > <author>shakespeare</author> </document>... Es gibt viele verschiedene Möglichkeiten, semantische Beziehungen mit Hilfe von XML zu beschreiben. Dieselbe Information kann man also auf verschiedene Weise in XML beschreiben. Hier ist eine Aussage, z.b. Shakespeare ist Autor von Hamlet. In XML können verschiedene Varianten erzeugt werden. Wir brauchen also eine einheitliche Sprache, um einen Sachverhalt eindeutig zu beschreiben. Das ist RDF. Für verschiedene XML-Varianten gibt es nur eine einzige RDF-Aussage. In XML gibt es nicht die Begiffe Resource oder Property, d.h. in XML kann keine Beziehung zw. Resource und Property ausgedrückt werden. Diese sind nur in RDF definiert. In XML kann man Elemente verschachtelt schreiben, aber die Beziehung zwischen veschiedenen Resource und Property sind nicht definiert. XML definiert die Syntax der Daten. Es definiert nicht, wie die semantischen Beziehungen der Daten strukturiert sind. Diese semantische Beziehung ist erst in RDF Syntax definiert. 11

RDF Beispiel Objekt/Insta nz des RDF Schemas RDFS Klassen, Properties Die linke Seite zeigt ein Beispiel einer Klassenhierarchie, in der Konzepte wie Künstler und Museum definiert sind. Properties beschreiben Beziehungen zwischen Resourcen. Die Klassen, die durch die Property verbunden sind, sind durch die Schlüsselwörter rdfs:domain und rdfs:range definiert. Beispiel: Das Subjekt/Domain der Property sculpts muss ein Bildhauer sein, das Objekt/Range muss eine Skulptur sein. Wenn das Objekt/Instanz eine Referenz/Link auf das RDF Schema enthält, können konkrete Resourcen (z.b. der Bildhauer Michelangelo) mit den Klassen und Properties beschrieben werden. 12

Resource Description Framework /RDF (I) RDF Modell & Syntax Definiere Aussagen über Resourcen (S V O) Basis-RDF Modell: DLG (gerichtete annotierte Graphen) Syntax basiert auf XML RDF Schema: Definition von Resourcetypen Shakespeare RDF Syntax in XML Author of Hamlet <Description about= Hamlet s:author= Shakespeare /> WS 05/06 Hauptseminar: Information Retrieval RDF ist ein universales Modell zur Beschreibung von semantischen Beziehungen. Das erlaubt es, semantische Anfragen zu stellen ( die ein Agent beantworten kann, der die Daten als RDF-Aussagen liest). RDF Schema erlaubt die Definition von Resourcetypen. Wenn man ein Schema verwendet, kann man z.b. sagen, dass der Autor eines Buches eine Person ist (Objekt des Resourcetyps Person). Das erlaubt sogar eine einfache Prüfung der Resource und des Dokumentes. 13

RDF (II) RDF Modell & Syntax Aussagen Resourcen (=S), Properties (=V), Property-Werte (=O) Kann kombiniert werden zu neuer Resource Meta-Aussagen Aufzählungen ( Container ) um Sammelaussagen zu machen Bags Sequence Alternative RDF Schema Typsystem für RDF Unterschied zu OO Programmiersprachen WS 05/06 Hauptseminar: Information Retrieval In XML kann man Elemente verschachtelt schreiben, aber die Beziehung zwischen veschiedenen Resource und Property sind nicht definiert. XML definiert die Syntax der Daten. Es definiert nicht, wie die semantischen Beziehungen der Daten strukturiert sind. Diese semantische Beziehung ist erst in RDF Syntax definiert. Eine Basisaussage in RDF besteht aus 3 Einheiten: Resource als Subjekt/Domain, Property als Verb, Property-Wert als Objekt/Range. Beispiel: Shakespeare ist der Autor von Hamlet. Resource = Hamlet, Property = Autor von, Property-Wert = Shakespeare. Die Domain und Range gibt an, welche Klassen durch die Property verbunden sind. Man kann auch Aussagen über andere Aussagen machen (Meta-Aussagen). Aufzählungen können dazu benutzt werden, Aussagen über mehr als eine Resource zu machen. Bags hat keine Reihenfolge. Seguence hat eine Reihenfolge. Mit Alternative kann man als entweder oder ausdrücken. RDF Schema erlaubt es, Klassenhierarchien (Oberklasse, Unterklasse) und Properties für Klassen zu definieren. Zwei Unterschiede zu OO Programmiersprachen: Properties sind nicht Teil der Klassendefinition, sondern sie werden unabhängig definiert. Das heisst eine 14 Property kann für verschiedene Klassen definiert werden. (OO: Das heisst eine

RDF (III) : das Ziel XML doc (Format 1) XML doc (Format 2) Some data (Beliebiges Format) RDF Aussagen (verteilt) RDF Aussagen (zentral, Verwendung von Bags) WS 05/06 Hauptseminar: Information Retrieval RDF ist die universelle Sprache des Webs. Das Ziel ist, alle Informationen des Webs verfügbar in RDF zu machen. Z.B: Man kann alle Informationen von XML in RDF übersetzen. RDF kann in verschiedener Art und Weise geschrieben werden: verteilt (verschiedene Webseiten), zentral (Datenbank), mit Hilfe von Bags. Bags sind Aufzählungen, wenn z.b. alle Resourcen dieselbe Property haben. 15

RDF (IV) : Aus Perspektive der Anwendung Datenwiederverwendung nicht möglich! App1 App2 Data for App1.doc Data for App2.xls WS 05/06 Hauptseminar: Information Retrieval Anwendungen lesen und schreiben normalerweise nur ihre eigenen Daten. Sie können nicht die Daten von anderen Anwendungen lesen oder schreiben. Das Problem ist, dass es kein Standard dafür gibt, in welchem Format die Daten gelesen und geschrieben werden. Beispiel: Wenn man mit Word im Format.doc speichert, kann man das Dokument nur in Word verwalten und anzeigen. Wenn man mit Word im Format.xml speichert, kann man die Datei auch mit anderen Programmen zwar lesen und anzeigen, aber nicht direkt damit arbeiten. 16

RDF (V) : Aus Perspektive der Anwendung Datenverwendung möglich! "Cross App" / RDF App App1 App2 Data for App1.rdf Data for App2.rdf Mit Hilfe von RDF können Anwendungen die Daten anderer Anwendungen auch nutzen, wenn Word und Excel RDF verstehen können. Konzepte sind universal für alle Anwendungen, deshalb können Daten einer bestimmten Anwendung bei einer anderen Anwendung verwendet werden. Die Anwendungen müssen RDF- Aussagen erzeugen, indem sie z.b. vom Benutzer verlangen, für die Daten ein Konzept aus einer Ontologie auszuwählen. Dann kann eine RDF-Aussage erzeugt werden. Eine Cross-Anwendung / RDF-Anwendung kann dann die Daten aller Anwendungen nutzen. 17

Anwendungen Semantic Web RDF unten, logische Basis oben RDF einfache Sprache für Semantic Web Keine logischen Ableitungen Logische Ableitungen über Konzepte Beweise semantische Gleichheit von 2 Konzepten bzw. Resourcen Implikationen (wenn A dann B) Suche Finde Daten, die mit RDF-Aussagen assoziiert sind Suchmaschine der Zukunft Web-Crawler Vision/Vorteil: Web wird eine grosse verteilte Datenbank! Die Architektur des Semantic Web definiert RDF in einer unteren Schicht, und logische Ableitungen in einer oberen Schicht. In einer Schichtenarchitektur können obere Schichten die unteren Schichten benutzen, aber nicht umgekehrt. Bsp.: RDF Schema hat grössere Ausdrucksmöglichkeiten als RDF, setzt zugleich RDF als Basissprache voraus. Das RDF-Model ist in einer unteren Schicht definiert. Das RDF-Modell ist nicht so mächtig wie Logiksprachen, z.b. Prädikatenlogik. Implikation und Negation gibt es nicht. Beweise können daher immer gefunden werden. In den Beweisen gibt es keine Rekursion. Die Idee ist also, eine einfache Sprache (RDF) zu definieren, für die man nützliche Anwendungen programmieren kann. Die Implementierung von Programmen, die eine mächtigere Sprache wie Prädikatenlogik verwenden, ist aufwendiger. Logische Ableitungen sind in einer oberen Schicht definiert. Logische Ableitungen ermöglichen es, neue Informationen zu erzeugen, die noch nicht in RDF gespeichert sind. Z.B. Fahrzeuge mit 4 Rädern und mit Motor, Auto können mit Implikation als dasselbe Konzept abgeleitet werden. Webseiten sind mit RDF-Aussagen assoziiert. Mit Suchanfragen werden Informationen von Webseiten oder aus einer zentralen Datenbank gelesen. Ein Web-Roboter bzw. ein Web-Crawler ist ein Programm, das selbständig aus Internet Informationen sammelt und Links auf andere Seiten verfolgt. Wenn viele Webseiten RDF-Aussagen in der Zukunft enthalten, wird das Web eine grosse, verteilte Datenbank. 18

DAML Beispiel Mengenoperationen Ontologie / Klassenhierarchie Instanz/Objektdaten Die linke Seite zeigt eine DAML Klassenhierarchie. RDF Schema: erlaubt, Klassenhierarchien von semantischen Konzepten zu definieren. Es gibt hier mehr Möglichkeiten als in RDF-Schema. Z.B.: eine Frau kann man definieren als Person, und gleichzeitig als weibliches Lebewesen (Multiple Inheritance). Die rechte Seite oben zeigt Mengenoperationen zur Ontologie. Damit kann man z.b. disjunkte Beziehungen ausdrücken (entweder Mann oder Frau, aber nicht beides). Gegenteil von disjunkt ist nichtleere Schnittmenge. Die rechte Seite unten zeigt Instanz/Objektdaten, die das Schema der Personenontologie verwendet. 19

DAML (I) DAML Markup-Sprache zur Erzeugung von Ontologien In Web-Seiten hinzufügen Anforderungen DAML Query Programm Übersetzer von in natürliche DAML Sprache DAML Web Crawler http://www.daml.org/crawler/ http://www.daml.org/crawler/pages.html Status DAML + OIL/Ontology Inference Layer veröffentlicht OWL/Web Ontology Language von W3C ist Nachfolger Die Idee ist, die eigenen Web-Seiten mit DAML zu ergänzen (DAML kann noch mehr als RDF Schema). Ein Crawler kann damit die Informationen lesen, und ein User kann mehrere Seite durchsuchen, so dass nur die interessanten Seiten gefunden werden. DAML ist eine Markupsprache, um Ontologien zu erzeugen. Es gibt Methoden wie in RDF-Schema (z.b. Klassen und Properties zu definieren), und es gibt zusätzlich Mengenoperationen, um Dinge innerhalb der Klassenhierarchie zu klassifizieren. Ein DAML Query Programm ist erforderlich. Ein solches Programm würde verstehen, wie die Information in der Ontologie abgeleitet werden kann. Man braucht ein Übersetzerprogramm, um die DAML-Ausdrücke in natürliche Sprache zu übersetzen, um das Ergebnis einer DAML-Suche zu verstehen. Eine Architektur/ein Programm für DAML Web Crawler ist unter http://www.daml.org/crawler/ zu finden. Das Suchergebnis des Crawlers ist im Internet unter http://www.daml.org/crawler/pages.html zu finden. OIL, dass zuerst unabhängig als Ontologiesprache definiert wurde, wurde später mit DAML vereint. DAML+OIL ist Vorgänger von OWL, das das W3C 2004 zum Standard gemacht hat. 20

DAML (II) /Darpa Agent ML Markup-Sprache zur Erzeugung von Ontologien Ergebnisse von Web Crawling Architektur: DAML Web Crawler DAML ist eine Markupsprache, um Ontologien zu erzeugen. Es gibt Methoden wie in RDF-Schema (z.b. Klassen und Properties zu definieren), und es gibt zusätzlich Mengenoperationen, um Dinge innerhalb der Klassenhierarchie zu klassifizieren. Das Bild zeigt ein Programm, das unter http://www.daml.org/crawler/ beschrieben ist. Crawler benutzen HTML Links, um Folgeseiten zu finden. Der Crawler startet mit einer Menge von Anfangsseiten. Architektur des Programmes Linke Seite: Startzeit des Programmes wird auf 3 Uhr nachts eingestellt. Zu dieser Zeit läuft das Programm mit dem Quellcode crawler.java los, um RDF-Seiten aus dem Internet zu finden. Es startet mit den Seiten mit den URLs mysql root URIs. Wenn RDF gefunden wird, wird dies in die Datenbank rdfdb statements geschrieben. Rechte Seite: Der Benutzer muss 3 Aktionen durchführen: 1. Erstellen einer Liste von den Startseiten für den Crawler 2. Einstellen der Startzeit des Programmes 3. Nachdem die RDF-Datenbank aufgebaut ist, kann der Benutzer mit RDF-Suchanfragen (z.b. RQL, XQL) Daten aus der Datenbank holen. Das Suchergebnis des Crawlers ist im Internet unter http://www.daml.org/crawler/pages.html zu finden. 21

Semantic Web: Demo RDF Suchmaschine/RDF Schema Query Programm Demo für RQL Suche http://139.91.183.30:9090/rdf X creates Y select X,Y from {X}creates{ Y} select X,Y from {X}creates.ex hibited{y} select X,Y from {X}creates{A}.exhibi ted{y}, Sculpture{B} where A=B Query + Vereinigung von RDF Graphen select X from Sculpture{X} select X from Artifact{X} Ableitung von Subklassenbeziehung select X,Y from {X}paints{Y} select X,Y from {X}creates{Y} Ableitung von Subpropertybeziehung WS 05/06 Hauptseminar: Information Retrieval Die Demo existiert auf dem Internet unter http://139.91.183.30:9090/rdf RQL = RDF Query Language Zuerst muss der User angeben, welche Daten er bei der Suche auswählen will. Diese Anfrage muss in RQL geschrieben werden. Die Anfrage wird an die RDF Suchmaschine/ RDF Schema Query Programm geschickt. Diese Suchmaschine versteht RQL und durchsucht die Datenbank nach RDF Schema Daten, die die Suchbedingungen erfüllen. RQL ist eine künstliche Anfragesprache. Die Suchmaschine kann nicht direkt natürliche Sprache verstehen. Wenn ein Benutzer am Computer natürliche Sprache eingibt, muss ein Übersetzungsprogramm die natürliche Sprache in RQL übersetzen. ist ein Übersetzungsprogramm erforderlich, um die natürliche Sprache in RQL zu übersetzen. Man kann verschiedene Suchanfragen stellen. Das Ergebnis wird aus den RDF- Daten ermittelt und an den Browser zurückgeschickt. Lokale Demo mit einigen Suchbeispielen. Die Suchanfrage ist aus 3 Teilen zusammengesetzt: Die Selektion der Variablen (z.b. select X,Y/Objekt), eine Menge von Unteranfragen, d.h. man kann noch eine Anfrage stellen. (getrennt durch Komma), und Bedingungen für die Variablen. Bsp: select X,Y from {X}creates.exhibited{Y} es werden alle Resources {X} gesucht, die als Subjekt vorkommen von der Property creates ; von der Resource, d.h. die Objekt von creates ist, wird mit dem Punkt zur nächsten Property 22 exhibited weitergegangen, und {X} und die damit gefundene Resource {Y} wird

Bestandteile des Semantic Web Metadaten Fakten / Aussagen Ontologien (Verwendung von Spezifikationssprachen für Ontologien, z.b. DAML) Regeln (Verwendung von Regelsprachen, z.b. RulesML/ Rules Markup Language) Agenten/Suchprogramme WS 05/06 Hauptseminar: Information Retrieval Metadaten sind wichtig für das semantic Web, d.h.schema (Daten über Daten), Daten zu eigentlichen Daten, also zusätzliche Informationen für Anfragen zu den eigentlichen Daten. RDF-Aussagen, die das Schema benutzen, beschreiben die Semantik der Daten. Ontologien ordnen die Konzepte zu den Daten. Regeln (jedoch braucht man zusätzlich ein Programm für die Verarbeitung der Logik) erlauben die Erzeugung von neuen Fakten aus bereits vorhandenen Fakten. Agenten/Programme ermöglichen es, die Daten und Metadaten zu verarbeiten. 23

Semantic Web im Internet (I) Schritt 1: Ontologie Editor erzeugt Ontologie Semantic Web Nahrungskette Hier ist ein Beispiel für Semantic Web im Internet. Zuerst erzeugt/definiert ein Ontologie-Editor eine Ontologie (z.b. über Tiere). Der Ontologie-Editor veröffentlicht die Ontologien im Internet. Das Ergebnis ist eine Menge von veröffentlichten Ontologien im Internet. 24

Semantic Web im Internet (II) Schritt 2: Webseiten-Editor fügt Ontologie- Markup in Seiten hinzu Als nächstes erzeugt ein Webseiten-Editor Webseiten mit Objektdaten und verwendet dabei die Daten der Ontologie. Das Ergebnis ist eine Menge von Webseiten mit Ontologiemarkup. Der Webseiten-Editor verwendet die Ontologien des Ontologie-Editors. 25

Semantic Web im Internet (III) Schritt 3: Agent sucht/ ermittelt Daten Als nächstes liest ein Programm/Agent die Webseiten mit Ontologiemarkup (entweder direkt aus dem Internet, oder er speichert die Seiten in eine lokale Datenbank). Zusätzliche Daten können mit Hilfe eines Inferenzprogrammes (das Logik versteht) abgeleitet werden. 26

Semantic Web im Internet (IV) Schrit 4: Vermittlung zwischen versch. Ontologien Verschiedene Ontologien können ähnliche Konzepte definieren. Deshalb gibt es das Ontology Articulation Toolkit, das die Beziehungen zwischen Konzepten verschiedener Hierarchien bestimmt. In verschiedenen Ontologien können gleiche oder ähnliche Konzepte definiert sein. Z.B. kann ein Konzept A einer Ontologie Subklasse von Konzept B einer anderen Ontologie sein. Diese Beziehung soll bei der Erstellung der Webseite berücksichtigt werden. 27

Semantic Web im Internet (V) Schritt 5: Information zu User/Portal geben Ein User möchte auf die Informationen zugreifen. Er gibt dem Programm/Agenten die Aufgabe, die Daten zu holen. Der Agent sucht nach Webseiten oder in der lokalen Datenbank. Der User kann auch Informationen für ein bestimmtes Thema aus einem Portal holen. Ein Portal ist eine Art Informationsverzeichnis. Das Programm/Agent liefert neue Informationen aus dem Internet an das Portal. 28

Auswertung Was wird benötigt RDF Parser XML Parser RDF Generator Suchfunktionen Inferenzprogramm Probleme Nicht genügend Tools, Metadaten, Standards Arbeitskräfte (Menschen) Kein kommerzielles Interesse WS 05/06 Hauptseminar: Information Retrieval Um RDF zu nutzen, benötigt man Tools, zumindest ein RDF Parser und Such- Funktionen. Parser sind Tools nicht nur für natürliche, sondern auch künstliche/logische Sprachen. Mit dem RDF Generator kann man RDF erzeugen. Für den Zugriff auf die Daten benötigt man Suchfunktionen und Inferenzprogramme. Im Moment ist das Problem, dass Tools, Metadaten und Standards fehlen. Es fehlen Arbeitskräfte bzw. es gibt zu wenig kommerzielles Interesse an dem Thema. 29

Quelle/Links W3C, RDF, RDF Schema http://www.w3c.org DAML http://www.daml.org RQL http://139.91.183.30:9090/rdf DANKE FÜR IHRE AUFMERKSAMKEIT! 30