KONZEPTION EINER ANWENDUNG ZUR INTUITIVEN SEMANTISCHEN ANNOTATION VON WEBSEITEN DURCH ENDNUTZER

Transkript

1 Fakultät Informatik Institut für Systemarchitektur, Professur für Rechnernetze Großer Beleg KONZEPTION EINER ANWENDUNG ZUR INTUITIVEN SEMANTISCHEN ANNOTATION VON WEBSEITEN DURCH ENDNUTZER Lars Beier Mat.-Nr.: Betreut durch: Dr.-Ing. Daniel Schuster und: Dipl.-Wirt.-Inf. Christopher Schulz Eingereicht am 25. März 2013

2

3 Selbstständigkeitserklärung Ich erkläre hiermit, dass ich die vorliegende Arbeit selbständig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die aus fremden Quellen wörtlich oder sinngemäß übernommenen Gedanken sind als solche kenntlich gemacht. Ich erkläre ferner, dass ich die vorliegende Arbeit an keiner anderen Stelle als Prüfungsarbeit eingereicht habe oder einreichen werde. Lars Beier!!!!!!!!! Dresden,

4 2

5 INHALTSVERZEICHNIS Inhaltsverzeichnis 3 1 Einleitung 7 2 Grundlagen Wissensrepräsentation Resource Description Framework Einfache Ontologien mit RDF-Schema Vokabulare und Schemata im Semantic Web Anfragesprache SPARQL Verwandte Arbeiten Wikipedia als Datengrundlage Qualitätsprobleme Benutzerfreundlichkeit Zusammenfassung

6 4 Konzeption Anforderungen Abgrenzung Die Architektur Grundlegender Aufbau Versionierung des Web Contents Eingebettete Metadaten Komponenten der Web Anwendung im Detail Preprocessing Reviewing Version- und Content-Management Search & Discovery Browser Plugin User Interface Zusammenfassung Implementierung Basissystem Intuitives User Interface Interaktion mit dem Text Erzeugen einer Annotation Anfragen via AJAX Versionierung Probleme Extraktion des Inhaltes einer Webseite INHALTSVERZEICHNIS

7 5.3.2 Nutzung von Vokabularen AlchemyAPI Validierung Benutzertest Ergebnisse Hinzufügen eines Artikels Informationen einer Entität anzeigen Entität bearbeiten Annotation einer Textstelle Entfernen einer Annotation Suchen nach Entitäten Review eines existierenden Artikels Lesemodus Feedback Zusammenfassung Fazit 69 8 Ausblick 71 Literaturverzeichnis 73 Abbildungsverzeichnis 77 Tabellenverzeichnis 79 Abkürzungsverzeichnis 81 INHALTSVERZEICHNIS 5

8 6 INHALTSVERZEICHNIS

9 1 EINLEITUNG Durch den Aufruf von Tim Berners-Lee zum Web 2.0 wurden passive Nutzer des World Wide Web (Web) aktiviert, ihre eigenen Daten und Dokumente zu veröffentlichen. Seitdem werden immer mehr Daten durch Unternehmen und private Nutzer veröffentlicht. Mittlerweile ist es kaum noch möglich ohne eine Suchmaschine Informationen im Web zu finden. Die meisten veröffentlichten Informationen im Internet sind unstrukturierte Daten. Sie sind für Menschen interpretierbar. Unstrukturierte Daten können aber nur schwer durch Algorithmen analysiert werden. Algorithmen sind aber notwendig, um relevante Fakten aus der Menge der veröffentlichten Informationen erfassen zu können. Um das Problem zu lösen hat Tim Berners-Lee seine Vision vom Web of Data bzw. Semantic Web vorgestellt (Berners-Lee et al., 2002). Das Semantic Web basiert auf dem Gedanken Daten zu strukturieren und öffentlich zur Verfügung zu stellen. Seine Vision wird unter dem Begriff Linked Open Data zusammengefasst. In seinem Artikel zu Linked Data 1 beschreibt Berners-Lee seine vier Prinzipien zur Beschreibung von Linked Data: 1. Uniform Resource Identifiers (URIs) werden zur Identifikation von Dingen eingesetzt. 2. HTTP-URIs werden eingesetzt, um weitere Informationen zu einer Ressource zu erhalten. 1 Linked Data (2006) 7

10 3. Der Aufruf einer URI führt zu Informationen, die diese Ressource beschreiben. 4. Ressourcen werden untereinander verlinkt, um zugehörige Informationen finden zu können. Abbildung 1.1: LOD-Cloud in 2007 ( lod-datasets_ png) Seitdem haben sich strukturierte Daten im Rahmen der Linked Open Data Initiative stark verbreitet. In Abbildung 1.1 und Abbildung 1.2 ist zu sehen, wie stark sich Linked Open Data verbreitet hat. Den Mittelpunkt stellt DBpedia 2 dar, ein durch die Community gepflegter Datensatz. Dieser Datensatz besteht aus strukturierten Abbildung 1.3: Strukturiterte Daten zur Stadt Dresden ( Dresden) Informationen die aus Wikipedia Artikeln automatisiert extrahiert werden. Viele Wikipedia Artikel stellen strukturierte Informationen in z.b. tabellarischer Form dar (Abbildung 1.3). Diese Daten werden von der Community mit Hilfe des von der W3C standardisierten Resource Description Frameworks (RDFs) serialisiert 2 DBPedia 8 Kapitel 1 Einleitung

11 und bereitgestellt. Neben der DBpedia existierten weitere Datensätze, die strukturierte Informationen pflegen und veröffentlichen. Jedoch liegen viele Daten im Web weiterhin in einem für Maschinen unlesbaren Format vor. Das betrifft vor allem private Blogs, Webseiten von Unternehmen, News Artikel, uvm. Um diese Daten zu strukturieren werden Tools eingesetzt, die ein gewisses Know-How zur Strukurierung von Informationen voraussetzen. Weshalb Ansätze, zur automatischen Extraktion von strukturierten Informationen, entwickelt werden. Die Qualität der extrahierten Informationen muss aber verbessert werden. Es kommt immer wieder vor, dass vor allem Eigennamen fehlerhaft identifiziert werden. Um die Qualität und die Vielfalt der verfügbaren Informationen zu verbessern,müssen diese Werkzeuge für den normalen Anwender zugänglich gemacht werden. Stichwort Crowdsourcing 3. Durch die hohe Anzahl von Nutzern im Internet können bestimmte Tätigkeiten auf diese ausgelagert werden. Eine dieser Tätigkeiten wäre das Auszeichnen von unstrukturierten Daten. In dieser Arbeit wird untersucht, wie ein solches System entworfen werden muss, um Internetnutzer dazu zu animieren, unstrukturierte Daten auszuzeichnen. Der Fokus liegt dabei auf der Entwicklung eines intuitiv bedienbaren Systems, mit dem Fließtexte mit semantischen Informationen ausgezeichnet werden können. Die Grundlagen des Semantic Web und der Wissensrepräsentation werden in Kapitel 2 vorgestellt. In Kapitel 3 werden verwandte Arbeiten in der Wissenschaft beschrieben. Dieses Kapitel hilft dabei das Ergebnis dieser Arbeit abzugrenzen und zu zeigen, dass kein System existiert, mit dem normale Anwender Webseiten intuitiv auszeichnen und die Daten der LOD-Cloud zur Verfügung stellen können. In Kapitel 4 und Kapitel 5 wird schlussendlich das System konzipiert und implementiert. Um zu zeigen, dass die zu erstellende Anwendung einen Mehrwert bietet, wird ebenso eine Evaluation mit zufällig ausgewählten Anwendern gemacht und ausgewertet. Zum Schluss wird ein Ausblick auf den Einsatz und Erweiterungen gegeben. 3 Crowdsourcing 9

12 Abbildung 1.2: LOD-Cloud in 2011 ( lod-datasets_ _colored.png) 10 Kapitel 1 Einleitung

13 2 GRUNDLAGEN Das erste Kapitel bildet die Grundlage für das Verständnis der eingesetzten Werkzeuge in dieser Arbeit. Die in der Einleitung dargestellte LOD-Cloud stellt ein Netz aus zusammenhängenden Datensätzen dar, die jeweils strukturierte Informationen liefern. Diese Datensätze werden durch Ontologien repräsentiert. Was eine Ontologie ist und warum gerade sie zur Repräsenation der Informationen im Semantic Web eingesetzt werden, wird im Abschnitt 2.1 erläutert. Im Zuge der Entwicklung des Semantic Webs hat sich eine grundlegende Repräsentationssprache herausgebildet: RDF (Abschnitt 2.2). Mit dem Einsatz von RDF ist es möglich reale Objekte und deren Beziehungen zu anderen Objekten zu repräsentieren. Diese Informationen stellen jedoch noch keine Ontologien dar. Diese werden erst durch die RDF und Web Ontology Language (OWL) beschrieben. Da Informationen in der realen Welt in Strukturen abgebildet werden, um Mehrdeutigkeiten aufzulösen, gibt es für das Semantic Web so genannte Schemata und Vokabulare. Die in Abschnitt 2.4 vorgestellten Schemata und Vokabulare bieten grundlegende Strukturen, um Dinge der Realen Welt abzubilden. Mit den eben beschriebenen Formalismen werden strukturierte Daten in Ontologien abgebildet und untereinander in Beziehung gesetzt. Diese Daten weisen aber erst dann Mehrwert auf, wenn sie auch abgerufen werden können. Die strukturierten Informationen können durch die einfache Abfragesprache SPARQL Protocol And RDF Query Language (SPARQL) abgerufen werden. Diese Abfragesprache ist ähnlich der für Datenbanken eingesetzte Structured Query Language 11

14 (SQL). Die grundlegenden Einsatzmöglichkeiten und Besonderheiten von SPAR- QL werden im Abschnitt 2.5 beschrieben. Eine weitere Methode, um Informationen aus den vernetzten Daten zu erhalten, bietet das so genannte Reasoning. Hiermit können Abhängigkeiten und Schlüsse im Graphen berechnet werden. Jedoch geht Reasoning über den Fokus dieser Arbeit hinaus und wird deshalb hier nur der Vollständigkeit halber erwähnt. Informationen zu Reasoning können in (Dengel, 2012) oder (Hitzler et al., 2008) nachgelesen werden. 2.1 Wissensrepräsentation Die Grundlage für Webseiten bildet die Hypertext Markup Language (HTML). Mit dieser Auszeichnungssprache werden Inhalte für Webseiten in semi-strukturierter Form dargestellt. Mit Hilfe von Links werden Dokumente oder andere Webseiten in Relation gesetzt. Dadurch werden weiterführende Informationen verknüpft. Jedoch sind Daten, die durch HTML repräsentiert werden nicht durch Maschinen lesbar. Für die Maschine ist es weiterhin nur Text, der keine weitere Bedeutung besitzt. Um Daten mit Bedeutung auszuzeichnen ist eine Wissensrepräsentation notwendig. Durch weitere Informationen, die die Daten näher beschreiben, wird Wissen erzeugt. Diese Informationen werden als Metadaten bezeichnet, also Daten über Daten. Dadurch können Objekte in einen gemeinsamen Kontext gesetzt werden. Assoziationen sind nicht hierarchisch angeordnet, weshalb es sich bewährt hat, sie in einem Netz darzustellen. Eine mögliche Repräsentation eines Netzes wird durch Graphen ermöglicht. Knoten repräsentieren die einzelnen Objekte. Kanten stehen für die Beziehungen zwischen den Objekten. Nun kann Wissen durch das Netz über die Objekte und deren Beziehungen abgeleitet werden. In semantischen Netzen, wie dem Semantic Web, werden diese Beziehungen durch Subjekt Objekt Prädikat Tripel dargestellt. Die Eigenschaften eines Elements werden durch das Prädikat beschrieben. Diese stehen immer in Verbindung zu einem Objekt. Um eine gemeinsame Struktur zu finden wird auf Taxonomien zurückgegriffen. In einer Taxonomie werden Objekte durch Ober- und Unterbegriffe generalisiert und spezialisiert abgebildet, wobei Eigenschaften an die Unterbegriffe vererbt werden. Die jeweiligen Klassen stellen Schablonen für reale Objekte und deren Instanzen dar. 12 Kapitel 2 Grundlagen

15 Ein Beispiel soll das Konzept verdeutlichen: um auszudrücken, dass das Alice eine Instanz der Klasse Person ist, wird die Beziehung ist-instanz-von zwischen Alice und der Klasse Person gesetzt. Mit einem Subjekt Prädikat Objekt Tripel wird dies folgendermaßen ausgedrückt: Alice ist-instanz-von Person. Taxonomien sind für das Semantic Web jedoch keine optimale Lösung. Taxonomien lassen keine Mehrfachvererbungen zu. Sie beruhen auf der Annahme, dass Klassen in sich abgeschlossen sind (Dengel, 2012, Kap ). Eine Lösung für dieses Problem sind Ontologien. Es wird seit Jahrtausenden versucht Dinge der realen Welt abzubilden und in Verbindung zu setzen. Um eine solche Ontologie zu beschreiben sind einige Festlegungen zu beachten: Nutzung gemeinsamer Symbole und Begriffe im Sinne einer Syntax, gemeinsames Verständnis der Bedeutung der abgebildeten Begriffe, Klassifikation von Begriffen mit Hilfe einer Taxonomie, Vernetzung von Begriffen per Assoziationen, Festlegung von Regeln und Definitionen, die Relationen sinnvoll beschreiben und erlaubt sind. Die Bestandteile von Ontologien sind Klassen, Relationen, Regeln und Instanzen. In Ontologien wird Domänenwissen abgebildet. Domänenwissen ist Wissen, was einen abgegrenzten Bereich, einer Domäne, abdeckt. Eine Domäne ist beispielsweise das Semantic Web. Jedes Wissen, was dazu gehört, wird in dieser Domäne gesammelt. Mit Hilfe von Ontologien kann das Wissen der jeweiligen Domänen repräsentiert und mit anderen Domänen verknüpft werden. Im Semantic Web werden Ontologien durch verschiedene Beschreibungssprachen repräsentiert. das World Wide Web Consortium (W3C) hat im Zuge der Semantic Web Entwicklung die Beschreibungssprachen RDF und die ausdrucksstärkere OWL entwickelt. Im folgenden Abschnitt wird näher auf RDF eingegangen. Auf die Beschreibungsprache OWL wird in dieser Arbeit kein weiterer Bezug genommen. Für den Prototypen, der im Rahmen dieser Arbeit entwickelt wird, reicht die Ausdrucksstärke von RDF und RDF-Schema (RDFS) aus. Weitere Informationen zu OWL können auf den Seiten des W3C gefunden werden 1. 1 OWL Wissensrepräsentation 13

16 2.2 Resource Description Framework Das W3C hat die Beschreibungssprache RDF entworfen, um Informationen im Web abzubilden. Mit RDF können Ressourcen flexibel und explizit beschrieben werden. Die Grundlage für diese formale Sprache bilden URIs. Jede zu beschreibende Ressource wird durch ihre individuelle URI beschrieben. Diese dient zugleich der Referenzierung im gesamten Netzwerk. RDF besteht aus zwei Teilen, dem RDF Model und der RDF Syntax. Das Modell repräsentiert eine Menge von Aussagen, die durch die Syntax beschrieben werden. Wie im Abschnitt 2.1 beschrieben wurde, werden Aussagen als Tripel dargestellt, die einen Graphen aufspannen. Jedes RDF Tripel kann aus Eigenschaften (Properties) und Aussagen (Statements) zusammengesetzt werden. Properties stellen Attribute, Aspekte und Relationen dar. Sie beschreiben also eine bestimmte Ressource, z.b. dass zwei Personen sich kennen. Statements sind dagegen Aussagen, also z.b. Personen oder andere real existierende Objekte oder Klassen, wie ein Buch. Damit ist es nun beispielsweise möglich die Person Alice durch den RDF Graphen in Listing 2.1, bestehend aus mehreren RDF Tripel zu ex: rdf: foaf: < ex:bob rdf:type foaf:person. ex:alice rdf:type foaf:person ; foaf:age "27" ; foaf:knows ex:bob. Listing 2.1: RDF Graph, der die Relation zwischen Alice und Bob beschreibt und Eigenschaften von Alice repräsentiert. Wie zu sehen ist, beschreibt das Listing 2.1, dass Alice und Bob jeweils vom Typ Person sind, dass Alice das Alter 27 besitzt und Bob kennt. Um nicht immer die gesamte URI von bspw. aufschreiben zu müssen, wird ein Präfix eingesetzt. Sie stehen zu Beginn des RDF-Dokuments. Somit foaf: den Präfix der URI für das Friend of a Friend (FOAF) Projekt. Mit diesem Projekt wurde das Vokabular FOAF eingeführt. Durch dieses Vokabular können Personen und ihre Beziehungen untereinander repräsentiert werden. 14 Kapitel 2 Grundlagen

17 Abbildung 2.1: Alice knows Bob visualisiert. Im Beispiel wurde die Eigenschaft foaf:knows eingesetzt, um auszudrücken, dass Alice und Bob sich kennen. Darüber hinaus bietet das Vokabular weitere Ausdrucksmöglichkeiten. FOAF und andere Vokabulare werden in Abschnitt 2.4 näher beschrieben. Im Beispiel wurde die Syntax Turtle 2 eingesetzt, um den RDF Graphen zu serialisieren, also in eine für Maschinen lesbare Form zu bringen. RDF Graphen können auf verschiedene Arten und Weisen serialisiert werden. Neben Turtle gibt es unter anderem noch RDF/XML 3. Diese basiert auf der XML-Syntax und wird vor allem dann eingesetzt, wenn die RDF Graphen verarbeitet werden (Heath et al., 2011, Kap ) müssen. Sie ist aber nicht so einfach zu lesen, weshalb in dieser Arbeit auf die besser lesbare Turtle Syntax gesetzt wird. Im Listing 2.1 wurde für das Alter von Alice die Zeichenkette "27" eingesetzt. Jedoch ist es unvorteilhaft, wenn Zahlen als normale Zeichenketten vorliegen. Damit diese Zeichenkette als Zahl interpretiert werden kann, wird auf das XML Schema 4 zurückgegriffen. Mit diesem Schema können Zeichenketten mit einem Datenyp ausgezeichnet werden. Mit dem Datentyp integer kann nun das Alter als Ganzzahl dargestellt werden. Im Listing 2.2 wurde der entsprechende Typ an die Zeichenkette "27" wie folgt markiert "27"^^xsd:integer. 2 Turtle Syntax 3 RDF/XML Syntax 4 XML Schema Resource Description Framework 15

18 xsd: < ex:alice rdf:type foaf:person ; foaf:age "27"^^xsd:integer ; foaf:knows ex:bob. Listing 2.2: Getypter RDF Graph, der die Relation zwischen Alice und Bob beschreibt und Eigenschaften von Alice repräsentiert. 2.3 Einfache Ontologien mit RDF-Schema Mit XML Schema ist es nun möglich Literalen einen Datentyp zuzuweisen. Was ist jedoch mit dem Typ foaf:person? Für den Menschen ist es einfach zu erschließen, dass es sich bei einer Person um einen Menschen handelt. Aber eine Maschine hat dieses implizite Wissen nicht. Weshalb es notwendig ist, Klassen und Properties in einen Zusammenhang zu bringen. Ähnlich zur objektorientierten Programmierung soll definiert werden können, dass z.b. die Klasse Person eine Unterklasse von Mensch ist. Hierfür wurde RDFS entwickelt, eine Erweiterung zu RDF, die es erlaubt Vererbungen und Hierarchien abzubilden. Dieses Hintergrundwissen ist notwendig, damit eine Maschine ableiten kann, dass eine Person ein Mensch ist. Um dieses Wissen abzubilden wurde ein Vokabular definiert. Mit ihm werden Werkzeuge zur Verfügung gestellt mit denen eben diese Klassenhierarchien abgebildet werden können. Durch diese Möglichkeit wird RDFS in die Kategorie der Ontologiesprachen eingeordnet, da sie zur Wissensrepräsentation geeignet ist. RDFS ist eine leichtgewichtige Ontologiesprache, die einigen Einschränkungen unterliegt. Für diese Arbeit sind die Werkzeuge, die diese Sprache bietet jedoch ausreichend, weshalb nicht näher auf die erweiterte Ontologiesprache OWL eingegangen wird. Im Abschnitt 2.2 wurde im einführenden Beispiel rdf:type eingesetzt, um zu zeigen, dass Alice eine Person ist. Damit wird ausgedrückt, dass Alice eine Instanz der Klasse Person ist. Jedoch ist es innerhalb der Repräsentation mittels RDF nicht möglich zu erkennen, dass es sich bei der Person um eine Klasse handelt. Um dieses Problem aufzulösen, wird per rdf:type festgelegt, dass foaf:person vom Typ rdfs:class ist. Im Listing 2.3 wird gezeigt, wie dies mit Hilfe von RDFS ausgedrückt werden kann. Angelehnt an objektorientierte Sprachen, wie Ruby, können mit Hilfe von RDFS 16 Kapitel 2 Grundlagen

19 @prefix foaf: rdf: rdfs: < foaf:person rdf:type rdfs:class. Listing 2.3: RDFS Ausdruck, dass Person eine Klasse ist. Klassenhierarachien definiert werden. Eine Ableitung wird über rdfs:subclassof definiert. Damit lässt sich nun die im Vokabular schema.org genutzte Beziehung, dass Person eine Unterklasse von Thing ist, abbilden, wie in Listing 2.4 zu sehen. Durch diesen Ausdruck lassen sich somit auch komplexe Klassenhierarchien abbilden (Hitzler et al., 2008, Kap. schema: < schema:person rdfs:subclassof schema:thing. Listing 2.4: Abbilden von Unterklassen. Neben Klassen besitzen Properties in Ontologien eine wichtige Rolle. Mit ihnen werden Beziehungen zwischen Objekten abgebildet. Damit diese eine Bedeutung erhalten, können sie durch RDFS spezifiziert werden. Als erstes ist es notwendig die jeweilige Eigenschaft als solche zu definieren. In Listing 2.6 wird foaf:knows als Property definiert. Darauf aufbauend können weitere Eigenschaften beschrieben werden. foaf:knows rdf:type rdf:property. Listing 2.5: Properties werden durch rdf:type definiert. Ähnlich zu Klassen lassen sich auch untergeordnete Properties beschreiben. Beispielsweise impliziert die Beziehung Alice ist mit Bob befreundet die Beziehung Alice kennt Bob. Analog zu rdfs:subclassof wird rdfs:subpropertyof dafür eingesetzt. In Listing 2.6 wird das am Beispiel verdeutlicht. Die Beispieleigenschaft ex:friendswith kann nun durch RDFS auf bestimmte Klassen eingeschränkt werden. Durch die Operatoren rdfs:domain und rdfs:range können Einschränkungen auf bestimmte Klassen oder z.b. Zahlenbereiche definiert werden. Als Erweiterung zu Listing 2.6 ist die Einschränkung des Objekts auf die Klasse foaf:person sinnvoll. In Listing 2.7 wird festgelegt, dass das Objekt von der Klasse Person sein muss. 2.3 Einfache Ontologien mit RDF-Schema 17

20 @prefix ex: foaf: < foaf:knows rdf:type rdf:property. ex:friendswith rdf:type rdf:property. foaf:knows rdfs:subpropertyof ex:friendswith. Listing 2.6: Properties werden durch rdf:type definiert. ex:knows rdf:domain foaf:person. ex:friendswith rdf:domain foaf:person. Listing 2.7: Properties können auf bestimmte Domänenbereiche eingegränzt werden. Im Listing 2.2 wurde gezeigt, dass Zahlenwerte durch XML-Schema typisiert werden können. Wie im Listing 2.8 zu sehen, ist rdf:range eine elegantere Lösung. Mit ihr wird zusätzlich festlegt, dass das Alter einer Person ausschließlich eine positive ganze Zahl sein kann. ex:alice foaf:age rdfs:range xsd:nonnegativeinteger. Listing 2.8: Properties können auf bestimmte Bereiche begrenzt werden. Manchmal ist es notwendig Listen oder komplexere Satzkonstruktionen abzubilden. Hier bieten RDF und RDFS so genannte Container an. Jedoch wird in der Community 5 und in der Literatur davon abgeraten Container und Reifikation einzusetzen. Container sollten besser durch einzelne Tripel aufgelöst werden, das ist auf der einen Seite einfacher zu lesen und auf der anderen Seite einfacher durch z.b. SPARQL abzufragen. Reifikation bezeichnet das Abbilden von Aussagen über Aussagen in Ontologien (Dengel, 2012, Kap ). Hier bietet RDF beispielsweise die Möglichkeit Aussagen über Aussagen abzubilden. Jedoch führt dies zu hoher Komplexität. Weshalb es vermieden werden sollte (Dodds et al., 2012, Kap. 3 und Heath et al., 2011, Kap ). Für einfache Ontologien ist RDFS ausreichend. Sollen jedoch Ontologien entworfen werden, die eine höhere Komplexität aufweisen, dann stellt OWL das geeignetere Werkzeug dar (Hitzler et al., 2008). 5 Tim Berners-Lee fordert, dass in der nächsten Spezifikation Reifikation entfernt werden sollte, da die Implementierung fehlerhaft ist semantic-web/2007jan/0088.html 18 Kapitel 2 Grundlagen

21 2.4 Vokabulare und Schemata im Semantic Web Die vorgestellten Linked Open Data Prinzipien sagen aus, dass Dinge im Semantic Web durch URIs beschrieben werden sollen. Jedoch stellen URIs nur eine Referenz zur Identifikation des Objektes dar und sagen nicht viel über das zu beschreibene reale Weltobjekt aus. Wenn z.b. die Person Alice wird durch die URI repräsentiert wird, sagt das nichts über ihr Alter oder ihren vollständigen Namen aus. Ein Mensch kann mit seinem Weltwissen zwar ableiten, dass es sich mit hoher Wahrscheinlichkeit um eine Frau handelt. Aber viel mehr kann auch der Mensch nicht daraus ableiten. Dieses Problem kann durch den Einsatz von Vokabularen behoben werden. Ein Vokabular ist dabei eine Sammlung von Attributen, die ein Objekt der realen Welt näher beschreiben. Ein solches Vokabular ist FOAF Projekt 6. Hiermit werden Beziehungen zwischen Personen abgebildet. Zum Beispiel gibt es das Attribut foaf:knows, womit ausgedrückt wird, dass zwei Personen untereinander bekannt sind. Zudem kann das Alter durch foaf:age angegeben werden. Da FOAF aber nur ein Vokabular zur Beschreibung von Personen und deren Beziehungen darstellt, existieren weitere Vokabulare. Ein bekannter Vertreter ist das im Juni 2011 vorgestellte schema.org Projekt. Dieses wurde in Kooperation von Google, Yahoo! und Bing initiiert. Schema.org ist ein sehr großes Vokabular. Es können allgemeine Dinge (Thing), Personen (Person), Veranstaltungen (Events), Medizin (Health and medical), Organisationen (Organization), Orte (Places) und Unterkategorien, Produkte und Reviews beschrieben werden. Der Bereich Produkte wurde Anfang November um das Vokabular von GoodRelations 8 erweitert und bietet somit weitere Mittel zur Beschreibung dieser Entitäten. Ein dritter wichtiger Vertreter ist Dublin Core. Mit Dublin Core lassen sich verschiedene Ressourcen abbilden. Unter anderem werden Autoren (Creator) eines Werkes mit Hilfe des Attributs dc:creator beschreiben. Es gibt fünfzehn Attribute im Kern von Dublin Core, die dokumentiert sind 9. Neben diesen reinen Vokabularen gibt es weitere Hilfsmittel, zur Strukturierung 6 Friend of a Friend Projekt Webseite 7 GoodRelations wurde in das Schema.org Vokabluar vollständig integriert ( ) http: //semanticweb.com/goodrelations-fully-integrated-with-schema-org_b GoodRelations Webseite 9 Dublin Core Vokabular Vokabulare und Schemata im Semantic Web 19

22 von Ontologien. Dazu gehören z.b. Simple Knowledge Organization System (SKOS) 10 und Vocabulary of interlinked Datasets (VoiD) 11. SKOS ist ein RDF Vokabular, um Strukturen wie Thesauri, Taxonomien oder Klassifikationen zu beschreiben. Das Kernelement in SKOS beschreibt das Konzept. Jede Entität, die durch eine URI referenziert wird ist im Sinne von SKOS ein Konzept. Diese werden durch Label in natürlicher Sprache beschrieben. Konzepte können untereinander in Beziehung stehen. Diese Beziehungen können unterschiedlich ausgedrückt werden. Um Endanwender beim Verstehen eines Datensatzes zu unterstützen, werden Attribute wie skos:definition oder skos:example bereitgestellt. Der aktuelle Einsatz von SKOS wird in (Manaf et al., 2012) diskutiert. Im Gegensatz zu diesem Vokabluar werden RDF Datensätze durch VoiD beschrieben. Ein RDF Datensatz wird dabei von einem Provider bereitgestellt. Diese werden durch void:dataset adressiert. Um auszudrücken, dass DBPedia ein Datensatz ist, wird folgendes definiert: :DBPedia a void:dataset. Nun können weitere Eigenschaften dieses Datensatzes definiert werden, wie die Webseite oder der Publisher oder das Datum der letzten Aktualisierung. Eine gesamte Übersicht der möglichen Attribute werden auf den Seiten des W3C gepflegt 12. Stehen zwei oder mehrere RDF-Datensätze untereinander in Beziehung, können diese durch void:linkset beschrieben werden. In Listing 2.9 ist am Beispiel zu sehen, wie Linksets eingesetzt werden können 13. Diese Informationen sind vor allem im Bereich der LOD-Cloud nützlich, denn so können maschinen-lesbare Informationen zu den jeweiligen Datensätzen ausgelesen werden. In (Böhm et al., 2011) wird beschrieben, warum der Einsatz von VoiD sinnvoll ist. :DBPedia_GeoNames a void:linkset; void:target :DBPedia; void:target :GeoNames; void:subset :DBPedia; void:triples ;... Listing 2.9: Beschreibung des LinksetsDBPedia_GeoNames durch VoiD 10 Simple Knowledge Organization System (SKOS) Webseite skos/ 11 Vocabulary of interlinked Datasets 12 W3C Referenz zu VoiD 13 VoiD Describing Linksets 20 Kapitel 2 Grundlagen

23 Die in diesem Kapitel vorgestellten Vokabulare und Schemata bieten die Grundlage zum Verständnis der weiteren Kapitel. Durch den Einsatz vor definierter Vokabulare wird gewährleistet, dass die Datensätze konsistent sind. Wenn ein Datensatz für die LOD-Cloud erstellt und veröffentlicht werden soll, so ist es sinnvoll auf diese vorgefertigten und wohldefinierten Schemata zurückzugreifen. Denn so kann ein Nutzer dieser Daten nachschlagen, was die jeweiligen Attribute definieren. 2.5 Anfragesprache SPARQL In den vorherigen Kapiteln wurden die Beschreibungssprache RDF und deren semantische Erweiterung RDFS eingeführt und beschrieben, wie mit deren Hilfe Daten für das Semantic Web erstellt werden können. Diese Daten sind aber wertlos, wenn sie nicht genutzt werden können. Um diese Daten nun in Anwendungen einsetzen zu können, wird eine Anfragesprache benötigt. Für RDF Graphen wurde vom W3C die Anfragesprache SPARQL 14 empfohlen. Mit ihr ist es recht einfach Anfragen an einen Graphen zu stellen, in dem RDF Tripel abgelegt sind. Mit SPARQL können RDF Tripel in einer an SQL 15 angelehnten Anfrage angefragt werden. Sollen zum Beispiel alle Personen aufgelistet werden, die im Graphen Listing 2.10 beinthaltet sind, so kann die Anfrage in Listing 2.11 eingesetzt werden. Diese Abfrage gibt nun entsprechend alle drei Personen aus, jedoch nicht die Entität vom Typ Thing. Das Ergebnis ist in Tabelle 2.1 dargestellt. In Listing 2.11 werden Variablen, mit? oder $ definiert. Diese Variablen werden durch die Anfrage an den RDF Graphen mit Entitäten gebunden und ausgegeben. Wobei durch den SELECT Operator definiert wird, welche Daten ausgegeben werden sollen. Im WHERE Block des Beispiels werden Tripel angegeben. Die einzelnen Elemente des Tripels (Subjekt, Prädikat und Objekt) stehen für jeweils eine Spalte. Es wird zuerst nach allen Personen im Dokument gesucht:?person rdf:type schema:person. Zu sehen ist, dass analog zu den RDF Tripel auch im SPARQL Präfixe eingesetzt werden. Diese werden mit dem Schlüsselwort PREFIX im Kopf der Anfrage definiert. 14 SPARQL Referenz 15 SQL Anfragesprache SPARQL 21

24 @prefix ex: rdf: schema: < #uses schema.rdfs.org vocabulary ex:alice rdf:type schema:person ; schema:gender " female". ex:bob rdf:type schema:person ; schema:gender " male". ex:mary rdf:type schema:person. ex:macbook rdf:type schema:thing. Listing 2.10: Basis RDF-Dokument für SPARQL Anfragen. PREFIX rdf: < PREFIX ex: < PREFIX schema: < SELECT * WHERE {?person rdf:type schema:person. } Listing 2.11: Eine einfache Abfrage mit SPARQL, um alle Entitäten des Typs schema:person abzufragen, die im RDF Dokument enthalten sind. # Person Tabelle 2.1: Ergebnis der SPARQL Anfrage zu Listing Um nun weitere Informationen, wie schema:gender im Ergebnis aufzulisten, wird die Anfrage angepasst. Ein Tripel wird hinzugefügt, das die Anfrage an das Geschlecht enthält, Listing Das eingefügte Tripel ist nun eine weitere Bedingung die vom Datensatz erfüllt werden muss. Das Ergebnis der Anfrage wird in Tabelle 2.2 dargestellt. 22 Kapitel 2 Grundlagen

25 ... SELECT * WHERE {?person rdf:type schema:person.?person schema:gender?gender. } Listing 2.12: Erweiterte Anfrage, die zusätzlich das Geschlecht der jeweiligen Person auflistet # Person Gender 1 female 2 male Tabelle 2.2: Ergebnis der SPARQL Anfrage zu Listing In diesem Beispiel ist zu sehen, dass der Eintrag für Mary nicht auftaucht. Der Operator OPTIONAL bietet hier Abhilfe. Mit ihm können, wie der Name vermuten lässt, optionale Muster festgelegt werden. Das Listing 2.13 erweitert das vorhergehende Beispiel um genau diese optionale Abfrage.... SELECT * WHERE {?person rdf:type schema:person. OPTIONAL {?person schema:gender?gender. } } Listing 2.13: Erweiterte Anfrage, die zusätzlich das Geschlecht der jeweiligen Person auflistet # Person Gender 1 female 2 male 3 Tabelle 2.3: Ergebnis der SPARQL Anfrage zu Listing Ein weiterer Wichtiger Operator ist UNION, was als logisches ODER interpretiert wird. Hiermit können alternative Tripel angegeben werden. Wurde in RDF-Dokumenten 2.5 Anfragesprache SPARQL 23

26 ... PREFIX foaf: < SELECT * WHERE {?person rdf:type schema:person. UNION {?person rdf:type foaf:person. } } Listing 2.14: Einsatz des Operators UNION, um Personen vom Typ foaf:person als auch schema:person zu ermitteln. beispielsweise zum einen eine Person per foaf:person und zum anderen per schema:person definiert, so ist mit UNION möglich alle Tripel mit beiden Personentypen zu finden. Die jeweilige Anfrage ist in Listing 2.14 zu sehen. Das sich aus dieser Anfrage ergebende Resultat sollte selbsterklärend sein. Beim Einsatz von UNION bzw. OPTIONAL ist zu beachten, dass diese Operatoren linksassoziativ sind (Hitzler et al., 2008, Kap ). Weitere Muster zur Einschränkung von Anfragen werden in (Hitzler et al., 2008, Kap ) besprochen. Mit SPARQL können also einfache Anfragen an den vorliegenden Graphen gestellt werden. Es ist damit aber nicht möglich aus einem bestehenden Graphen Wissen abzuleiten. Dafür kommt Reasoning zum Einsatz. Weitere Informationen zu SPARQL und Reasoning können in (Dengel, 2012, Kap. 6.2) nachgelesen werden. 24 Kapitel 2 Grundlagen

27 3 VERWANDTE ARBEITEN Das Semantic Web ist in den letzten Jahren stark angewachsen. In diesem Kapitel werden verwandte Arbeiten vorgestellt. In diesen werden Ansätze beschrieben, mit denen aus unstrukturierten Daten sowohl automatisiert, als auch manuell Informationen für das Semantic Web extrahiert werden können (Abschnitt 3.1). In Abschnitt 3.2 wird untersucht, wie die Qualität der Daten in der LOD-Cloud durch Ontology-Alignment verbessert werden kann und was unter Ontology- Alignment zu verstehen ist. Ein nicht zu vernachlässigender Schwerpunkt, der untersucht wird, ist die Benutzerfreundlichkeit von Anwendungen zur Erstellung von Ontologien und Linked Open Data. Arbeiten, die sich mit diesem Thema beschäftigen werden in Abschnitt 3.3 beschrieben. 3.1 Wikipedia als Datengrundlage Zum einen wird versucht, Webseiten automatisiert mit semantischen Metadaten auszuzeichnen (Adrian et al., 2010). Einen solchen Ansatz verfolgt das Tool mit dem Namen Epiphany, welches den Inhalt von Webseiten in einem RDF Graphen abbildet. Dieser RDF Graph wird später dazu eingesetzt, um die Entitäten innerhalb des Dokuments durch RDF in Attributen (RDFa) auszuzeichnen. Dieser mit Metadaten angereicherte HTML Code wird als Kopie und mit Referenz zum Originaldokument von Epiphany verwaltet. Das nun mit semantischen Informationen angereicherte Dokument kann vom Endanwender über eine spezielle HTTP URL aufgerufen werden. Damit der Endnutzer einen Nutzen aus diesem ange- 25

28 reicherten Dokument ziehen kann, ist entweder ein Browser Plugin notwendig, wie WebSmartyPants oder ein semantischer Web Browser, z.b. Ozone Browser (Adrian et al., 2010, Kap. 3ff.). Um Entitäten einen Kontext zu geben wird bei Epiphany auf den Datensatz von DBPedia 1 zurückgegriffen. Ein beliebtes Beispiel, um diverse automatisierte oder semi-automatisierte Ansätze zu präsentieren, stellt der Text-Korpus der Wikipedia dar. Ein prominentes Beispiel ist das bereits erwähnte Projekt DBPedia. Dieses Projekt wurde 2007 vorgestellt (Auer et al., 2007) und hat seitdem fast die gesamten strukturierten Informationen der Wikipedia extrahiert und in der LOD-Cloud als Datensatz zur Verfügung gestellt (Bizer et al., 2009). Die meisten Wikipedia Artikel besitzen strukturierte Daten in Form von Tabellen. Ein Land hat bspw. eine Tabelle zu den wichtigsten Fakten, wie Größe, Einwohnerzahl, Sprache etc. Diese Informationen werden mit Hilfe eines Extraction Frameworks 2 erschlossen und als RDF Tripel in der Wissensdatenbank hinterlegt. Abbildung 3.1: Grundlegende Architektur der DBPedia (Quelle: dbpedia.org/dbpedia_architecture_large.png) Die Grundlegende Architektur der DBPedia ist in Abbildung 3.1 zu sehen 3. Es wird eine lokale Kopie der Wikipedia vorgehalten, die regelmäßig synchronisiert wird. Die synchronisierten Daten werden dann extrahiert und mit einem Mapping versehen und die RDF Tripel in den Tripel Store geschrieben. Weitere Informatio- 1 DBPedia, ein Crowdsourcing Projekt, um strukturierte Informationen aus Wikipedia Artikeln semantisch aufzubereiten und als RDF Datensätze zur Verfügung zu stellen org 2 Extraction Framework 3 Grundlegende Architektur von DBPedia 26 Kapitel 3 Verwandte Arbeiten

29 nen können in Auer et al., 2007 nachgelesen werden. Die Wissensdatenbank ist eine Sammlung aller extrahierter RDF Tripel. Dieser RDF Graph bietet zudem Verknüpfungen zu den jeweiligen Wikipedia Artikeln an, sodass ein direkter Aufruf der Artikel für weitere Informationen verfügbar ist. Zwei weitere Projekte, die auf den DBPedia Datensatz zurückgreifen, sind YAGO (Suchanek et al., 2007) und der Nachfolger YAGO2 (Hoffart et al., 2012). Sie wurden konzipiert, um unstrukturierte Daten der Wikipedia automatisiert zu extrahieren. Dabei wird bei beiden Projekten auf die Datenbasis von DBPedia und Word- Net 4 gesetzt. Durch Text Mining werden Entitäten innerhalb der Texte erkannt und mit dem WordNet Datensatz verglichen. Durch die von WordNet bereitgestellte Taxonomie werden die Entitäten zudem klassifiziert. Um die Entitäten in ihrer Eindeutigkeit zu bestimmen, wird die in WordNet am häufigsten verwendete Bedeutung eingesetzt. Hier wird jedoch ein Regelwerk manuell gepflegt, um die Genauigkeit zu erhöhen. Die nun erkannten Entitäten werden mit Hilfe der DBPedia in Beziehung gebracht. Mit dem Nachfolger YAGO2 wird ein wichtiger Aspekt in der LOD-Cloud Untersucht: Raum und Zeit (Hoffart et al., 2012). Die meisten Datensätze in der LOD- Cloud bieten keine oder nur unzureichende Informationen bzgl. der Zeit und des geographischen Standortes an. Um diese Informationen abzubilden, wurden zusätzliche Attribute entworfen. Damit ist es möglich Zeitpunkte und -spannen festzulegen, z.b. die Angabe des Geburtstages und des Todeszeitpunktes (Hoffart et al., 2012, Kap. 4ff.). Neben dem Zeitpunkt eines Faktes ist es nützlich auch Standorte durch ihre geographischen Koordinaten anzugeben. Damit können entsprechend Entfernungen abgefragt und in Relation gesetzt werden. Hierfür werden sowohl Daten aus der Wikipedia als auch von GeoNames 5 eingesetzt. Geo- Names ist eine Wissensdatenbank für geographische Fakten (Hoffart et al., 2012, Kap. 5ff.). Sowohl YAGO als auch dessen Nachfolger beschränken sich bisher vor allem auf die englische Wikipedia. Ihr Ansatz soll in Zukunft auf freie Texte angewandt und getestet werden (Hoffart et al., 2012, Kap. 11). 4 Projekt WordNet 5 GeoNames Wikipedia als Datengrundlage 27

30 3.2 Qualitätsprobleme Weitere automatisierte Ansätze werden in Freitas et al., 2012 und Exner et al., 2012 diskutiert. Das Problem dieses Vorgehens ist jedoch, dass es in der Qualität, Vollständigkeit und Korrektheit teils nur unzureichende Ergebnisse liefert. Deshalb ist es notwendig die Daten manuell anzupassen. Damit kann sowohl die Qualität als auch die Korrektheit signifikant verbessert werden (Siorpaes et al., 2009 und Knuth et al., 2012). Um die Qualität zu verbessern, untersucht Knuth et al., 2012 einen Ansatz, wie durch Frage Antwort Spiele fehlerhafte Daten identifiziert und anschließend korrigiert werden können. Ein eigens für diese Studie programmiertes Spiel mit dem Namen WhoKnows? wird näher in Ludwig et al., 2011 beschrieben. In diesem Spiel werden zufällig Fakten aus der DBPedia generiert. Dabei werden Multiple Choice Fragen gestellt, die vom Spieler beantwortet werden. Stellt ein Spieler fest, dass die Fakten offensichtlich falsch sind, so kann er ein Problem melden, sodass die Daten kollaborativ verbessert werden können (Knuth et al., 2012, Abschnitt 5). Ein Screenshot des User Interfaces ist in Abbildung 3.2 dargestellt. Um immer wieder auftretende Fehler zu berichtigen, ist es notwendig, die Ursache zu finden, denn Informationen werden von anderen Datensätzen verwendet und führen dazu, dass fehlerhafte Daten in Umlauf gelangen. Die Idee hinter dem Semantic Web ist, dass Informationen untereinander verlinkt werden, sodass diese Daten maschinenlesbar sind. Jedoch verlinken die Ersteller der jeweiligen Ontologien, die durch diese Informationen erstellt werden, keine Abbildung auf andere Ontologien, um die Redundanz und Ungenauigkeit zu minimieren. Diesem Problem wird unter der Bezeichnung Ontology-Alignment nachgegangen (Parundekar et al., 2010). Onology-Alignment beschreibt die Beziehung zwischen zwei Entitäten verschiedener Ontologien. Diese Beziehungen zwischen diesen Entitäten wird durch Attribute hergestellt. Ein bekannter Vertreter solcher Attribute ist das im OWL- Vokabular verwendete owl:sameas. Dieses wird dann eingesetzt, wenn die URIs auf die gleiche reale Entität referenzieren. Ein Algorithmus, mit dem Beziehungen zwischen verschiedenen Ontologien gefunden und hergestellt werden können, wird in Parundekar et al., 2010 beschrieben. Es gibt verschiedene Ansätze. Zum einen wird versucht anhand der Sche- 28 Kapitel 3 Verwandte Arbeiten

31 Abbildung 3.2: Dargestellt ist das User-Interface der Anwendung Who Knows? (Quelle: (Knuth et al., 2012) mata, die zur Beschreibung der Entitäten eingesetzt werden, zu analysieren. Auf der anderen Seite gibt es Ansätze, die die semantische Struktur untersuchen. Ein Crowdsourcing-Ansatz, bei dem also Menschen die Aufgabe von Algorithmen zum Ontology-Alignment und somit der Qualitätsverbesserung übernehmen, ist in Sarasua et al., 2012 dargestellt. Sie beschreiben, wie durch so genannte Microtasks und Spiele ermittelt werden kann, ob die Daten fehlerhaft sind. Ein Spiel, welches für Ontology-Alignment konzipiert wurde ist z.b. SpotTheLink (Thaler et al., 2011). Dabei werden zwei Spieler zufällig ausgewählt. Dies ihnen gestellten Aufgaben müssen sie als Team lösen. Eine Aufgabe besteht dabei aus zwei Runden. In der ersten Runde werden den Spielern Konzepte aus der DBPedia und einer anderen Ontologie präsentiert. Die Spieler müssen nun entscheiden, ob die Konzepte übereinstimmen. In der zweiten Runde müssen die Spieler festlegen, welcher Typ die Verbindung der zwei Konzepte aus den unterschiedlichen 3.2 Qualitätsprobleme 29

32 Ontologien genügt. Angelehnt an dieses Spiel wird in Sarasua et al., 2012 die CrowdMap Anwendung vorgestellt. Mit dieser Anwendung werden die erwähnten Microtasks generiert und an die teilnehmenden User verteilt, die diese Aufgaben lösen sollen. Durch den Einsatz von Microtasks und Crowdsourcing kommen sie zu dem Schluss, dass sich ihr Crowdsourcing-Ansatz durch die Flexibilität und Anpassbarkeit an neue Aufgaben ggü. den automatisierten Ansätzen gut schlägt. 3.3 Benutzerfreundlichkeit Viele Werkzeuge zum Erstellen von Ontologien oder zum Annotieren von Texten sind für einen bestimmten Fachbereich konzipiert. Diese Werkzeuge sind vor allem für das manuelle Erstellen von Ontologien entwickelt worden (Kapoor et al., 2010). Zu diesen zählt Protégé 6, wovon es auch eine äquivalente Web Anwendung gibt: Webprotégé (Tudorache, 2008). Diese Anwendungen werden aber vor allem von Experten eingesetzt. Die damit erstellten Ontologien müssen von ihnen bearbeitet und verwaltet werden, da sie im Rahmen der Erstellung sehr groß werden können. Kapoor et al., 2010 untersuchen u.a. auch noch die Interoperabilität der Tools untereinander. Manche Werkzeuge bieten zwar die Möglichkeit die Ontologien zu exportieren, aber durch exklusive Features können sie mitunter nicht im Ganzen von anderen Tools gelesen und dargestellt werden. In Hinze et al., 2012 wird untersucht, wie diese Werkzeuge von normalen Anwendern bedient werden können. Also Anwender, die kein Know-How zum Semantic Web vorweisen können. Hierzu haben sie die Webanwendung loomp entwickelt 7 (Abbildung 3.3). Anhand dessen untersuchen sie inwiefern die Benutzerfreundlichkeit und -führung von der Komplexität der Vokabulare, dem Hintergrundwissen der einzelnen Testpersonen abhängt. Sie sind zu dem Schluss gekommen, dass Domänen-Experten keine idealen Anwender dieser Tools sind. Sie haben daraufhin einen neuen Typ Experte vorgeschlagen: Task-Expert. Ein Task-Expert verfügt neben dem spezifischen Domänenwissen, über zusätzliches Know-How zur jeweiligen Aufgabe, hier das Annotieren von Texten. Außerdem haben sie festgestellt, dass das zum Annotieren verfügbare Vokabular zur Verwirrung führen kann und die Anwender überfordert sind. Hier hilft ein auf den Kontext angepasstes Vokabular, sodass der Anwender ein eingeschränktes, aber ausreichendes Voka- 6 Projektwebseite Protégé 7 loomp Quick Guide 30 Kapitel 3 Verwandte Arbeiten

33 bular zum Auszeichnen verfügt. Abbildung 3.3: Dargestellt ist das User-Interface der Anwendung loomp (Quelle: create.png) Weitere Untersuchungen eines benutzerfreundlichen Ansatzes wird in Tramp et al., 2010 untersucht. In diesem Paper wird ein Tool entworfen, das Autoren die Möglichkeit bietet, direkt auf der Webseite die zu veröffentlichenden Artikel zu annotieren. Sie zeigen mit der Anwendung RDFauthor, dass es sinnvoll ist, die Komplexität des Semantic Web vor normalen Anwendern zu verstecken. Dadurch sollen immer mehr Anwender gewillt sein, sich beim Annotieren ihrer Daten zu engagieren. 3.4 Zusammenfassung Die in diesem Kapitel vorgestellten Anwendungen und Ansätze bieten einen guten Überblick über die Möglichkeiten, um Nicht-Experten im Gebiet des Semantic- Webs zu motivieren. Mit der vorgestellten Anwendung loomp wurde gezeigt, dass es notwendig ist, das User-Interface und den Workflow möglichst einfach und nachvollziehbar zu halten. Außerdem muss die Komplexität des Semantic- Web in den Hintergrund gerückt werden, um die Anwender nicht zu überfordern. Der Microtask-Ansatz zeigt, wie komplexe Aufgaben, wie das Problem Ontology- Alignment angegangen werden kann, ohne die Anwender zu überfordern oder 3.4 Zusammenfassung 31

34 komplexe Algorithmen entwerfen zu müssen. Zudem ist ersichtlich, dass der isolierte Einsatz von Algorithmen zwar dazu führt, dass strukturierte Daten, wie Tabellen, und teilweise unstrukturierte Daten, wie Fließtexte, automatisiert extrahiert werden können. Jedoch ist es sinnvoll Menschen das Ergebnis überprüfen und gegebenenfalls korrigieren zu lassen. Denn durch deren Wissen ist es möglich fehlerhafte Verknüpfungen oder Fakten zu erkennen, die ein Algorithmus aufgrund des fehlenden Weltwissens nicht erkennen kann. Durch Systeme wie YAGO und dessen Nachfolger, ist zu sehen, welches Potenzial die vorliegenden Daten von GeoNames und DBPedia bieten, um Informationen mit semantischen Metadaten anreichern zu können. Durch den Einsatz dieser Wissensdatenbanken kann eine automatisierte Vorverarbeitung dazu beitragen, dass den Anwendern viel Arbeit abgenommen wird. Sie müssen die vorverarbeiteten Daten nun nur noch kontrollieren. Mit der Anwendung Epiphany wird gezeigt, dass Browser-Plugins beim konsumieren von semantischen Informationen unterstützen. Durch das einbetten von RDFa-Metadaten in den duplizierten Web-Content wird zudem gezeigt, dass Autoren von z.b. Blogs zu wenig Kenntnis über die Erfordernis semantischer Daten besitzen. Durch den Einsatz einer Community, die die Daten kennzeichnen und dem Einsatz eines Browser-Plugins kann dem Abhilfe geschafft werden, indem die semantischen Informationen direkt in einer zusätzlichen Schicht konsumiert werden können, ohne dass der Autor zusätzliche Arbeit verrichten muss. Der Einsatz von automatisierten, als auch manuellen Prozessen, wie Crowdsourcing, bietet viele Vorteile gegenüber dem isolierten Einsatz. Der automatisierte Prozess kann den Inhalt einer Webseite erfassen und bereits bekannte und zweifelsfreie Entitäten erkennen. Durch eine Community, die dabei hilft, die Daten zu verbessern, wird dann die Qualität erhöht, wovon die LOD-Cloud, als auch die Nutzer der Daten Vorteile haben. 32 Kapitel 3 Verwandte Arbeiten

35 4 KONZEPTION In dieser Arbeit wird eine Anwendung beschrieben, mit der Nutzer des Internets Webinhalte semantisch auszeichnen können. Der Schwerpunkt dieser Anwendung liegt auf der intuitiven Bedienung. Die Lernkurve, um Webseiten semantisch auszuzeichnen soll dabei flach gehalten werden, um die Anwender nicht zu frustrieren. Zudem soll die Komplexität des Semantic Web möglichst in den Hintergrund rücken, sodass auch Anwender, die keine Erfahrung damit haben, das System nutzen können. Der Name der Anwendung, die in diesem Kapitel beschrieben wird, lautet Semantic Web Layer. Die Vision ist es, eine semantische Schicht in das Web zu bringen. Durch diese Schicht kann der Nutzer beim Lesen eines Blog Artikels oder anderer Webseiten, die bereits ausgezeichneten Entitäten sehen und weitere durch das semantische Netz verknüpfte Informationen abrufen. Außerdem kann der Nutzer vom Semantic Web Layer noch nicht erfasste Inhalte durch ein geplantes Browser Plugin (Abschnitt 4.5) eintragen und dessen Entitäten auszeichnen. Neben dem Eintragen neuer Inhalte können auch bereits verfügbare Daten angereichert werden, indem neue Entitäten gefunden und markiert oder bereits ausgezeichnete bearbeitet werden. Die Basis bildet die Web Application. Sie stellt die Ressourcen bereit, die notwendig sind, dem Benutzer diese semantisch angereicherten Inhalte zur Verfügung zu stellen. Die Web Application bildet das Grundgerüst, auf das das Browser Plugin später per API zugreifen können soll. Es können neue Inhalte hinzugefügt oder bereits eingetragene gesichtet und gegebenenfalls angepasst werden. Es bildet die Basis des Systems. Das Browser Plugin soll auf die Datenbasis der 33