Semantik und Sentiment: Konzepte, Verfahren und Anwendungen von Text-Mining

Größe: px
Ab Seite anzeigen:

Download "Semantik und Sentiment: Konzepte, Verfahren und Anwendungen von Text-Mining"

Transkript

1 Universität Osnabrück Institut für Informatik Dissertation Semantik und Sentiment: Konzepte, Verfahren und Anwendungen von Text-Mining Nicolas Neubauer März 2014 Dissertation zur Erlangung des Doktorgrades (Dr. rer. nat.) des Fachbereichs Mathematik/Informatik der Universität Osnabrück Betreut durch Prof. Dr. Oliver Vornberger

2

3 Zusammenfassung Diese Arbeit befasst sich mit zwei Themenbereichen des Data Mining beziehungsweise Text Mining, den zugehörigen algorithmischen Verfahren sowie Konzepten und untersucht mögliche Anwendungsszenarien. Auf der einen Seite wird das Gebiet der semantischen Ähnlichkeit besprochen. Kurz, der Frage, wie algorithmisch bestimmt werden kann, wie viel zwei Begriffe oder Konzepte miteinander zu tun haben. Die Technologie um das Wissen, dass etwa Regen ein Bestandteil von Wetter sein kann, ermöglicht verschiedenste Anwendungen. In dieser Arbeit wird ein Überblick über gängige Literatur gegeben, das Forschungsgebiet wird grob in die zwei Schulen der wissensbasierten und statistischen Methoden aufgeteilt und in jeder wird ein Beitrag durch Untersuchung vorhandener und Vorstellung eigener Ähnlichkeitsmaße geleistet. Eine Studie mit Probanden und ein daraus entstandener Datensatz liefert schließlich Einblicke in die Präferenzen von Menschen bezüglich ihrer Ähnlichkeitswahrnehmung. Auf der anderen Seite steht das Gebiet des Sentiment Mining, in dem versucht wird, algorithmisch aus großen Sammlungen unstrukturierten Texts, etwa Nachrichten von Twitter oder anderen sozialen Netzwerken, Stimmungen und Meinungen zu identifizieren und zu klassifizieren. Nach einer Besprechung zugehöriger Literatur wird der Aufbau eines neuen Testdatensatzes motiviert und die Ergebnisse der Gewinnung dieses beschrieben. Auf dieser neuen Grundlage erfolgt eine ausführliche Auswertung einer Vielzahl von Vorgehensweisen und Klassifikationsmethoden. Schließlich wird die praktische Nutzbarkeit der Ergebnisse anhand verschiedener Anwendungsszenarien bei Produkt-Präsentationen sowie Medien- oder Volksereignissen wie der Bundestagswahl nachgewiesen.

4

5 Inhaltsverzeichnis 1 Einleitung 1 2 Semantik und semantische Ähnlichkeit Messung semantischer Ähnlichkeit Evaluationsverfahren Rubenstein und Goodenough (1965) Miller und Charles (1991) WordSimilarity-353 und zugehörige Experimente Free Association Norms Baroni and Lenci Evaluation of Semantic Spaces (BLESS) Synonym-Erkennung im Test of English as a Foreign Language Weitere Testmethoden und -anwendungen Zusammenfassung Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis Wörterbuch-basierte Ansätze Thesaurus-basierte Ansätze WordNet und vergleichbare semantische Netzwerke Maße auf Basis des (kürzesten) Weges im Netzwerk Maße auf Basis gemeinsamen Informationsgehaltes Eigene Arbeiten im Bereich der Ähnlichkeitsmaße auf Basis des gemeinsamen Informationsgehalts Maße auf Basis von Glossen Vektor-basierte Maße Wikipedia, Wiktionary und andere Wissensbasen Zusammenfassung Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Bestandteile eines Maßes Corpora (Linguistisches) Preprocessing Kontext und Ermittlung gemeinsamen Auftretens Messung von Assoziationsstärke und Kontextähnlichkeit Bedingte Wahrscheinlichkeit Pointwise Mutual Information v

6 Normalized Similarity Score Bidirectional Co-occurrence Measure Vektorielle Distanz und Ähnlichkeitsmaße von Kontexten Hybride Ansätze mit Nutzung von Experten-Ressourcen Variationen der Parameter Exkurs: Die verteilte Berechnung der Assoziationswerte mit MapReduce Das MapReduce-Modell Eingesetzte Implementierungen und Technologien Streaming MapReduce mit Wukong Zusammenfassung Menschen und semantische Ähnlichkeit Ähnliche Experimente Motivation Aufbau und Ablauf der Studie Evaluation Zusammenfassung und mögliche weiterführende Arbeiten Fazit und Ausblick Stimmung, Meinung und Sentiment Anwendungsszenarien und zugehörige Arbeiten Sentiment- und Opinion-Mining im Allgemeinen Anwendungsorientierte Arbeiten auf Basis von Twitter Verfahrensorientierte Arbeiten auf Basis von Twitter Zusammenfassung Aufbau eines neues Evaluations-Datensets Qualitätskriterien Datensammlung und Annotationsverfahren Durchführung und Statistiken Zusammenfassung Analyse verschiedener Techniken zur Sentiment-Klassifikation Betrachtete Klassifikationsalgorithmen Naive-Bayes-Klassifikation Klassifikation mit Support-Vektor-Maschinen Trainingscorpus, Feature-Arten und Statistiken Sammeln der Daten Processing Pipeline Feature-Extraktion und Textverarbeitungsstrategien Statistiken Evaluation Einfluss von Klassifikationsalgorithmen, Feature-Extraktion und Corpus-Größe Einfluss verschiedener Preprocessing-Verfahren Integration von semantischem Wissen Kombinationsstrategien und Ablehnung bei Ungewissheit vi

7 3.3.4 Zusammenfassung und Ausblick Anwendungen Auswertung von Ereignissen großer Technologiefirmen Google I/O Keynote am Apple WWDC-Keynote am Microsofts build-keynote am Präsentation der Playstation 4 von Sony am und der Xbox One von Microsoft am Zusammenfassung Auswertung der Bundestagswahl Zusammenfassung des Abschnitts Anwendungen Zusammenfassung und Ausblick Fazit und Schlussworte 227 Literaturverzeichnis 229 vii

8

9 Kapitel 1 Einleitung Zum Zeitpunkt des Verfassens dieser Arbeit war das Unternehmen Google etwa 400 Milliarden US-Dollar wert und gehörte damit zu den wertvollsten Firmen der Welt. Eine Firma, die keine Produkte herstellt 1, keine Bank- oder Versicherungsdienstleitungen anbietet und keinen Wiederverkäufer von Waren darstellt. Letzteres vielleicht aber doch, nur dass die Ware nicht sichtbar ist. Die Ware ist Information. Zweifellos leben wir in einem Informationszeitalter in dem Wissen oder analog dazu Information zu einem Gut geworden ist, dessen Wert zwar schwer einschätzbar aber in jedem Fall hoch ist. Nicht umsonst gibt es das Sprichwort Wissen ist Macht Nam et ipsa scientia potestas est., aus Francis Bacons Meditationes sacrae von Eigentlich auf die Aufklärung bezogen, lässt sich der Ausspruch hervorragend auf das Informationszeitalter übertragen. Das Wissen oder die Information führt schließlich dazu, dass Prozesse optimiert, Zusammenhänge verstanden und Möglichkeiten erkannt werden können. Forschungsgegenstand dieser Arbeit ist das Themenfeld des Text Mining, ein Untergebiet des Data Mining. Die Frage, die diesem Gebiet zugrunde liegt, zeigt sich schon im Namen: data und mining. Die Menge an, sogar frei verfügbaren, aber auch überhaupt verfügbaren Daten wächst exponentiell. Allein auf der Plattform Twitter werden täglich über 500 Millionen Kurznachrichten geschrieben 2 Tendenz steigend, und das ist nur eine von vielen, vielen Datenquellen im Internet. Wenn man ihre Gesamtheit betrachtet, dann gibt es fast einen Überfluss an Daten. Das Problem, mit dem sich nun das Data Mining befasst, ist ganz passend zu dem Bild desjenigen, der in einer Mine nach Gold sucht aus dieser Unmenge von Daten, die interessanten und nutzbaren Informationen, Wissen, zu extrahieren. Eng damit verbunden ist der Begriff der Knowledge Discovery, den Frawley et al. (1992) als die nicht-triviale Extraktion impliziter, bisher verborgener und potentiell nutzbarer Information bezeichnen 3. Das Feld des Text Mining ist in gewisser Weise etwas spezieller, da beim Data Mining oft bereits strukturierte Daten, etwa in einem Datenbanksystem, vorliegen, deren Datensätze schon über bedeutungsvolle Verknüpfungen miteinander verbunden sind. Text Mining befasst sich im Speziellen damit, wie Wissen aus 1 zumindest nicht mit einem nennenswerten Anteil am Produktportfolio 2 https://blog.twitter.com/2013/new-tweets-per-second-record-and-how, abgerufen am Original: nontrivial extraction of implicit, previously unknown, and potentially useful information 1

10 Kapitel 1. Einleitung wenig oder gar nicht strukturierten Daten, bestehend aus natürlichsprachlichem Text, extrahiert werden kann (vgl. auch Feldman und Dagan (1995)). Feldman und Sanger (2007) bezeichnen das Gebiet des Text Mining als ein Forschungsfeld, das Techniken verschiedener Gebiete Data Mining, maschinelles Lernen, Natural Language Processing, Information Retrieval und Wissensmanagement zusammenbringt, um diese interessanten Informationen zu erlangen. In dieser Arbeit werden zwei Problemfelder im Kontext von Text Mining behandelt. In Kapitel 2 geht es um den Bereich der Semantik und im Besonderen der semantischen Ähnlichkeit von Begriffen in Text. Sehr knapp zusammengefasst wird hier die Antwort auf die Frage gesucht, wie mit Hilfe von Text Mining-Verfahren das Wissen um die semantische, also bedeutungsbezogene, Ähnlichkeit von Begriffen ermittelt werden kann, die Menschen ganz intuitiv haben: Ein Regenschirm hat mit dem Wetter zu tun, aber eher nicht mit Nahrungsmitteln. Derartiges Wissen kann auf verschiedene Arten erlangt werden. Diese werden, auch im Hinblick auf die zugehörige Literatur, analysiert, wobei mit eigenen Ideen, Verfahren und Erkenntnissen zum Forschungsgebiet beigetragen wird. Kapitel 3 behandelt das zweite Forschungsfeld, das sich mit dem Bereich des Sentiment Mining auseinandersetzt. Hier geht es um die Frage, wie es einem Computersystem gelingen kann, die vorherrschende Stimmung in einem Textfragment zu identifizieren. Das Wissen um die daraus ableitbare Meinung einer Person oder Gruppe, beispielsweise aus den Aussagen Ich liebe Produkt X gegen Mir gefällt Produkt X gar nicht, hat ebenfalls verschiedenste Anwendungsszenarien. Auch hier wird relevante Literatur des Themenfeldes analysiert, die vorgeschlagenen Verfahren evaluiert und durch die Ergebnisse und neue Vorschläge ein Beitrag zum Forschungsfeld geleistet. Nähere Informationen können den Einleitungen der jeweiligen Kapitel entnommen werden. Hinweise zur Darstellung Auch wenn diese Arbeit in deutscher Sprache verfasst ist, wurde versucht darauf zu verzichten gängige englische Fachbegriffe zwanghaft ins Deutsche zu übersetzen. Oben klingt dies bereits bei den Begriffen Text Mining oder Data Mining an. In den meisten Fällen wurde auch darauf verzichtet, die aus mehreren Substantiven zusammensetzten Begriffe durch Nutzung von Bindestrichen einzudeutschen. Sobald ein Fachbegriff zum ersten Mal eingeführt wird, ist dieser kursiv dargestellt. Die gleiche Darstellungsform wird auch für Beispiele in Daten und besondere Betonung genutzt, außerdem dann, wenn deutlich gemacht werden soll, dass ein englischer Begriff im deutschen Kontext in seiner englischen Schreibweise also insbesondere Kleinschreibung auch bei Substantiven im Fließtext verwendet wird. Sofern es sich um längere Text-Zitate oder einfache wörtliche Wiedergabe handelt ist selbige in Anführungszeichen gesetzt. 2

11 Kapitel 2 Semantik und semantische Ähnlichkeit Brauche ich heute einen Regenschirm? - Eine solche Frage kann ein Mensch leicht beantworten, wenn er den aktuellen Wetterbericht kennt. Das Verstehen oder das Begreifen der Bedeutung selbst einer so kurzen, prägnanten Frage stellt für ein Computersystem bereits eine große Herausforderung dar. Die Erklärung ist einfach: Als Mensch ist einem die Semantik, also die Bedeutung des Konzepts eines Regenschirmes klar, während ein Computersystem zunächst nur die einzelnen Worte sieht und ohne zusätzliches Wissen keine Verbindung zwischen etwa dem Begriff Regenschirm und Wetterbericht herstellen kann. Tatsächlich ist das obige Beispiel nicht aus der Luft gegriffen. So erlangte die Firma Apple bei der Vorstellung ihres digitalen Assistenten Siri im Oktober 2011 ein großes Medienecho. In einem Review der Online-Ausgabe des Wall Street Journal (Mossberg, 2011) las man: Some other phones [...] have rudimentary voice recognition, for limited terms and responses. But Siri does much more. [...] It understands a wide variety of ways to ask a question, grasps the context, and returns useful information [...]. Einige Mobiltelefone haben eine rudimentäre Spracherkennung mit beschränkten Anfragemöglichkeiten und Antworten. Siri hingegen kann deutlich mehr. Es versteht die vielfältigsten Arten eine Frage zu stellen, erkennt den Kontext und antwortet mit nützlichen Informationen. (Vom Autor übersetzt.) Gerade die Möglichkeit, Anfragen in natürlicher Sprache zu formulieren, ohne bei der Eingabe bestimmte vordefinierte Sätze und Befehle auswendig lernen zu müssen, wurde als große Innovation gehandelt, die mittlerweile auch als Dienst auf Googles Android-Betriebssystem und anderen Plattformen verfügbar ist. Stellt man sich eine Information Retrieval-Aufgabe wie im oben dargestellten Szenario vor, würde ein einfaches Verfahren Text als bag of words repräsentieren. Ein vorhandenes Textdokument wird dabei als Vektor repräsentiert, bei dem jede Dimension einem Wort entspricht und der Zahlwert der jeweiligen Dimension der Häufigkeit des Vorkommens entspricht. Durch die Vektor- Darstellung ist es einfach möglich, Ähnlichkeitsmaße als mathematische Distanzfunktionen aufzufassen. Häufig kommt etwa die sogenannte Cosinus-Distanz zum Einsatz, die für zwei vektoriell 3

12 Kapitel 2. Semantik und semantische Ähnlichkeit dargestellte Dokumente den Cosinus zwischen ihnen als Ähnlichkeitsmaß verwendet. Zwei gleiche Dokumente erhalten hierbei den Wert 1, zwei (Wort-)disjunkte den Wert 0. Je nach Betrachtungsweise sind die Vektoren aber extrem dünn besetzt, sparse, da die Bedeutungsähnlichkeit selbst bei zwei Formen desselben Wortes wie Regenschirm und Regenschirme in keiner Beziehung zueinander stehen. Ohne das Wissen um semantische Ähnlichkeit würden also die Phrasen Brauche ich heute einen Regenschirm? und Wie wird das Wetter, da Wort-disjunkt, in keiner Beziehung zueinander stehen und den Ähnlichkeitswert 0 erlangen. Um dieses Problem zu umgehen und semantisches Wissen in das System einfließen zu lassen, könnten etwa beide Anfragen erweitert werden, so dass zu jedem Ursprungswort eine gewisse Anzahl von semantisch ähnlichen Konzepten hinzugefügt wird: Zu Regenschirm also etwa Wetter, so dass nun eine (Ähnlichkeits-)Beziehung herstellt werden kann. Das Erlangen oder Verarbeiten von semantischem Wissen ist ein praktikabler Ansatz, um viele Anwendungen und Problemstellungen im Natural Language Processing, der Verarbeitung natürlicher Sprache, zu bearbeiten. Häufige Anwendungsszenarien umfassen dabei nicht nur das automatisierte Beantworten von Fragen wie im Beispiel oben, oder allgemeiner die Nutzung für das Information Retrieval, sondern auch andere Aufgaben wie die Identifikation paraphrasierter Textinhalte oder die Generierung von natürlichsprachlichem Text. 2.1 Messung semantischer Ähnlichkeit Wenn man über semantische Ähnlichkeit spricht, sollte zunächst klar sein, was damit gemeint ist. In der Literatur werden zumeist die Begriffe semantic similarity, semantic relatedness sowie semantic distance verwendet jeweils mit eigener Bedeutung. Obwohl die ersten beiden Begriffe häufig synonym genutzt werden, geben Budanitsky und Hirst (2006) eine gute Differenzierung: Während semantic similarity sich im engeren Sinne nur auf tatsächlich ähnliche Konzepte bezieht, zumeist mit einer Synonymen- oder Oberklassen-Beziehung versehen wie in Auto - Fahrzeug oder Bank - Finanzinstitut, werden Begriffe auch als semantically related bezeichnet, wenn sie etwa Gegenteile ausdrücken, in einer Teil-von-Beziehung zueinander stehen oder auch einfach eine informelle Beziehung zueinander haben (Beispiele: heiß - kalt, Auto - Lenkrad, Stift - Papier ). Mit semantic distance ist schließlich das Inverse der semantic relatedness, je nach Kontext auch teilweise das Inverse der semantic similarity gemeint: Je ähnlicher sich die Begriffe, desto geringer ihre Distanz. Mit dem deutschen Begriff semantischer Ähnlichkeit soll im Folgenden semantic relatedness gemeint sein, die für viele Anwendungen für Computersysteme häufiger benötigt wird (Budanitsky und Hirst, 2006) als die deutlich enger gefasste semantic similarity. Für letztere scheint es schwierig, einen adäquaten deutschen Begriff zu finden. Am ehesten passt vielleicht Bedeutungsähnlichkeit: Ein Begriff, der aussagen soll, wie gut sich zwei Konzepte im gleichen Kontext gegeneinander austauschen lassen weil sich ihre Bedeutung gleicht. Obwohl meist aus dem Kontext leicht zu erschließen ist, ob die strengere oder die weiter gefasste Definition für ein Maß gelten soll, wird in den folgenden Abschnitten so oft als möglich gesondert darauf hingewiesen. Zur eigentlichen Definition gehört auch die Terminologie der Begrifflichkeiten im Umfeld der ent- 4

13 2.1. Messung semantischer Ähnlichkeit sprechenden Literatur. Was genau ist denn semantisch ähnlich? Im Englischen wird hier häufig von words, terms und concepts gesprochen. Dabei befasst sich der Großteil der Literatur mit Ähnlichkeiten einzelner Wörter zueinander (words), während der Begriff terms oft auch Wortkombinationen zulässt (etwa know how - ability ). Der Begriff concept wird in verschiedenen Kontexten verwendet: Zumeist ist damit im weiteren Sinne das abstrakte Etwas bezeichnet, das mit einem oder mehreren Worten oder Begriffen beschrieben werden kann. Budanitsky und Hirst (2006) zum Beispiel definieren den Begriff der Ähnlichkeit zweier Wörter so, dass die von ihnen beschriebenen Konzepte ähnlich sein sollen. Generell ist mit einem Konzept oft ein in seiner Wortbedeutung aufgelöster Begriff gemeint. Das Wort (word oder term) bank kann sowohl das Konzept eines Finanzinstituts, als auch das Konzept einer Bank zum Sitzen beschreiben. Während man intuitiv viele Beispiel-Paare für semantisch ähnliche Begriffe finden kann, fällt eine formelle Beschreibung schwer, auch gerade weil für Begriffe wie Regen und Wetter kein linguistischer Beziehungstyp gefunden werden kann. Ähnlich informell wie die Art der Beziehung sieht also die von El-Yaniv und Yanay (2012) vorgeschlagene Definition aus: Demnach stellt man sich bezogen auf semantische Ähnlichkeit die Frage wie viel Begriff A mit Begriff B zu tun hat. An dieser Stelle soll nicht nach einer formelleren oder besseren Definition gesucht werden. Viel wichtiger scheint es, geeignete Qualitätsmerkmale für semantische Ähnlichkeit zu verlangen. Grundsätzlich ist es für ein jedes algorithmisch bestimmtes Maß wünschenswert, dass es sich in seiner Bewertung möglichst menschenähnlich verhält. Hierbei lassen sich verschiedene Stufen wünschenswerter Kriterien definieren: 1. Jedes Begriffspaar lässt sich in eine der binären Kategorien Ähnlich / Unähnlich einteilen, wobei die Mehrheit befragter Menschen der algorithmischen Klassifikation zustimmt. 2. Für einen festen Begriff lässt sich eine Menge anderer Begriffe in eine Rangordnung bezogen auf ihre Ähnlichkeit zum Ausgangsbegriff bringen. Die algorithmisch bestimmte Rangordnung korreliert mit der von Menschen erzeugten (durchschnittlichen) Rangordnung. 3. Für einen festen Begriff lässt sich eine Menge anderer Begriffe in eine Rangordnung mit Abstandsbeziehung, bezogen auf die Ähnlichkeit zum Ausgangsbegriff, bringen. Die algorithmisch bestimmte Ordnung korreliert (linear) mit der von Menschen erzeugten (durchschnittlichen) Rangordnung. 4. Für eine Menge beliebiger Begriffspaare lässt sich eine Rangordnung bezogen auf ihre Ähnlichkeit finden. Die algorithmisch bestimmte Rangordnung korreliert mit der von Menschen erzeugten (durchschnittlichen) Rangordnung. 5. Für eine Menge beliebiger Begriffspaare lässt sich eine Ordnung mit Abstandsbeziehung bezogen auf ihre Ähnlichkeit finden. Die algorithmisch bestimmte Ordnung korreliert (linear) mit der von Menschen erzeugten (durchschnittlichen) Rangordnung. Die hier beschriebenen einzelnen Stufen orientieren sich grob an den Skalenniveaus empirischer Studien. Generell wird grundsätzlich eine hohe Korrelation oder Übereinstimmung mit einem menschlichen Urteil verlangt, wobei jede Stufe eine speziellere oder genauere Annäherung an ebendieses Urteil definiert. 5

14 Kapitel 2. Semantik und semantische Ähnlichkeit Zwar sollen diese Qualitätskriterien für die algorithmischen Maße gelten, doch ist nicht gänzlich geklärt, wie gut überhaupt der Konsens zwischen zwei Menschengruppen ist, werden ihre Bewertungen miteinander verglichen. Nelson et al. (2004) etwa geben zu bedenken, dass kulturelle, regionale, zeitliche oder persönliche Einflüsse und Erfahrungen die Bewertungen von Menschen beeinflussen können. 1 Die korrekte semantische Ordnung kann es wenn überhaupt nur in einer extrem homogenen Menschengruppe geben. Einen Konsens für die erste Stufe der Kriterien zu finden, scheint dabei noch relativ leicht: Auto - Motor sind sich ähnlich, Regen - Käse eher nicht. Etwas schwieriger wird es lediglich bei der Klassifikation der Grenzfälle ein Auto hat eine Tür, aber ist das Paar noch ähnlich? Stufe zwei verlangt neben der nominalen Klassifikation nun eine Ordnung, wobei ein Begriff der zu ordnenden Paare immer gleich ist. Auf diese Weise ist anders als in Stufe vier ein fester Bezugspunkt für die Ordnung gegeben. Auch hier lässt sich vermutlich ein relativ guter Konsens menschlicher Bewertungen finden: Zu (einem) Auto gehört Motor, Lenkrad, Reifen später sicher auch eine Tür. So ist Stufe eins lediglich eine spezielle Form der hier verlangten monotonen Ordinalskala von ähnlich bis unähnlich. Die verlangte Korrelation lässt sich gut mit Hilfe des Spearman schen Rangkorrelationskoeffizienten beschreiben. In der dritten Stufe ist immer noch ein fester Bezugsbegriff gegeben, jedoch wird die Ordinalskala der Ordnung nun zu einer Intervallskala. Bei der Erhebung von menschlichem Urteil zur Ähnlichkeit wird jedes Paar mit einem Zahlwert beurteilt (etwa 0 für gänzlich unähnlich und 10 für maximale Ähnlichkeit). Da ein algorithmisches Maß vermutlich in jedem Fall die Ähnlichkeit eines Wortpaares auf einen Zahlwert abbilden wird, werden in der Literatur oft die entstehenden Rangordnungen gemäß ihrer linearen Korrelation also mit Hilfe der Pearson schen Produkt- Moment-Korrelation verglichen. Hier stellt man also nicht die Frage, ob sich Auto und Motor ähnlicher sind als Auto und Lenkrad, sondern wie viel ähnlicher. Abbildung 2.1: Zwei Datenverteilungen mit gleichem Mittelwert und Varianz. Bei beiden herrscht eine Pearson-Korrelation von 0,816. Nach dem Anscombe-Quartett zur Demonstration des Effekts von Ausreißern auf die Pearson-Korrelation, aus abgerufen am Nelson et al. (2004) beziehen diese Aussage auf ein Experiment, in dem Menschen zu einem Wort frei assoziieren sollten, die generelle Aussage ist sicherlich dennoch auf den gegebenen Kontext übertragbar (vgl. auch Abschnitt 2.2.4) 6

15 2.2. Evaluationsverfahren Auch wenn es wünschenswert erscheint, nicht nur eine qualitative Aussage über die Ähnlichkeit von Wortpaaren zu machen, hat die Berechnung mit dem Pearson schen Korrelationskoeffizienten verschiedene Nachteile (vgl. auch Zesch und Gurevych (2010)): Der Koeffizient ist zum Beispiel extrem anfällig gegen Ausreißer-Werte (siehe Abbildung 2.1) und verlangt einen linearen Zusammenhang, der oft schlicht nicht vorliegt, auch wenn eine gute Rangkorrelation ermittelt wurde. Zudem ist unklar, ob semantische Ähnlichkeit überhaupt intervallskaliert gemessen werden kann. Tversky (1977) legt in seiner Arbeit zwar eine Theorie dar, nach der ein intervallskaliertes Ähnlichkeitsmaß zwischen zwei Konzepten gefunden werden kann, doch Experimente, etwa von Zesch und Gurevych (2010) zusammengetragen, zeigen, dass in manchen Fällen kein linear korrelierender Konsens beim Vergleich von Ähnlichkeitsbewertungen zweier Menschengruppen gefunden werden kann. Für einen Teil eines beliebten Testsets (der größere Teil des WordSim-353-Sets, siehe auch Abschnitt 2.2.3) wurde zum Beispiel die durchschnittliche paarweise lineare Korrelation der einzelnen menschlichen Bewertenden lediglich mit 0,55 ermittelt, in einem anderen Test lag das so genannte inter-annotator agreement hingegen bei 0,9 (Resnik, 1995). Da diese Gegebenheiten mit Sicherheit auch mit dem zugrundeliegenden Testset zu tun haben, wird im folgenden Abschnitt auch näher auf das jeweils vorliegende eingegangen. Schwieriger auf einer anderen Ebene ist Stufe vier, die zwar keine lineare Korrelation verlangt, sondern sich wieder mit der robusteren Spearman schen Korrelation begnügt, aber keinen festen Bezugspunkt bei der Ähnlichkeitsmessung mehr bietet. Bei einem solchen Experiment ist also eine Menge von völlig unterschiedlichen Begriffspaaren in eine einheitliche Reihung zu bringen. Während manche Paare zweifellos leicht zu ordnen sind, fällt dies bei sehr ähnlichen oder sehr unähnlichen Paaren deutlich schwerer. Regen und Wetter sind sich sehr ähnlich, genauso wie Auto und Motor, doch welches der Paare ist ähnlicher? Hier ist es vermutlich sehr schwierig eine konsistente Antwort in einer Gruppe von Menschen zu finden noch schwieriger wird es allerdings auf Stufe fünf, bei der nicht nur danach gefragt wird, was sich ähnlicher ist, sondern wie viel ähnlicher. 2.2 Evaluationsverfahren Wie im vorherigen Abschnitt bereits erörtert wurde, liegt das Ziel eines jeden algorithmischen Ähnlichkeitsmaßes darin, das Konzept von semantischer Ähnlichkeit möglichst dicht an die menschliche Wahrnehmung und das Verständnis dieser anzunähern. Es ist folglich naheliegend, dass für die Messung der Qualität eines solchen Maßes Urteile von Menschen zur Ähnlichkeit herangezogen werden. In der Literatur werden hier häufig zwei Test-Arten unterschieden: Zunächst gibt es die naheliegenden in-vitro (Zhang et al., 2012) oder intrinsischen (Baroni und Lenci, 2011) Experimente. Hierbei werden menschlichen Probanden oft Wort- oder Begriffspaare vorgelegt, die diese nach ihrer Ähnlichkeit zueinander sortieren oder auf einer Skala bewerten sollen. Die Aussagekraft solcher Tests unterliegt verschiedenen Kriterien: Handelt es sich um eine sehr domänenspezifische Auswahl von Begriffspaaren oder haben die Autoren versucht, möglichst allgemeine Worte zu finden? Sollten die Probanden die strengere semantische Ähnlichkeit semantic similarity bewerten oder die weiter gefasste Form selbiger? Wenn letzteres der Fall 7

16 Kapitel 2. Semantik und semantische Ähnlichkeit war, wie wurde die Verteilung der semantischen Beziehungen gewählt? Und nicht zuletzt: Wie gut stimmen die menschlichen Beurteilenden untereinander in ihren Bewertungen überein? Um die Qualität eines algorithmischen Maßes auf diesen, oft gold standard genannten, Testsets zu messen, können direkt die Kriterien aus dem vorherigen Abschnitt angewandt werden. Herangezogen werden oft die oben beschriebene lineare oder Rang-Korrelation, wobei sich die meiste Literatur, die ein neues Maß vorstellt oder alte Ideen verbessern möchte, den Fortschritt in einer besseren Korrelation bemisst. Je nach Testset sind natürlich auch andere Auswertungen denkbar. Neben dem direkten Vergleich mit menschlichen Bewertungen ist eine Evaluation auch in-vivo oder extrinsisch möglich. Hierbei wird auf das jeweils betrachtete Maß eine anwendungsorientierte Aufgabe aufgesetzt. Gemessen wird dann die Performance, die bei der jeweiligen Aufgabe erreicht werden konnte. Diese Art von Test erlaubt es zu messen, inwiefern ein Maß in einem nicht derart synthetischen Umfeld wie bei den in-vitro-tests genutzt werden kann, um konkrete Aufgaben zu erfüllen oder vorhandene Techniken zu verbessern. So wünschenswert eine anwendungsnahe Beurteilung eines Ähnlichkeitsmaßes auch sein mag, auch bei diesen Tests spielen viele Kriterien eine Rolle, die das Ergebnis unabhängig von einer theoretisch echten Qualität beeinflussen können: Welche Rolle spielt semantische Ähnlichkeit von Begriffspaaren überhaupt bei der zu erfüllenden Aufgabe? Und umgekehrt: Wie relevant ist die Aufgabe im Kontext der Forschung zu semantischer Ähnlichkeit? Welche Qualitätskriterien eines Maßes oder welche von den oben beschriebenen Stufen wird getestet und ist das verwendete Maß überhaupt in der Lage, diese Kriterien zu erfüllen? Die Auswertungsverfahren dieser Tests sind vielschichtig und lassen sich oft, anders als die Ergebnisse der in-vitro-tests, nicht untereinander vergleichen. Gerade aber weil es für semantische Ähnlichkeitsmaße so viele verschiedene Anwendungen gibt, sind entsprechend viele Testszenarien denkbar und die Betrachtung der Ergebnisse im Hinblick auf die obigen Kriterien interessant. In den folgenden Abschnitten sollen einige der bekannteren und weitverbreiteten Testsets genauer beschrieben und diskutiert werden. Im Anschluss wird ein zusammenfassender Überblick über weitere Verfahren, insbesondere im Hinblick auf die breitgestreuten in-vivo-anwendungen, gegeben Rubenstein und Goodenough (1965) Das quasi erste und eines der weit verbreitetsten Datensets, das für intrinsische Betrachtungen genutzt wurde, ist das von Rubenstein und Goodenough (1965). Das Testset entstand spezifisch für die in-vitro-evaluation eines semantischen Ähnlichkeitsmaßes. Es besteht aus 65 Wortpaaren, die nach Aussage der Autoren aus Begriffen die von hoch-bedeutungsähnlichen bis zu semantisch zusammenhangslosen reichen. Bei allen Begriffen handelt es sich um domänenunspezifische Substantive ( ordinary English words ), über deren Auswahlvorgang die Autoren keine näheren Angaben machen. Um die Ähnlichkeitsbewertungen zu erlangen, wurden insgesamt 51 Studenten zu einer Untersuchung herangezogen. Dabei wurde den Teilnehmern ein gemischtes Deck von Karten gegeben, wobei jede Karte ein Wortpaar enthielt. Die Karten sollten anschließend nach ihrer Ähnlichkeit 8

17 2.2. Evaluationsverfahren sortiert und schließlich jedem Paar ein Wert zwischen 4,0 (für höchste Bedeutungsähnlichkeit) und 0,0 (kein semantischer Zusammenhang) zugeordnet werden. Beispiele können Tabelle 2.1 entnommen werden. Um die Verlässlichkeit der Teilnehmer zu bestimmen, wurde für einen Teil der Gruppe ein intraannotator agreement berechnet, also die Korrelation eines einzelnen Bewertenden mit seinen eigenen Bewertungen über die Zeit, die möglichst hoch sein sollte, um zum Ausdruck zu bringen, dass er eine stabile Meinung hat. Die Autoren haben hier für die Stichprobe von 15 Teilnehmern eine durchschnittliche lineare Korrelation von r = 0,85 ermittelt ein recht guter Wert. Ein interannotator agreement wurde nicht erhoben, allerdings wurde das Experiment von Pirró (2009) wiederholt und für die dortigen Teilnehmer angegeben. Pirró hat hierzu aber keine durchschnittliche paarweise Korrelation ermittelt, sondern einen Kappa-Test durchgeführt. Im Gegensatz zur durchschnittlichen Korrelation untereinander, bezieht eine κ-statistik die Möglichkeit mit ein, dass Übereinstimmung zwischen Bewertenden zufällig entstanden sein kann. Leider wird das Maß kontrovers diskutiert, insbesondere weil die Werte schwer zu interpretieren sind. Nach Landis und Koch (1977) liegt für die Bewertenden im Experiment von Pirró mit κ = 0,81 eine ausgezeichnete Übereinstimmung ( almost perfect ) vor Abbildung 2.2: Die Verteilung der Ähnlichkeitswerte im Testset von Rubenstein und Goodenough (1965) (Kreuze), sortiert nach Wert bei äquidistanter Darstellung über die x-achse. Trendlinie als lineare Funktion von 0 bis 4 über die 65 Datenpunkte. Die am Ende entstandene Ähnlichkeitsbewertung wurde von Rubenstein und Goodenough schließlich als durchschnittlicher Ähnlichkeitswert über alle 51 Probanden angegeben. Interessant dabei ist die Verteilung der Ähnlichkeitswerte wie in Abbildung 2.2 zu sehen. Dargestellt sind die 65 Datenpunkte, sortiert nach Wert von klein nach groß und äquidistant geplottet. Ebenfalls eingezeichnet wurde eine Trendlinie, die linear vom kleinsten Wert (0) bis zum größten Wert (4) geht. Betrachtet man die Darstellung, so scheint es, dass die gewählten Wortpaare fast perfekt das gesamte Spektrum von möglichen Ähnlichkeitswerten abdecken. Das kann entweder daran liegen, dass die Autoren extrem sorgsam sofern dies überhaupt gewünscht war bei der Auswahl der Paare waren, oder aber, dass die Anweisungen beim Erlangen der Werte zu dieser Vertei- 9

18 Kapitel 2. Semantik und semantische Ähnlichkeit lung geführt haben. Wie oben beschrieben, sollten die Probanden die Begriffspaare zunächst nur nach ihrer Ähnlichkeit sortieren, also in eine Rangfolge bringen, und anschließend konkrete Ähnlichkeitswerte vergeben. Es liegt also nahe, dass die Probanden die sortierten Karten mit den Begriffspaaren von oben nach unten durchlaufen haben. Dabei haben sie vermutlich mit der Karte begonnen, dessen Begriffspaar sie am ähnlichsten oder unähnlichsten betrachtet haben, also mit einem Wert dicht an 4 respektive 0 begonnen haben. Die darauf folgenden Karten könnten daraufhin immer mit der jeweils letzten Bewertung im Kopf und der folgenden Idee beurteilt worden sein: Da die jeweils letzte Bewertung ja immer, je nach Reihenfolge des Durchlaufens, etwas kleiner oder größer als die vorherige lauten muss, ist eventuell durch die Art der Experimentdurchführung eine derartige lineare Steigung bei den Bewertungen der Wortpaare entstanden. Neben dem Wert zum inter-annotator agreement liefert Pirró (2009) weitere interessante Ergebnisse bei der Wiederholung des Experiments von Rubenstein und Goodenough. Die Studie wurde diesmal online durchgeführt, wobei die Autoren lediglich angeben, den Ablauf des Experiments repliziert zu haben. Ob der Online-Test ebenfalls die zweigeteilte Aufgabenstellung enthielt, zunächst die Begriffe zu sortieren und anschließend Zahlbewertungen festzulegen, oder lediglich aus einem einzelnen Bewertungsvorgang bestand, bleibt unklar. Dennoch ist es ein interessantes Ergebnis, dass die Durchschnittswerte der Ähnlichkeitsbewertungen zu einer linearen Korrelation von r = 0,971 geführt haben. Hierbei wurden die Bewertungen von 76 Englisch-Muttersprachlern betrachtet, die sich zuvor als vertrauenswürdig herausgestellt hatten. Unter der naheliegenden Annahme, dass im Online-Experiment keine Zweiteilung des Bewertungsvorgangs vorlag (was aus praktischer Sicht schwieriger erscheint als das einfache Sammeln von Werten), scheint obige Annahme, dass die Linearität der Bewertungen Resultat der Durchführung ist, zumindest teilweise widerlegt. Neben diesem Ergebnis liefert die Arbeit von Pirró außerdem Daten zu Korrelation, wenn Nicht-Muttersprachler am Test beteiligt werden. In einem Gesamtergebnis wurde eine Population von insgesamt 101 Teilnehmern betrachtet, die aus den oben genannten 76 Muttersprachlern und 25 Nicht-Muttersprachlern bestand. Interessanterweise führt der Vergleich der Ergebnisse der gemischten Gruppe mit den Original-Zahlen zu einer fast identischen Korrelation von r = 0,972. Noch interessanter ist der Vergleich der Ähnlichkeitsbewertungen zwischen der Gruppe der Muttersprachler und der Nicht-Muttersprachler selbst: r = 0,980. Im Durchschnitt herrscht also fast vollständige Übereinkunft. Leider wurden keine Angaben darüber gemacht, welche Sprachkenntnisse die Teilnehmer vorweisen konnten. Die ursprüngliche Idee der Autoren war es, in ihrer Arbeit zu zeigen, dass Begriffe, die in ähnlichen Kontexten auftreten, auch eine ähnliche Bedeutung haben müssen. Aus Mangel eines geeigneten Tests, um ihre Vermutung zu überprüfen, ist dabei das beschriebene Datenset entstanden. Die eigentliche Arbeit stellt ein einfaches Maß vor, dass die Schnittmenge ( Overlap ) der Worte, von menschlichen Testpersonen generierten Sätzen, für zweier Begriffe betrachtet, um eine Art von Ähnlichkeitsmessung vorzunehmen. Da das vorgestellte Maß keine große Relevanz in Bezug auf die später vorgestellten Arbeiten hat, soll an dieser Stelle nicht näher darauf eingegangen werden. Interessant ist vielmehr die Schlussfolgerung, zu der die Autoren kommen: Je ähnlicher sich zwei Worte in ihrer Bedeutung sind, desto ähnlicher sind die Wortverteilungen ihrer Kontexte 2. Diese 2 [T]he more similar words are in meaning, the more similar they are in their contextual distributions. 10

19 2.2. Evaluationsverfahren Erkenntnis liefert eine wichtige Grundlage für die Daseinsberechtigung von Maßen auf Basis von Häufigkeits- und Verteilungsstatistiken (vgl. Abschnitt 2.4). Interessant ist auch, dass Rubenstein und Goodenough keine Angabe zur Korrelation ihres Maßes mit den gesammelten Urteilen machen, lediglich für die mittleren Ähnlichkeitswerte zwischen 1 und 3 geben sie an, dass eine lineare Korrelation von r = 0,67 vorherrscht, wobei sie ebenfalls zu bedenken geben, dass unklar ist, ob sich die Ähnlichkeitswerte überhaupt auf einer Intervallskala messen und folglich auch vergleichen lassen. Insgesamt lässt sich sagen, dass das Testset trotz seines Alters eine sehr wertvolle Ressource zur Evaluation semantischer Ähnlichkeitsmaße darstellt. Dabei sollte man natürlich beachten, dass unklar ist, nach welchem Verfahren die Begriffspaare ausgewählt wurden auch wenn positiv zu bemerken ist, dass diese offenbar die gesamte Bandbreite von Ähnlichkeitsgraden abdecken. Zudem handelt es sich bei den Begriffen ausschließlich um Substantive und bei der Größe des Testsets von 65 Wortpaaren ist es zwar durchaus als Qualitätsmerkmal zu betrachten, wenn ein algorithmisches Maß eine hohe Übereinstimmung mit den menschlichen Urteilen vorweisen kann, jedoch folgt daraus offensichtlich nicht zwingend, dass es sich um ein generell gutes Maß handelt. In der Literatur wird, wie oben bereits beschrieben, häufig die Pearson- und/oder Spearman-Korrelation als Messlatte herangezogen, wobei Tests mit Wortpaargruppen (vgl. Stufe 2 und 3 der Kriterien in Abschnitt 2.1) nicht sinnvoll sind, da es kaum Gruppen mit mehr als einem Begriff gäbe Miller und Charles (1991) Ein ebenfalls extrem weit verbreitetes Testset ist das von Miller und Charles (1991). Dabei handelt es sich eigentlich gar nicht um einen eigenständigen Datensatz. In ihrer Arbeit haben Miller und Charles lediglich eine Teilmenge von 30 Wortpaaren verwendet, die bereits Rubenstein und Goodenough (1965) in ihrem oben beschriebenen Test verwendet hatten. Bei der Auswahl der Wortpaare haben die Autoren jeweils 10 Begriffe aus jeder relativ arbiträr definierten Klasse, semantisch-hochähnlich ( high level, im Wertebereich von 3 bis 4), mäßig-ähnlich ( intermediate level, 1 bis 3), sowie der Klasse niedriger Ähnlichkeit ( low level, 1 bis 0) gewählt. Über die Auswahlkriterien machen die Autoren dabei keine Angaben. Das Experiment diente der Bestätigung der Ähnlichkeitswerte, die durch Rubenstein und Goodenough ermittelt worden waren. In Folge dessen wurde auch der Ablauf des Experiments in ähnlicher Weise repliziert: 38 Studenten sollten die Begriffe auf der gleichen Skala von 0 (keine Bedeutungsähnlichkeit) bis 4 (perfekte Synonymie) bewerten. Anders als im ursprünglichen Experiment wurden den Teilnehmern jedoch alle Begriffe gleichzeitig präsentiert. Die Ergebnisse sind im Vergleich mit den Original-Werten in Tabelle 2.1 dargestellt. Genau wie Rubenstein und Goodenough haben die Autoren bedauerlicherweise weder ein internoch intra-annotator agreement erhoben. Auch wenn die meiste Literatur auf die hier ermittelten Werte zurückgreift, lässt sich hierzu erneut die Arbeit von Pirró (2009) betrachten. Bei seiner Wiederholung des Experiments ermittelte er eine sehr hohe lineare Korrelation von r = 0,955 und das gleiche, sehr verlässliche Kappa-Niveau von κ = 0,82. Neben Pirró hat auch Resnik 11

20 Kapitel 2. Semantik und semantische Ähnlichkeit Wortpaar M&C R&G Wortpaar, fortgesetzt M&C R&G automobile car 3,92 3,92 crane implement 1,68 2,37 gem jewel 3,84 3,94 car journey 1,16 1,55 journey voyage 3,84 3,58 monk oracle 1,10 0,91 boy lad 3,76 3,82 cemetery woodland 0,95 1,18 coast shore 3,70 3,60 food rooster 0,89 1,09 asylum madhouse 3,61 3,04 coast hill 0,87 1,26 magician wizard 3,50 3,21 forest graveyard 0,84 1,00 midday noon 3,42 3,94 shore woodland 0,63 0,90 furnace stove 3,11 3,11 monk slave 0,55 0,57 food fruit 3,08 2,69 coast forest 0,42 0,85 bird cock 3,05 2,63 lad wizard 0,42 0,99 bird crane 2,97 2,63 cord smile 0,13 0,02 implement tool 2,95 3,66 glass magician 0,11 0,44 brother monk 2,82 2,77 rooster voyage 0,08 0,04 brother lad 1,66 2,41 noon string 0,08 0,04 Tabelle 2.1: Die Ergebnisse des Experiments von Miller und Charles (1991) im Vergleich zu den Werten von Rubenstein und Goodenough (1965). (1995) das obige Experiment repliziert, auch mit einer Online-Datenerfassung. Seine Ergebnisse zeigen für 10 Testsubjekte eine ähnlich gute lineare Korrelation von r = 0,96. Als Angabe für die Verlässlichkeit hat er eine durchschnittliche lineare Korrelation mit dem Mittel der übrigen Kandidaten mit r = 0,9026 als inter-annotator agreement ermittelt ein Wert der ebenfalls auf eine ausgezeichnete Verlässlichkeit schließen lässt. Da es sich bei den Ergebnissen von Miller und Charles um eine Reproduktion eines Experiments handelt, konnten sie ebenfalls eine sehr hohe lineare Korrelation ihrer Durchschnittswerte mit den ursprünglichen von Rubenstein und Goodenough von r = 0,97 ermitteln. Die Tatsache, dass die Wiederholungen des ursprünglichen Experiments von letzteren in ihrer Studie, die über 25 Jahre später stattfand, beziehungsweise fast 45 Jahre bei Pirró, zeigen, dass die Wahrnehmung von Bedeutungsähnlichkeit nicht nur für verschiedene Personengruppen, sondern auch über die Zeit extrem stabil bleibt und das Alter der Ergebnisse keinen Kritikpunkt bei der Verwendung selbiger zulässt. Das eigentliche Ziel der Arbeit, in dessen Rahmen die obigen Ergebnisse ermittelt wurden, war es jedoch nicht nur, frühere Ergebnisse zu bestätigen, sondern ähnlich wie bei Rubenstein und Goodenough, die Beziehung zwischen der Vorstellung von Ähnlichkeit in den kognitiven Strukturen von Menschen und dem Ähnlichkeitsempfinden zu testen. Die Autoren stellen dabei eine ähnliche, jedoch umfangreichere Hypothese auf: Zwei Worte sind sich bedeutungsähnlich insofern ihre 12

21 2.2. Evaluationsverfahren kontextuellen Repräsentationen ähnlich sind 3. Zu diesen Repräsentationen, über die wir für jedes uns bekannte Wort verfügen sollen, gehörten jedoch nicht nur Informationen darüber, wie häufig etwa Begriffe im Kontext zwei betrachteter Worte auftauchen, wie Rubenstein und Goodenough untersucht haben, sondern umfasse das Wissen darum, wie ein Wort verwendet wird 4. Hierzu sollen nicht nur Informationen über das gemeinsame Auftreten mit anderen Begriffen gehören, aber auch etwa Informationen zur syntaktischen Einordnung, direkte semantische Eigenschaften sowie Informationen über die Gebräuchlichkeit und den Stil, der über einen Begriff zum Ausdruck gebracht wird. Um ihre Hypothese zu prüfen, haben sie eine Untersuchung durchgeführt, bei der aus einem Corpus für ein Wortpaar Sätze gewählt wurden, in denen die jeweiligen Begriffe vorkamen. In den Sätzen wurden die Begriffe anschließend durch Leer-Markierungen (_) ersetzt. Die Teilnehmer des Experiments mussten nun eine Menge dieser Sätze derart ordnen, dass die Leer-Markierung jeweils durch das eine oder andere Wort ersetzt werden könnte. Auf diese Weise sollte eine andere Form von kontextueller Repräsentation und ihr Einfluss auf die Wahrnehmung von semantischer Ähnlichkeit geprüft werden. Letztlich zeigen die Ergebnisse, allerdings nur für eine Teilmenge von 6 Wortpaaren, dass sich mit Hilfe des Sensitivitätsmaßes d der Signalentdeckungstheorie ein Maß finden lässt, das sich invers linear zur festgestellten semantischen Ähnlichkeit verhält. Etwas verallgemeinert konnte so gezeigt werden, dass je öfter zwei Worte in einem Kontext austauschbar verwendet werden können insofern Menschen die entstehenden Sätze als plausibel erachten, desto bedeutungsähnlicher sich diese sind. In ihrer Diskussion gehen die Autoren detaillierter auf die Ergebnisse und Einschränkungen ein, welche an dieser Stelle jedoch von geringer Relevanz sind. Bei einer kritischen Betrachtung dieses Testsets als Ressource zur Messung der Qualität eines algorithmischen Ähnlichkeitsmaßes lässt sich fast alles wiederholen, was sich zu Rubenstein und Goodenough sagen lies. Positiv ist zu vermerken, dass die ermittelten Ergebnisse die Stabilität der Ähnlichkeitswahrnehmung weiter untermauern und damit auf eine konsensfähige Auswahl von Wortpaaren schließen lässt. Auch hier bleibt leider abgesehen von der Verteilung unklar, warum genau diese 30 Begriffe verwendet wurden. An der veröffentlichten Forschung, die dieses Datenset als Messlatte heranzieht, muss man zudem immer kritisch hinterfragen, warum nicht direkt das größere Datenset verwendet wurde. Insbesondere scheint dies relevant, da die noch geringere Anzahl von Wortpaaren leicht zu einer Überanpassung, overfitting, des jeweiligen Algorithmus kommen kann, so dass die Ergebnisse künstlich besser erscheinen. Ob dies der Fall ist oder nicht in jedem Fall lässt sich festhalten, dass auch für dieses Testset gilt, dass aus einer guten Korrelation mit den vorhanden Daten kein generell gutes Verhalten eines Ähnlichkeitsmaßes abgeleitet werden kann WordSimilarity-353 und zugehörige Experimente Wie bereits angesprochen wurde, ist einer der größten Kritikpunkte der bisher vorgestellten Testsets die geringe Größe und damit auch die mangelnde Vielfalt. Zum Test ihrer eigenen Arbeit zum Thema semantische Ähnlichkeit haben Finkelstein et al. (2001) ein eigenes Experiment gest- 3 Two words are semantically similar to the extend that their contextual representations are similar 4 The contextual representation of a word is knowledge of how that word is used. 13

22 Kapitel 2. Semantik und semantische Ähnlichkeit artet, um ein größeres Datenset mit mehr Aussagekraft zu produzieren. Es besteht aus insgesamt 353 Wortpaaren und wird in der Literatur und von den Autoren selbst als WordSimilarity-353 Test Collection oder kurz WordSim-353 bezeichnet 5. Es besteht laut Aussage der Autoren aus Substantiven, jedoch hierbei auch aus Eigennamen wie OPEC oder Jerusalem und Begriffen, die intuitiv vermutlich eher als andere Wortarten aufgefasst werden dürften. So ist etwa das Paar smart - stupid enthalten, bei dem der Begriff smart sicherlich als Adjektiv betrachtet werden dürfte. Zhang et al. (2012) führen das Datenset wohl aus diesem Grund als aus den Wortarten Substantiv, Adjektiv und Verb bestehend in einer vergleichenden Liste auf. Neben der überwiegenden Zahl neuer Wortpaare beinhaltet das Set auch die 30 Begriffe, die Miller und Charles (1991) für ihren Test herangezogen hatten. Der Idee, die Qualität ihres eigenen Ähnlichkeitsmaßes anhand der neuen Daten zu überprüfen, liegt die gleiche Vorgehensweise der zuvor vorgestellten Testsets zu Grunde: In-vitro die Korrelation mit menschlichen Urteilen zu messen. Die Art, wie diese menschlichen Urteile ermittelt wurden, ist ein häufiger Kritikpunkt des Testsets (Zesch und Gurevych, 2010). In der ursprünglichen Arbeit der Autoren geben diese an, 16 Testpersonen zur Ähnlichkeit der Begriffe auf einer Skala von 0 (völlig ohne Bezug) bis 10 (sehr stark zusammengehörig oder identische Begriffe) zu bewerten. Hieran kritisieren Jarmasz und Szpakowicz (2004), dass es für Menschen schwieriger sei, auf einer Skala von 0 bis 10 als auf einer von 0 bis 4 zu bewerten, geben jedoch hierzu keine Gründe oder Quellen an. Die Teilnehmer des Experiments wurden dieses Mal nicht angewiesen, die Bedeutungsähnlichkeit (similarity) zu bewerten, sondern lediglich die schwächere semantische Ähnlichkeit (relatedness). Auf der Internetseite, auf der die Autoren das Testset zur Verfügung stellen, findet sich eine etwas genauere Beschreibung. Hiernach besteht das Set aus zwei disjunkten Teilen, die von unterschiedlichen Testpersonen beurteilt wurden. Der erste Teil, der auch die Wortpaare von Miller und Charles (1991) enthält, besteht demnach aus 153 Wortpaaren, die jeweils von 13 Testpersonen bewertet wurden, der zweite Teil aus den übrigen 200 Wortpaaren, die von 16 nicht notwendigerweise den gleichen Testpersonen bewertet wurden. Zudem geben die Autoren an, dass die Bewertenden Englisch auf nahezu muttersprachlichem Niveau verstünden, aber offenbar keine Muttersprachler waren. Die Original-Arbeit macht keine Angaben zur Verlässlichkeit und Allgemeingültigkeit der Bewertungen, also weder zu einem inter-annotator noch intra-annotator agreement. Da die Quelldaten jedoch die Einzelbewertungen enthalten, lässt sich zumindest leicht ein inter-annotator agreement errechnen, das laut Zesch und Gurevych (2010) bei r = 0,73 beziehungsweise r = 0,55 liegt. Finkelstein et al. geben außerdem an, dass zwischen den Bewertungen, die sie für die Teilmenge des ersten Testsets, das aus den Wortpaaren nach Miller und Charles (1991) besteht, eine Korrelation von r = 0,95 zu den Original-Werten errechnet haben. Der große Unterscheid der Ähnlichkeitswahrnehmung zwischen den Bewertenden im zweiten, größeren Teil des Gesamtsets gibt weiteren Anstoß zur Kritik, die sogar dazu führt, dass manche Autoren beide Teilsets getrennt betrachten (vgl. Zesch und Gurevych (2010)). Der bereits angesprochenen Kritik lassen sich noch die Erkenntnisse von Baroni und Lenci (2011) 5 Das Set ist unter verfügbar, abgerufen am Die Autoren geben in ihrer Originalarbeit an, dass es sich um 350 Substantiv-Paare handeln sollte. Da dies nicht der Fall ist, wurde das Set vermutlich zwischenzeitlich verändert. 14

23 2.2. Evaluationsverfahren hinzufügen. Die Autoren haben die Ergebnisse von Agirre et al. (2009) herangezogen, die die Art der semantischen Beziehung, die zwischen den einzelnen Worten vorliegt, betrachtet haben. Ihnen zufolge gibt es 174 Paare, die über dem Median der Bewertungen liegen und demnach als ähnlich gelten sollen. Ein Paar davon ist identisch, 17 können als Synonyme gelten, zwischen 28 herrscht eine Hypernymie-Relation, 30 sind gleichartig ( coordinate ), 6 stehen in einer Teil-von- Beziehung und 92 der Großteil der Paare haben zwar einen Bezug zueinander, aber keinen der vorher genannten. Finkelstein et al. geben zwar explizit an, dass ihr Datenset eine diverse Menge von Wortpaaren, die die gesamte Bandbreite von Ähnlichkeit abdecken soll, enthält, machen aber keinerlei Angaben dazu, warum gerade diese Verteilung gewählt wurde oder wie überhaupt die Liste der Wortpaare entstanden ist. Jarmasz und Szpakowicz (2004) nennen die Bewertungen auf Grund von enthaltenen Wortpaaren wie etwa Arafat terror kulturell voreingenommen und gehen sogar soweit, die Gesamtaussagekraft und Validität des Datensatzes in Frage zu stellen. Neben der oben bereits angesprochenen Annotation der Beziehungstypen haben sich Agirre et al. (2009) ausgehend vom ursprünglichen Datenset einem Teil der Kritik angenommen und versucht, dieses nach Art der Beziehung so zu trennen, dass ein Datensatz erzeugt wird, in dem Wortpaare betrachtet werden zwischen denen eine Beziehung im Rahmen semantischer Ähnlichkeit (nicht Bedeutungsähnlichkeit) herrscht, und ein Datensatz, in dem Bedeutungsähnlichkeit betrachtet wird. Hierzu haben die Autoren in dem ersten Set alle die Paare hinzugefügt, die als Synonyme, Hypernymie-verbunden oder identisch und interessanterweise auch antonym klassifiziert wurden. Dem zweiten Set wurden alle Paare mit einer Teil-von-Beziehung und diejenigen unbestimmter Beziehung hinzugefügt, die eine durchschnittliche Bewertung von mehr als 5 (dem mittleren Wert) aufwiesen. Schließlich wurde beiden Teilen als Kontrollgruppe semantisch unähnlicher Begriffe diejenigen Paare hinzugefügt, die eine unbestimmte Beziehung aufwiesen und mit einer Bewertung von weniger als 5 versehen waren. Die beiden entstandenen Sets 6 können etwa genutzt werden, um bei Maßen semantischer Ähnlichkeit vergleichend festzustellen, ob diese die klassische Bedeutungsähnlichkeit besser abbilden oder generelle semantische Ähnlichkeit bewerten. Die eigentliche Arbeit von Finkelstein et al. befasst sich hauptsächlich mit einem konkreten Anwendungsszenario eines semantischen Ähnlichkeitsmaßes, des Information Retrieval, der Informationserschließung. Hierzu stellen die Autoren eine Suchmaschine vor, die den Kontext eines Suchbegriffs in einem längeren Dokument mit erfasst. Um bessere im Sinne von relevantere Suchergebnisse zu erlangen, berechnen sie ein semantisches Mapping zwischen zwei Text-Passagen und nutzen hierzu ein spezielles Maß, das die semantische Ähnlichkeit zwischen zwei Worten ermittelt, welches in Abschnitt näher betrachtet wird. Mit ihrem Maß konnten sie auf ihrem eigenen Testset lediglich eine Korrelation von r = 0,55 mit den ermittelten menschlichen Urteilen erreichen 7. Zusammenfassend lässt sich sagen, dass die Literatur sehr viel Kritik bezüglich dieses Datensets aufweist. Zugute halten muss man den Autoren jedoch, dass sie eine Ressource geschaffen haben, 6 Beide Datensets sind unter verfügbar, abgerufen am Die Autoren geben nicht an, ob es sich um lineare oder Rangkorrelation handelt. Da der Begriff correlation aber ebenfalls für die Angaben für den Vergleich mit dem Set von Miller und Charles verwendet wird, ist davon auszugehen, dass lineare Korrelation gemeint ist. 15

24 Kapitel 2. Semantik und semantische Ähnlichkeit die deutlich größer ist, als die zuvor vorhandenen Datenquellen und zudem nicht nur die Bedeutungsähnlichkeit von Begriffen, sondern auch informellere Beziehungstypen umfasst. Auch die Tatsache, dass Eigennamen enthalten sind, kann man durchaus positiv bewerten, denn semantische Beziehungen herrschen auch zwischen Organisationen, Personen oder Ländern. Dennoch, die vorhandene Kritik sollte ernst genommen werden, wenn ein algorithmisches Maß auf Basis der Korrelation mit den Bewertungen dieses Sets evaluiert wird, so dass insbesondere hier eine gute Performance nicht auf ein generell gutes Ähnlichkeitsmaß schließen lässt Free Association Norms Während die bisher vorgestellten Datensets explizit für das Ermitteln der Übereinstimmung menschlicher Urteile mit Werten algorithmischer Ähnlichkeitsmaße erstellt wurden, haben Nelson et al. (2004) eine Ressource geschaffen, die sich nur implizit zum Testen solcher verwenden lässt. Dies erklärt vermutlich auch warum diese, aus den im Folgenden genannten Gründen, dennoch eine sehr wertvolle Quelle, selten in der Literatur zu semantischer Ähnlichkeit herangezogen wird. In dem Experiment, das dem Datenset zugrunde liegt, haben die Autoren sich mit freien Wortassoziationen beschäftigt. Das insbesondere im Vergleich mit den vorherigen extrem große und vielfältige Set besteht aus Wortpaaren, die von über Experiment-Teilnehmern durch Assoziation mit einem vorgegebenen Begriff erzeugt wurden. Das vorgegebene, jeweils erste Wort war in 76% der Fälle ein Substantiv, in 13% ein Adjektiv und in 7% der Fälle ein Verb, wobei die kleine Restmenge aus anderen Wortarten bestand. Das Experiment selbst wurde über mehrere Jahre durchgeführt, wobei in einem Durchgang im Mittel 149 Teilnehmer eine Liste mit 100 bis 120 vorausgewählten, für jeden Teilnehmer in zufälliger Reihenfolge angeordneten, englischen Begriffen erhielten. Die Liste bestand aus zwei Spalten, wobei auf der linken Seite jeweils der bereits vorausgewählte Begriff zu sehen war (cue) und auf der rechten Seite vom Teilnehmer der Begriff eingetragen werden sollte, der ihm zuerst in den Sinn kam und bedeutungsvoll auf das ursprüngliche Wort bezogen werden könnte (target). Schon allein wegen der schieren Menge an Wortpaaren lässt sich dem Set keine Voreingenommenheit in eine bestimmte Richtung bei der Auswahl der Begriffe vorwerfen. Die Autoren geben in ihrer Arbeit zudem an, wie die Auswahl entstanden ist und beziehen sich dabei auf Forschungsarbeiten anderer. Dazu kommt, dass die Teilnehmer keinerlei Einschränkung bei der Wahl ihrer Begriffe erfahren haben. Deshalb lassen sich interessante Effekte beobachten, wie etwa die Tatsache, dass über 32% der Teilnehmer den cue-begriff basic mit instinct assoziiert haben, was die Autoren auf den bekannten Film Basic Instinct von 1992 zurückführen. Insgesamt geben sie an, die Rückmeldungen der Teilnehmer lediglich geringfügig und nach nachvollziehbaren Regeln bearbeitet zu haben, um etwa Plural- und Singular-Formen zusammenzufassen oder offensichtliche Rechtschreibfehler zu beheben. In Tabelle 2.2 ist ein Ausschnitt der erhobenen Wortpaare mit einem Teil der Antworten dargestellt. Zu jedem cue word hier ability wurden alle von den Teilnehmern erfassten Antworten aufgeführt. Dazu haben die Autoren diverse statistische Tests durchgeführt, wobei für Zwecke der Evaluation semantischer Ähnlichkeitsmaße neben der Tatsache, dass Begriffe überhaupt assoziiert wurden, hauptsächlich die so genannte forward strength interessant ist. Neben einem 16

25 2.2. Evaluationsverfahren cue target n Anz. Antworten forward strength backward strength ABILITY CAPABILITY ABILITY ABLE ABILITY COMPETENCE ABILITY SKILL ABILITY STRENGTH Tabelle 2.2: Ausschnitt der Ergebnisse des Free Association Norms-Experiments von Nelson et al. (2004), verfügbar unter abgerufen am jeden Wortpaar ist hierzu angegeben, wie viele Personen insgesamt das jeweilige cue-wort gesehen haben und wie viele dieser mit dem entsprechenden target-wort geantwortet haben. Das Paar ability-capability wurde etwa von 17 Testpersonen der insgesamt 143 Personen erzeugt, die das Wort ability als cue-begriff erhielten. Die forward strength berechnet sich nun als einfacher Quotient dieser Angaben und ist offensichtlich ein Maß für die Wahrscheinlichkeit, dass beim Betrachten eines Wortes das jeweils andere in den Sinn kommt (Nelson et al., 2004). Die backward strength ist dabei nichts anderes als die forward strength, wenn cue und target getauscht werden, das heißt andere Teilnehmer des Experiments haben etwa den Begriff capability gesehen und 28,2% von ihnen haben daraufhin das Wort ability assoziiert. Nelson et al. geben in ihrer Arbeit zwar explizit an, dass die erhobenen Daten für die Evaluation von etwa statistischen Modellen semantischer Ähnlichkeit verwendet werden können, jedoch muss die Art der Daten, die hier vorliegt. berücksichtigt werden. Naheliegt die Idee, dass wenn ein Begriff mit einem anderen assoziiert wird, zwischen beiden eine Art von semantischer Ähnlichkeit vorliegt. Dass es sich hierbei in den meisten Fällen eher um generelle Ähnlichkeit als Bedeutungsähnlichkeit handelt, dürfte klar sein. Dennoch zitieren Maki et al. (2004) eine Arbeit von Deese (1966), in der dieser das Konzept von Begriffssemantik definiert: Die Verteilung der Antworten, die auf ein bestimmtes Wort als Stimulus hervorgerufen werden, definieren die Bedeutung dieses Wortes. 8. Diese Definition lässt sich jedoch nicht kritiklos hinnehmen. Nelson et al. (2004) geben an, dass die erfassten Assoziationen nicht generalisierbar sind. So haben sie die von ihnen erfassten Daten mit einem weiteren Datensatz von Kiss et al. (1972), der in Großbritannien erfasst wurde, verglichen und dabei große Unterschiede festgestellt. Neben diesen kulturell bedingten Unterschieden werden außerdem Varianzen in Bezug auf regionale und zeitbezogene Unterschiede, sowie solche, bezogen auf persönliche Erfahrungen und Einflüsse angeführt, die das Assoziationsverhalten von Menschen beeinflussen können. Wie können die erhobenen Daten trotzdem zur Evaluation semantischer Ähnlichkeitsmaße genutzt werden? Maki et al. (2004) haben hierzu versucht, die bereits bei den bisher vorgestellten Datensets genutzten Evaluationsverfahren einzusetzen. Für ein Maß semantischer Bedeutungsähnlichkeit (von Jiang und Conrath (1997), vgl. Abschnitt ) und ein Maß semantischer Ähnlichkeit auf Basis von Häufigkeitsverteilungen (vgl. Abschnitt 2.4.4) haben die Autoren die 8 The distribution of responses evoked by a particular word as stimulus defines the meaning of that word. 17

26 Kapitel 2. Semantik und semantische Ähnlichkeit lineare Korrelation zwischen der Assoziationsstärke (forward strength) und den ermittelten Ähnlichkeiten bestimmt, wobei Werte von r = 0,146 für das strengere Maß und r = 0,267 für letzteres ermittelt wurden. Insbesondere im Vergleich mit den Korrelationen, die bei den zuvor genannten Datensets erhoben wurden, die speziell für die Messung semantischer Ähnlichkeit erstellt wurden, sind diese Werte sehr niedrig. Maki et al. fassen folglich zusammen, dass es offenbar einen Zusammenhang zwischen Assoziationsstärke und semantischer Ähnlichkeit gibt insbesondere bei Paaren mit hoher Assoziationsstärke diese aber nur in geringem Maße durch letztere beeinflusst sein kann. Auch wenn sich hieraus ergibt, dass sich die Auswertung von Korrelation nicht als Messlatte algorithmischer Modelle semantischer Ähnlichkeitsmaße anbietet, kann dieses dennoch interessant sein, die Ergebnisse unterschiedlicher Maße zu untersuchen und zu vergleichen. Eine ganz andere Methode zur Nutzung dieses Datensets schlagen Lindsey et al. (2007) vor. Es bezieht sich, anders als die Korrelationsuntersuchungen, auf Stufe 1 der in Abschnitt 2.1 vorgestellten Kriterien, nach denen ein semantisches Ähnlichkeitsmaß beurteilt werden kann: Es geht also um die deutlich einfachere Anforderung, semantisch ähnliche Begriffe von unähnlichen zu unterscheiden. Hierzu betrachten die Autoren einfach diejenigen Wortpaare, die aus dem Assoziationsexperiment hervorgegangen sind als semantisch ähnlich und fügen jeder Gruppe mit gleichem cue-begriff eine genauso große Gruppe zufällig gewählter Begriffe hinzu, die dann als semantisch unähnlich betrachtet werden. Das Maß soll die Wortpaare nun ihrer Ähnlichkeit nach sortieren, wobei das zu messende Qualitätskriterium die Diskriminationsfähigkeit darstellt. Diese berechnet sich einfach als Anzahl von echt-ähnlichen Wortpaaren in den ersten n sortierten Ergebnissen, wenn es n echt-ähnliche Wortpaare gab. Das Ergebnis ist das gleiche, wie wenn gezählt wird, bei wie vielen paarweisen Vergleichen aller Wortpaar-Bewertungen ein Paar der Zufallsgruppe höher bewertet wurde als ein paar der echt-ähnlichen Gruppe bezogen auf die Anzahl aller Vergleiche. Der Durchschnitt dieser Werte über alle Gruppen, eventuell noch nach Größe der Gruppe gewichtet, lässt sich als Gesamtmaß verwenden. Lindsey et al. geben etwa für ein Maß, das auf Häufigkeitsverteilungen beruht, eine Genauigkeit von 67,3% an (vgl. Abschnitt ). Fasst man die Erkenntnisse zu diesem Datenset zusammen, lässt sich sagen, dass es sich allein schon wegen seiner enormen Größe um eine sehr wertvolle Ressource handelt, die sich zwar nicht absolut generalisierbar zur Evaluation semantischer Ähnlichkeitsmaße eignet, aber insbesondere durch die zur Korrelationsanalyse alternative Auswertungsmethode von Lindsey et al. interessante Einblicke dahingehend liefern kann, wie ein Maß innerhalb einer Gruppe von Begriffspaaren mit einem gleichbleibenden Wort arbeitet. Generell bietet die Größe des Sets zudem die Möglichkeit, eine Auswertung auf Gruppenbasis durchzuführen, wobei die Autoren des Datensets selbst darauf hinweisen, dass Assoziationsstärke ein relatives Maß, bezogen auf das Ausgangswort, ist und keine absolute Aussage im Hinblick auf einen Vergleich mit Stärken anderer Ausgangsworte zulässt. Ob semantische Ähnlichkeit nicht vielleicht auch ein Maß ohne absoluten Bezugspunkt ist, bleibt dabei offen, auch wenn die Ergebnisse auf Basis der zuvor vorgestellten Datensets eher dagegen sprechen. 18

27 2.2. Evaluationsverfahren Concept Relatum Beziehungstyp alligator aggressive attri alligator crocodile coord alligator attack event alligator vertebrate hyper alligator eye mero alligator cardiac random-j alligator teenager random-n alligator experience random-v Tabelle 2.3: Beispiel des Aufbaus des BLESS-Datensets nach Baroni und Lenci (2011) Baroni and Lenci Evaluation of Semantic Spaces (BLESS) Baroni und Lenci (2011) haben in ihrer Arbeit einen kritischen Blick auf vorhandene Evaluationsmethoden speziell für semantische Ähnlichkeitsmaße geworfen und sind zu dem Schluss gekommen, dass es kein Verfahren gibt, das hinreichenden Einblick in die Arbeitsweise eines Maßes gibt. Aus diesem Grund haben sie das Baroni and Lenci Evaluation of Semantic Spaces - Datenset, kurz BLESS, geschaffen. Das Set besteht aus insgesamt Tripeln und ist damit von den Free Association Norms abgesehen deutlich größer als die zuvor vorgestellten. Baroni und Lenci beschreiben in ihrer Arbeit, wie sorgfältig sie bei der Auswahl der Begriffe vorgegangen ist. So besteht jedes Tripel aus einem Substantiv ( Concept ), dass über eine typisierte semantische Beziehung mit einem anderen Konzept ( Relatum ), hier sind auch Adjektive und Verben möglich, verbunden ist. Die Ausgangskonzepte bestehen aus 200 verschiedenen Worten, die zu gleichen Teilen aus lebendigen Entitäten und Sachkonzepten bestehen, die die Autoren 17 groben Kategorien zuordnen. Der Auswahl kann man also durchaus eine große Vielfalt verschiedener Ausgangsbegriffe attestieren. Die zugeordneten Begriffe lassen sich jeweils in eine von 5 Kategorien semantischer Beziehungstypen einordnen: Koordinierte Begriffe, Hypernyme, Meronyme, Attribute und Ereignisse. Die ersten drei Beziehungstypen beinhalten ausschließlich Substantive, die Attribut-Klasse enthält nur Adjektive und die Ereignis-Klasse nur Verben. Neben diesen 5 Kategorien gibt es für jede Wortart eine Kontrollgruppe mit zufällig gewählten Begriffen, die jedoch keinen Bezug zu dem Ausgangskonzept haben. Tabelle 2.3 zeigt einen Ausschnitt des Aufbaus des Datensets. Bei der Erfassung der Daten haben sich die Autoren hauptsächlich an denen von McRae et al. (2005) behandelten Konzepten orientiert. Hieraus stammen vor allem die Ausgangssubstantive, aber auch einige der Relata. Außerdem kamen bei der Auswahl weitere weit verbreitete Quellen wie WordNet (vgl. Abschnitt 2.3.3) oder ConceptNet (Liu und Singh, 2004) sowie textbasierte Quellen wie Wikipedia zum Einsatz. Die Daten aus verschiedenen Quellen zu erheben ist wohl überlegt, da etwa WordNet dank seiner relativ strengen Baumstruktur eine hervorragende Quelle für Begriffspaare mit Hypernymie-Beziehung darstellt, jedoch kaum Verknüpfungen von Substan- 19

28 Kapitel 2. Semantik und semantische Ähnlichkeit tiven mit Adjektiven oder Verben enthält. Dazu kommt, dass die Autoren angeben, mit ihrem Datenset eine große Spanne von alltäglichen bis zu stark domänenspezifischen Begriffen abdecken zu wollen. In Tabelle 2.3 ist etwa zu erkennen, wie mit dem Ausgangsbegriff alligator das relativ spezifische Hypernym vertebrate (Wirbeltier) verbunden ist, aber genauso das sehr allgemeine Meronym eye. Um die Begriffspaare der Kontrollgruppen zu ermitteln, haben die Autoren für jede Wortart Begriffe gesucht, die in einem großen Korpus in etwa mit der gleichen Häufigkeit auftraten wie jeweils ein echtes Relatum. Damit sichergestellt ist, dass die Begriffe tatsächlich keinen Bezug zum Ausgangsbegriff haben, wurde die Zugehörigkeit über eine Webplattform mit bezahlten Teilnehmern validiert, deren Vertrauenswürdigkeit zudem durch das Einstreuen echter Paare gemessen wurde. Mindestens zwei Testpersonen mussten übereinstimmend eine fehlende Beziehung attestieren, damit ein Relatum in die Gruppe der zufälligen Begriffe aufgenommen wurde. Das größte Problem, das Baroni und Lenci bei der Evaluation semantischer Ähnlichkeitsmaße sehen, ist die Tatsache, dass die meisten Auswertungen darauf beruhen, zwei Maße anhand eines eindimensionalen Qualitätskriteriums zu vergleichen. Etwa der Korrelation mit menschlichen Bewertungen bei in-vitro-tests oder ähnlichen Maßen wie die Anzahl korrekter Antworten etwa im TOEFL-Test (vgl. Abschnitt 2.2.6) bei in-vivo-experimenten. Obwohl es sicherlich wünschenswert ist, die Qualität eines Maßes anhand eines wie auch immer gearteten Qualitätskriteriums zu quantifizieren, haben die Autoren sicherlich Recht, wenn sie die Frage stellen, warum ein bestimmtes Ähnlichkeitsmaß Begriffspaare in bestimmter Weise bewertet und auf welche Weise sich zwei Maße, die augenscheinlich beide über eine gute Qualität verfügen, unterscheiden. Durch die typisierten Begriffspaare und die vielfältige Auswahl an Worten bietet das BLESS-Set hierzu eine hervorragende Untersuchungsgrundlage. Neben einer umfassenden Beschreibung des Aufbaus und der Entstehung des Datensets geben die Autoren zudem eine Empfehlung für die vergleichende Auswertung. Hierzu lassen sie die Maße alle Begriffspaare bewerten und betrachten dann für jede Beziehungsart in jeder Gruppe von Ausgangskonzepten jeweils das bestbewertete (ähnlichste) Paar. Durch diese Auswahl des nearest neighbor sollen Ähnlichkeitsmaße vergleichbar gemacht werden, die unterschiedliche Präferenzen bezüglich allgemeiner oder domänenspezifischer Begriffe haben. Die Autoren führen dazu das Beispiel robin (Rotkehlchen) an, das in der Hypernymie-Klasse sowohl Beziehungen zu dem sehr allgemeinen Begriff animal hat, aber auch zu passerine (Sperlingsvogel). Ob ein Maß ersteren oder letzteren Begriff als (ähnlichstes) Hypernym identifiziert soll bei der Auswertung zunächst egal sein, um weder ein domänenspezifisches Maß, noch ein Maß, trainiert für allgemeine Begriffe, zu benachteiligen. Für jedes Ausgangskonzept entstehen durch diese Auswahl 8 Wortpaare mit Bewertungen. Um die Tatsache zu umgehen, dass die Ausgangskonzepte etwa unterschiedliche Verteilungen in ihrer Corpus-Frequenz und damit auch in ihrer semantischen Nachbarschaft haben, schlagen die Autoren vor, eine z-transformation durchzuführen. Übrig bleiben dadurch 200-mal 8 z-bewertungen, die sich in einem Boxplot, wie in Abbildung 2.3 dargestellt, visualisieren lassen. Signifikante Unterschiede in den Verteilungen sollen mit einem Tukey-Test ermittelt werden. Vermutlich gerade weil die Autoren die Quantifizierung der Qualität eines Maßes mit einer eindimensionalen Wertung kritisieren, geben sie keine weitere Anleitung dazu, wie eine Bewertung 20

29 Evaluationsverfahren COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER ME ContentWindow20 AllWindow COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER ME Abbildung 2.3: Beispiel der Auswertung zweier Ähnlichkeitsmaße auf dem BLESS-Datenset. Deutlich erkennbar ist, dass das links dargestellte Maß eine deutliche Präferenz gegenüber koordinierten Konzepten Figureund1: Ereignissen Distribution zeigt, während of relata das rechte cosines Maß Ereignisse acrosssogar concepts als weniger (values relevant bewertet on ordinate als die are cosines normalization). Substantive der Kontrollgruppe (aus Baroni und Lenci (2011)). des Ergebnisses aussehen könnte. Die Auswertung mit Hilfe der Boxplots oder der dahinterstehenden Zahlwerte etwa der Mediane der echten Beziehungen gegen die falschen bietet natürlich einen Anhaltspunkt. Trotzdem kann das Datenset genutzt werden, um einen Vergleich zweier Tests anhand einer Auswertung, wie in Abschnitt bei den Free Association Norms vorgeschlagen, durchzuführen. Erneut gilt es für ein Maß eine möglichst gute Leistung beim Diskriminieren von echt semantisch ähnlichen und zufälligen Wortpaaren zu erbringen. In diesem Fall ist der Versuchsaufbau sogar noch aussagekräftiger, da die Kontrollgruppe falscher Begriffe bereits fest vorgegeben ist. Wie die Autoren bereits schreiben, gilt auch hier, dass ein Maß, das die bessere Leistung liefert, nicht generell das bessere Maß sein muss. Warum und in welcher Weise sich zwei Maße unterscheiden dazu lässt sich wiederum obiges Testverfahren heranziehen. words, and thus they capture syntactic, rather than semantic distributional properties. As a result, random nouns are as high (statistically indistinguishable from) hypernyms and meronyms. Interestingly, attributes also belong to this subset of relations probably due to the effect of determiners, quantifiers and other DP-initial function words, that will often occur both before nouns and before adjectives. Indeed, even random adjectives, although significantly below the other relations we discussed, are significantly above both random and meaningful verbs (i.e., events). For the Document model, all meaningful relations are significantly above the random ones. However, coordinates, while still the nearest neighbours (significantly closer than all other relations) are much less distinct than in the windowbased models. Note that we cannot say a priori that 21 ContentWindow2 is better than Document because it favors coordinates. However, while they are both able to sort out true and random relata, the latter ity measure, would not hav of how models are behavin 6 Conclusion We introduced BLESS, th designed for the intrinsic data set contains tuples i plicitly typed semantic re controlled random tuples. to evaluate both the ability truly related word pairs, analyses of the types of sem models tend to favor amon a target concept. Even a performance of a few DS one we have shown here - esting differences in the s by the various models. Th obviously depend on whet Auf Grund des durchdachten und nachvollziehbaren Aufbaus des Testsets lässt sich diesem gegenüber kaum negative Kritik äußern. Bei näherer Betrachtung fallen lediglich zwei kleinere Probleme auf, die an dieser Stelle Erwähnung finden sollen. Zum einen baut das Set darauf, dass die Angaben zu den Wortarten ( part of speech tagging ) zweier Begriffe berücksichtigt werden müssen. Experimentiert man mit den Daten, stellt man zum Beispiel fest, dass etwa das Paar dress-n - uniform-j enthalten ist in der Kontrollgruppe unähnlicher Begriffe. In der Tat hat ein Kleidungsstück wenig Bezug zu dem Adjektiv gleichförmig, lässt man jedoch die Informationen über die Wortarten außen vor, bleibt das Paar dress - uniform, wobei uniform nun als das im Deutschen gleich lautende spezielle Kleidungsstück aufgefasst werden kann. Das Paar wäre damit semantisch hochähnlich. Zugegebenermaßen gibt es nicht viele dieser Doppeldeutigkeiten bei Nichtbeachtung der Wortarten, dennoch sollte darauf hingewiesen werden. Ein zweites Problem ist die manchmal sehr allgemeine Begriffszuweisung. Auch wenn die Autoren die Wahl der Wortpaare nachvollziehbar beschrieben haben, sind einige Begriffe enorm häufig anzutreffen. Etwa der

30 Kapitel 2. Semantik und semantische Ähnlichkeit Ausgangswort enormously Mögliche Antworten a) appropriately b) uniquely c) tremendously d) decidedly Tabelle 2.4: Beispiel einer der 80 Fragen des TOEFL-Synonym-Tests nach Landauer und Dumais (1997). In diesem Fall muss c) als korrekte Antwort identifiziert werden. Begriff old ist 157 der 200 Ausgangskonzepte als echt ähnlicher Begriff zugewiesen, genauso new mit 96 von 200 zugehörigen Konzepten. Obwohl sicherlich fast alles, egal ob abstraktes Konzept oder physischer Gegenstand, als alt oder neu bezeichnet werden kann, so ist die Beziehungsstärke meist als sehr gering zu betrachten. Auf der anderen Seite gibt es einige Begriffe in der Kontrollgruppe, die zwar eine ähnlich schwache Beziehung zum Ausgangskonzept haben, aber dennoch in einer nachvollziehbaren Beziehung dazu stehen. Etwa das Verb take taucht in Beziehung zu 9 Konzepten auf, wovon einige (etwa spear oder dagger) sicherlich aufgenommen werden können. Insgesamt muss man sagen, dass Baroni und Lenci ein ausgezeichnetes Datenset zusammengestellt haben, das allein auf Grund seiner schieren Größe zwar nicht ganz perfekt ist, aber durchdacht genug, um einen tiefer gehenden Einblick darin zu bieten, wie sich ein bestimmtes Maß bezogen auf verschiedene semantische Verknüpfungen verhalt. Zudem bietet es mit seiner kontrollierten Gruppe von Zufallspaaren eine solide Ressource für weitere Testverfahren. Bedauerlich ist, dass die jeweiligen Begriffspaare nicht von Testpersonen bewertet wurden. Ein Datenset dieser Größe und Vielfalt würde die Probleme anderer Sets, wie etwa WordSim-353 (vgl. Abschnitt 2.2.3), lösen und zur vermutlich zu der wichtigsten Ressource bei der Evaluation semantischer Ähnlichkeitsmaße werden. Gerade wegen seiner Größe wäre der Aufwand einer Bewertung aller Begriffspaare enorm. Ein Versuch, der in diese Richtung geht, ist in Abschnitt 2.5 im Rahmen dieser Arbeit erfolgt Synonym-Erkennung im Test of English as a Foreign Language Die Idee zu einem der meistgenutzten in-vivo-tests wurde von Landauer und Dumais (1997) beschrieben. Sie haben den so genannten Test of English as a Foreign Language, kurz TOEFL, gewählt, um zu testen, inwieweit ein semantisches Ähnlichkeitsmaß eine Aufgabe lösen kann, die für menschliche Testpersonen konzipiert wurde 9. Für das Testset wurden 80 Fragen eines Teilbereiches des größeren TOEFL gewählt, in denen es darum geht, aus vier vorgegebenen Möglichkeiten den Begriff zu wählen, der die größte Bedeutungsähnlichkeit zum Ausgangsbegriff aufweist. Im Test sind Substantive, Verben, Adjektive und Adverbien enthalten. Ein Beispiel ist in Tabelle 2.4 zu sehen. 9 Die Testfragen können auf Anfrage bei Dr. Thomas K. Landauer und seinem Team der University of Colorado erlangt werden. Der Autor dankt für die Zurverfügungstellung. 22

31 2.2. Evaluationsverfahren Der besondere Reiz eines in-vivo-tests besteht darin, keine synthetischen Ergebnisse für den Vergleich von Ähnlichkeitsmaßen heranzuziehen, sondern ein Problem der echten Welt zu lösen. Besonders interessant ist bei diesem Test, dass sich die Ergebnisse der algorithmischen Maße mit denen menschlicher Probanden vergleichen lassen. So geben Landauer und Dumais an, dass Nicht- Muttersprachler, die sich für Colleges in den Vereinigten Staaten bewerben, im Durchschnitt 64,5% der Fragen richtig beantworten. Bedauerlicherweise geht mit der Natur dieses Tests auch die Tatsache einher, dass die Art der semantischen Beziehungen zwischen den Ausgangsworten und den möglichen Antworten aller Wahrscheinlichkeit nach dadurch motiviert sind, festzustellen, wie gut ein Mensch die Sprache beherrscht. Baroni und Lenci (2011) kritisieren das Verwenden dieses Sets für Zwecke der Evaluation semantischer Ähnlichkeitsmaße: Zum einen betrachtet das Set nur eine Form von korrekter semantischer Beziehung zwischen Ausgangswort und zu wählender Antwort Synonymie. Sie geben zu bedenken, dass strittig ist, inwieweit echte Synonymie überhaupt existiert (Cruse, 1986) und betrachtet man einige zusammengehörige Paare des Sets so sind hier auch Zusammenhänge zwischen Begriffen zu finden, die wohl kaum als absolut bedeutungsgleich gelten dürfen (etwa to market-to sell oder percentage-proportion). Zudem halten Baroni und Lenci die Auswahl der falschen Antworten für nicht nachvollziehbar. So gibt es Fragen bei denen alle Auswahlmöglichkeiten eine mehr oder weniger große semantische Beziehung zum Ausgangswort haben (etwa volume, sample oder profit zu percentage) und solche bei denen quasi überhaupt kein Bezug zum Ausgangsbegriff zu finden ist. Folglich ist die Erfolgsrate eines Ähnlichkeitsmaßes nicht nur davon abhängig, inwieweit es bedeutungsähnliche Begriffe von semantisch zugehörigen Begriffen unterscheiden kann, sondern auch davon, wie gut ein Maß zufällige Begriffspaare von tatsächlich aufeinander bezogene trennt. Der vielleicht größte Kritikpunkt, der auch schon bei einigen der in-vivo-datensets vorgebracht wurde, ist jedoch die Größe des Sets insbesondere im Hinblick auf die Auswertung. Bei nur 80 Testfällen und einer Messung des Antworterfolgs in Prozent führt bereits eine korrekte Antwort mehr zu einem Sprung von 1,25%. Signifikante Unterschiede zweier Maße an den Ergebnissen dieses Tests festzumachen ist folglich schwierig. In ihrer eigentlichen Arbeit haben Landauer und Dumais ein algorithmisches Ähnlichkeitsmaß namens Latent Semantic Analysis vorgestellt, das auf Basis eines Textkorpus und den darin auftretenden Wort- und Verteilungshäufigkeiten mit Hilfe eines Dimensionsreduktionsverfahrens (vgl. Abschnitt 2.4.4) Begriffsähnlichkeiten bewertet. Mit ihrem Verfahren erreichen sie 64,4% korrekte Antworten. Diese krumme Zahl begründen sie dadurch, dass es für 6 der 80 Fragen in dem von ihnen verwendeten Textcorpus keine Stellen gab, in denen das Ausgangswort oder die richtige Antwort vorkamen. In diesem Fällen wurde die Frage als zu 0,25 (statt 1 beziehungsweise 0) richtig beantwortet betrachtet. Tatsächlich wurden also 67,5% der getesteten 74 Fragen korrekt beantwortet. Besonders interessant ist bei der Arbeit, dass die Autoren ein Ähnlichkeitsmaß vorgestellt haben, das weniger Bedeutungsähnlichkeit misst, sondern eher die schwächere semantische Ähnlichkeit. Anstatt aber ein Testset wie etwa das von Rubenstein und Goodenough (1965) (vgl. Abschnitt 2.2.1) zur Evaluation zu verwenden, das zwar auch auf die strengere Bedeutungsähnlichkeit abzielt, aber immerhin graduelle Werte für Begriffspaare vergibt, haben die Autoren sich für das extrem strenge Richtig oder Falsch -Auswertungsverfahren entschieden. Die Gründe hierfür bleiben ungeklärt. 23

32 Kapitel 2. Semantik und semantische Ähnlichkeit Insgesamt sollte die Kritik bei der Messung der Qualität mit Hilfe dieses Testsets ernst genommen werden. So haben Bullinaria und Levy (2012) verschiedene Parameter von Ähnlichkeitsmaßen verglichen und es durch geeignete Wahl dieser geschafft, 100% der TOEFL-Fragen korrekt zu beantworten: Ein bemerkenswertes Ergebnis, das die Autoren jedoch selbst relativieren, denn mit den Parametern, die für diesen Test ein makelloses Ergebnis erzeugen, erreichen sie bei anderen Aufgaben mitunter schlechte Ergebnisse. So interessant die Anwendung eines in-vivo-tests wie diesem auch sein mag, so ist gerade dieses Datenset doch deutlich zu klein und in seiner Vielfalt zu eingeschränkt, als dass Ergebnisse generalisierbar wären Weitere Testmethoden und -anwendungen Die in den vorherigen Abschnitten beschriebenen Datensets stellen die de-facto Standards bei der Evaluation semantischer Ähnlichkeitsmaße dar (vgl. auch Zesch und Gurevych (2010) und Zhang et al. (2012)). Natürlich ist die Liste nicht endgültig, so soll an dieser Stelle auf weitere Testmethoden und Datensets eingegangen werden, die ebenfalls in der Literatur auftauchen, jedoch mit bei Weitem nicht so großer Häufigkeit. Gerade wegen der Bedeutsamkeit semantischer Ähnlichkeit für Anwendungen des Natural Language Processing und auch auf Grund der Kritik, die auch den etablierten Datensets entgegengebracht wird, ist davon auszugehen, dass diese Liste ständigen Zuwachs finden wird. Ein Beispiel hierfür sind die Semantic Evaluation Exercises, ein von der Association for Computational Linguistics, ACL, veranstalteter Workshop, der ganz der Evaluation semantischer Analysesysteme gewidmet ist 10. In diesem Rahmen werden in unterschiedlicher Frequenz neue Testmethoden vorgeschlagen und in den zugehörigen Veröffentlichungen etabliert. Wie in Abschnitt bereits beschrieben wurde, handelt es sich beim TOEFL-Test um ein weitverbreitetes in-vivo-evaluationsverfahren. Abstrakt betrachtet handelt es sich um ein Wortoder Begriffspaar-Auswahl-Problem, da aus einer Menge von Begriffen der vordefiniert korrekte gefunden werden muss. Neben dem TOEFL-Test haben Turney et al. (2004) den so genannten SAT-Analogy-Questions als Referenz vorgestellt. SAT steht für Scholastic Assessment Test, dessen Ablegen vor allem von Colleges und Universitäten in den Vereinigten Staaten vor Zulassung eines Bewerbers verlangt wird. Vor 2005 enthielt dieser eine Reihe von Analogie-Fragen bei denen etwa das Wortpaar wallet-money einer der möglichen Antworten suitcase-clothing, safe-lock, camera-film, setting-jewel oder car-engine zugeordnet werden muss. Anders als bei der Identifikation von Synonymen im TOEFL-Test geht es hier darum, eine gültige Aussage der Form A verhält sich zu B wie C zu D zu finden. Im Beispiel oben ist die Geldbörse ein typischer Ort, um Geld zu transportieren so wie der Koffer für Kleidung. Der Test besteht aus 374 Fragen mit jeweils 5 Antwortmöglichkeiten 11. Generell ist die Aufgabenstellung des Tests spannend, jedoch ist fragwürdig, inwiefern die Ergebnisse für oder gegen ein bestimmtes Ähnlichkeitsmaß sprechen. Im Allgemeinen sind diese Maße derart ausgelegt, die Ähnlichkeit zweier Begriffe zu bewerten. Für das Lösen der SAT -Fragen wäre aber ein Maß notwendig, dass die Ähnlichkeit 10 Weitere Informationen hierzu im Wiki der ACL Portal, abgerufen am Die Testdaten können laut (State_of_the_art) auf Anfrage bei Peter Turney erlangt werden, abgerufen am

33 2.2. Evaluationsverfahren zweier Begriffspaare bewertet. Tsatsaronis et al. (2010) beispielsweise geben dennoch an, dass sich mit Hilfe der sechs Einzelähnlichkeiten ein neues Maß definieren lässt, auf dessen Basis sie immerhin 34% korrekte Antworten, ohne zusätzliche Informationen über die Art der Verknüpfung der Worte, erreichen. Zum Vergleich: Der durchschnittliche College-Bewerber in den Vereinigten Staaten erreicht 57% (Turney, 2006) und das beste dem Autor bekannte Verfahren auf Basis eines algorithmischen Ähnlichkeitsmaßes 12 wurde von Turney (2006) mit 56,1% gemeldet. Es liegt wohl auf der Hand, dass ein Verfahren zur Lösung dieser Problemstellung nur dann hinreichend gut funktionieren kann, wenn es Informationen über die Art der semantischen Beziehung eines Wort-Paares kennt oder das Maß selbst in der Lage ist, die Art der semantischen Beziehung zu klassifizieren. Insgesamt sorgen diese Anforderungen dafür, dass der Test eher ungeeignet ist, um die generelle Qualität eines Ähnlichkeitsmaßes festzustellen. Ein weiterer Test, der analog zum TOEFL-Testset Verwendung bei der Evaluation findet, sind die 50 ESL-Testfragen, kurz für English as a Second Language (Turney, 2001) 13. Der Aufbau ist im Grunde genauso wie im TOEFL-Test: Zu einem Ausgangsbegriff muss aus einer Menge von vier Möglichkeiten genau ein Begriff identifiziert werden, der als korrektes Synonym gelten kann. Der vermutlich größte Unterschied liegt darin, dass die Ausgangsbegriffe in diesem Fall mit einem Kontext-Satz versehen sind. Ein Beispiel lautet A rusty nail is not as strong as a clean, new one. hier muss der Begriff rusty durch entweder corroded, black, dirty oder painted ersetzt werden, wobei erstes offenbar die korrekte Lösung ist. Obwohl das Datenset quasi genauso aufgebaut ist, wie der TOEFL-Test, findet sich extrem wenig Literatur, die diesen verwendet. Vermutlich weil die gleiche Kritik, die bereits zum TOEFL-Testset geäußert wurde, auch hier angebracht werden kann, zumal das Datenset noch kleiner und damit weniger aussagekräftig ist. Tsatsaronis et al. (2010) geben einen aktuellen Überblick über erreichte Ergebnisse verschiedener Ähnlichkeitsmaße, wobei das beste Resultat bei 82% (41 von 50) korrekten Antworten liegt. Panchenko (2012) hat bei der Evaluation eines Ähnlichkeitsmaßes das BLESS-Datenset herangezogen, gibt aber zu bedenken, dass dieses keine Synonyme, beziehungsweise keine Wortpaare mit dem Beziehungstyp Synonym, beinhalten würde. Aus diesem Grund wurde von ihm ein Datenset erstellt, das den gleichen Aufbau wie BLESS hat und dieses um eben diesen Beziehungstyp ergänzen soll. Laut Panchenko wurde das Datenset mit Hilfe von WordNet, einer Version von Roget s Thesaurus (vgl. Abschnitt 2.3.3, 2.3.2) und einer nicht näher beschriebenen Synonymdatenbank erzeugt. Das Set umfasst 462 Substantive als Ausgangsbegriffe und verschiedene zugeordnete Begriffe, die zu Wortpaaren mit semantischer Synonym-Beziehung führen. Zudem wurden die gleiche Menge an zufälligen (im Sinne von nicht-synonymen) Wortpaaren für die Ausgangsbegriffe hinzugefügt, um den Aufbau von BLESS nachzustellen. Auf der Webseite des Semantic Neighbors (SN ) genannten Datensets 14 findet sich die Angabe, dass die Zuordnungen händisch validiert worden sind. Die Tatsache, dass das Set selten in der Literatur zu finden ist kann natürlich damit zusammenhängen, dass es zum Zeitpunkt des Verfassens dieser Arbeit sehr neu ist. Andrerseits fehlt bisher auch eine kritische Auseinandersetzung, denn selbst bei 12 vgl. abgerufen am Die Testfragen stammen aus dem interaktiven Quiz von Donna Tatsuki unter mc syn.html, abgerufen am https://github.com/alexanderpanchenko/sn, abgerufen am

34 Kapitel 2. Semantik und semantische Ähnlichkeit einer oberflächlichen Betrachtung der gewählten Begriffspaare fällt auf, dass die Beziehung Synonym doch sehr weit gefasst worden zu sein scheint. Für das in Tabelle 2.3 dargestellte Beispiel für das Ausgangswort alligator finden sich neben streitbaren Synonymkandidaten wie crocodile oder dinosaur auch Begriffe, die bereits in BLESS in anderer semantischer Beziehung enthalten sind, etwa das Hypernym animal. Viel schlimmer ist allerdings, dass sich auch Worte finden lassen, die definitiv keine Synonyme sind und bei denen selbst ihre topologische Ähnlichkeit eher gering ausfällt: Etwa mosquito oder octopus. Da dies kein Einzelfall ist, sollte bei Verwendung des Datensets darauf geachtet werden, die Ergebnisse bei der Evaluation genau zu prüfen, um sicherzustellen, dass derartige Schwachstellen selbige nicht verfälschen. Im derzeitigen Zustand scheint es generell nicht empfehlenswert zu sein, Aussagen über die Qualität oder die Präferenz gegenüber Synonymen bezüglich eines Ähnlichkeitsmaßes auf Basis dieses Datensets zu machen. Führt man die Idee semantischer Ähnlichkeitsmaße für Begriffspaare fort, landet man schnell in Szenarien, in denen es nicht reicht, die Ähnlichkeit von zwei Worten zu berechnen. Eine Vorstufe hiervon sind die sogenannten Semantic Compositions, zusammengesetzte Begriffe. Mitchell und Lapata (2008) habe sich in ihrer Arbeit damit beschäftigt, wie sich die Ähnlichkeit von Adjektiv-Substantiv-, Substantiv-Substantiv- und Verb-Objekt-Paaren zueinander bestimmen lässt. Aus dem British National Corpus haben sie hierzu eine Reihe relativ hochfrequenter solcher Paare ausgewählt und künstlich drei Gruppen hoch-, mittel- und wenig-ähnlicher Paarungen erzeugt. Das Set besteht insgesamt aus 108 Items, wobei jeweils 12 Paare aus jeder der drei Wortart-Beziehungsgruppen und in jeder dieser, aus jeweils drei Ähnlichkeitsgruppen stammen. Beispiele für die enthaltenen Paare der verschiedenen Gruppen sind etwa vast amount-large quantity, telephone number-phone call oder start work-begin career. In einem Experiment wurden von insgesamt 204 Testpersonen, die jedoch nach Wortart-Beziehungsgruppe getrennt waren, Ähnlichkeitsbewertungen für die Wortpaare auf einer 7-stufigen Skala erfasst. Das Experiment wurde online durchgeführt, wobei die Autoren angeben, ursprünglich mehr Bewertungen (insgesamt 248) erfasst zu haben, diese jedoch validiert zu haben, wodurch die angegebene Menge an verlässlichen Testpersonen übrig geblieben ist. Wie Mitchell und Lapata zu bedenken geben, ist die Aufgabe, die Ähnlichkeit zusammengesetzter Begriffe zu bewerten, schwieriger als lediglich einzelne Worte. Diese Annahme wird durch die Ergebnisse der Erhebung des inter-annotator agreements gestützt. Hierbei liegt die Rangkorrelation eines Testsubjekts mit den Angaben aller übrigen im Durchschnitt bei ρ = 0,527, also deutlich niedriger als die Korrelation, die sich bei den in-vitro-datensets etwa von Miller und Charles (1991) (vgl. Abschnitt 2.2.2) ergeben hat. Ähnlich wie beim oben genannten SAT-Analogy-Testset ist die Evaluation eines Ähnlichkeitsmaßes, das für die Bewertung von Wort- und nicht Wortpaar-Ähnlichkeiten entwickelt wurde, auf diesem Testset schwieriger, da für ein Wortpaar auch die Information über die Beziehung der beiden Worte eine Rolle spielt, aus dem es zusammengesetzt ist. In ihrer Arbeit experimentieren Mitchell und Lapata mit verschiedenen Maßen und möglichen Kombinationen der Ähnlichkeitswerte und Darstellungsformen für Wortpaare, wobei sich herausstellt, dass ein einfaches Modell, das Begriffe als Vektoren von Ähnlichkeitsbewertungen auffasst und multiplikativ mit dem entsprechenden Partner verknüpft wird, mit am besten arbeitet. Es erreicht immerhin eine durchschnittliche Korrelation von ρ = 0,367. Noch schwieriger ist das Problem, die Ähnlichkeit ganzer Sätze oder gar Text-Passagen beliebiger Länge in ihrer Ähnlichkeit zu vergleichen. Die Tatsache, dass für die Bedeutung eines Satzes nicht 26

35 2.2. Evaluationsverfahren nur Semantik, sondern auch Syntax eine wichtige Rolle spielt (Li et al., 2009), führt zwar weiter in die Richtung tatsächlicher Anwendungsszenarien, verringert aber den Einfluss der Qualität eines verwendeten Ähnlichkeitsmaßes auf Wortebene. Bär et al. (2011) geben für den Vergleich von größeren Text-Passagen sogar zu bedenken, dass es unterschiedliche Ebenen von Ähnlichkeit gibt. Mitunter können auch schwer zu erfassende Kriterien wie Struktur und Stil neben dem Inhalt eine wichtige Rolle spielen. Generell ist die Anwendung auf ein solches Szenario sicherlich interessant, jedoch wird deutlich, dass die Testergebnisse, je komplexer die Aufgabe wird, immer weniger aussagekräftig für die Qualität des Ähnlichkeitsmaßes werden, da zu viele weitere Faktoren zu viel Gewicht auf das Endergebnis ausüben. An dieser Stelle soll deshalb nur aus Gründen der Vollständigkeit auf quasi das weiterverbreitetste Testset von Textähnlichkeit verwiesen werden: Den aus handvalidierten Test-Satz-Paaren und Trainings-Paaren bestehenden Microsoft Paraphrase Corpus (Quirk et al., 2004). Ein weiteres Evaluationsverfahren ist das der Concept Categorization. Hier geht es darum, grundlegende Konzepte ohne Deklaration ihrer Bedeutung zu Kategorien zusammenzufassen. Ein verbreitetes Testset hierzu ist das Almuhareb-Poesio (AP) Datenset (Almuhareb, 2006), das aus 402 Begriffen besteht, die zu 21 Klassen zugeordnet werden müssen, etwa die Begriffe helicopter und motorcycle der Klasse vehicle. Das Datenset deckt eine große Spanne von Wortfrequenzen und auch mehrdeutigen Begriffen ab. So ist etwa das Wort samba der Klasse der Baumarten (tree) zuzuordnen. Baroni und Lenci (2011) kritisieren an dieser Methode, ein semantisches Ähnlichkeitsmaß zu evaluieren, dass zu viel Gewicht auf der semantischen Beziehung koordinierter Konzepte liegt und die Erfolgsrate maßgeblich davon abhängt, welcher Algorithmus zum Clustern verwendet wird. Zudem sei die Auswertung oft nicht differenziert genug, da ein Modell, das etwa den Begriff samba nicht zu Unrecht einem Cluster mit dance und ball zuordnet, als genauso schlecht betrachtet wird, wie ein Modell, das den Begriff zu einer völlig unpassenden Klasse (wie monetary currency) hinzufügt. Während das AP-Datenset auch abstrakte Konzepte enthält, existiert noch ein weiteres relativ bekanntes Datenset von interessanterweise ebendiesen Baroni et al. (2010), das ausschließlich aus konkreten Konzepten besteht. Insgesamt enthält es lediglich 83 Konzepte in 10 Kategorien und hat damit eine deutlich geringere Aussagekraft als das Datenset von Almuhareb und zeigt die gleichen zuvor angemerkten Probleme für die Evaluation. Bruni et al. (2012) haben sich in ihrer Arbeit damit beschäftigt, inwiefern Wissen, das aus der visuellen Repräsentation von verschlagworteten Bildern gewonnen werden kann, nutzbar ist, um Modelle semantischer Ähnlichkeit zu verbessern. Um die Ergebnisse ihrer Arbeit zu testen haben sie ein neues Datenset MEN entwickelt, das aus Schlagworten (tags) besteht, die im ESP Game Dataset 15 verwendet wurden. Bruni et al. geben an, dass sie aus zufällig generierten, insgesamt Wortpaare gewählt haben, um eine ausbalancierte Verteilung über die verschiedenen Stufen von Ähnlichkeit zu garantieren. Durch die Tatsache bedingt, dass alle Begriffe als Schlagworte für Bilder verwendet wurden, ist die Auswahl selbiger in gewissen Weise durch eine Orientierung hin zu darstellbaren Konzepten vorbelastet, was der Qualität des Datensets je- 15 Das ESP Game Dataset ist bei der Durchführung eines Spiels entstanden, bei dem Menschen kompetitiv Bilder verschlagworten sollten. Die entstandenen Daten sollten bei der Evaluation und Verbesserung von Bilderkennungsalgorithmen helfen. Das Spiel wurde von Von Ahn und Dabbish (2004) initiiert, wobei ein Teil des Datensets unter geladen werden kann (abgerufen am ). 27

36 Kapitel 2. Semantik und semantische Ähnlichkeit doch keinen Abbruch tut. Der Aufbau des Sets ist analog zu WordSim-353 (vgl. Abschnitt 2.2.3), das heißt, dass jedes Begriffspaar mit einer Bewertung ihrer Ähnlichkeit versehen ist. Interessant ist dabei die Art, wie die Bewertungen ermittelt wurden. Anstatt menschliche Testpersonen die Ähnlichkeit auf etwa einer Lickert-Skala bewerten zu lassen, wurden den Probanden jeweils zwei Paare gezeigt, mit der Aufforderung, das Paar zu wählen, das als ähnlicher betrachtet wird. Bei dieser Form der Datenerfassung wird das Problem umgangen, dass verschiedene Bewertende eine unterschiedliche Wahrnehmung der Distanz von Ähnlichkeiten haben. Es wird quasi Stufe 4 der Kriterien zur Messung der Ähnlichkeit aus Abschnitt 2.1 erfasst. Bei der Wahl der Probanden haben die Autoren darauf geachtet, dass es sich ausschließlich um Englisch-Muttersprachler handelt, wobei mit Hilfe von Kontroll-Paaren festgestellt wurde, wie verlässlich die Bewertungen sind. Da jedes Begriffspaar insgesamt gegen 50 andere Begriffspaare bewertet wurde, erhält jedes Begriffspaar letztlich einen Rang auf einer 50-wertigen Skala. Durch die Art der Datenerfassung geben die Autoren zu bedenken, dass sich kein sinnvolles inter-annotator agreement berechnen lässt. Um trotzdem festzustellen, wie verlässlich die erlangten Daten sind, wurden sämtliche Begriffspaare von zwei der Autoren selbst auf einer 7-wertigen Skala bewertet. Zwischen den Autoren wurde dabei eine Rangkorrelation von ρ = 0,68 ermittelt, ihre durchschnittlichen Bewertungen korrelieren mit denen des Datensets sogar mit ρ = 0,84: ein Wert, der für eine hohe Verlässlichkeit spricht. Das semantische Ähnlichkeitsmaß, das die Autoren in selbiger Arbeit präsentieren erreicht eine Korrelation von bis zu ρ = 0, Zusammenfassung Selbstverständlich erhebt die Auflistung der Datensets in diesem Abschnitt nicht den Anspruch absoluter Vollständigkeit, soll jedoch einen relativ umfassenden Überblick über die in der Literatur am häufigsten verwendeten Methoden geben, mit Hilfe derer semantische Ähnlichkeitsmaße evaluiert werden. Betrachtet man die verschiedenen Möglichkeiten und die zugehörigen Datensets, wird deutlich, dass jede Methode bestimmte Eigenheiten und auch Schwachpunkte hat, die es zu beachten gilt. Je nach Art des Ähnlichkeitsmaßes bietet sich auch nicht jede Form von Testmethodik an, da bestimmte Sets etwa darauf ausgelegt sind, nur Bedeutungsähnlichkeit zu messen oder lediglich eine ganz bestimmte Form von semantischer Beziehung zwischen Begriffen zu repräsentieren. Trotz der zum Teil doch recht gewichtigen Kritik, die sich an den verschiedenen Tests anbringen lässt, sind die Ergebnisse natürlich dennoch interessant. Für eine bedeutungsvolle Auswertung lässt sich folglich zusammenfassend sagen, dass es sinnvoll erscheint, die Evaluation nicht auf ein ganz spezielles Datenset zu beschränken, lediglich um den Stand der Technik zu übertreffen, sondern möglichst vielfältig zu ermitteln, in welchen Bereichen Verbesserungen gegenüber anderen Methoden erreicht werden können und in welchen Bereichen ein bestimmtes Maß Schwachstellen zeigt. 28

37 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis 2.3 Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis In den folgenden Abschnitten sollen die verschiedenen in der Literatur beschriebenen Ansätze vorgestellt werden, die Maße semantischer Ähnlichkeit definieren, um die in Abschnitt 2.1 definierten Kriterien möglichst gut zu erfüllen. Hierbei werden einige historische Ansätze aufgegriffen, sowie auf den aktuellen Stand der Technik eingegangen. Dabei sollen die verschiedenen in der Literatur vorgestellten Maße in zwei Gruppen eingeteilt werden. Dies ist nicht ganz sauber möglich, aber grundsätzlich benötigt jedes Maß eine geeignete unterliegende Wissensbasis. Es gibt hier grob zwei Forschungsrichtungen: Auf der einen Seite ist die (wichtigere) Grundlage eine a priori vorhandene, meist von Linguisten manuell definierte, wohlstrukturierte Wissensbasis. Auf der anderen Seite, in Abschnitt 2.4 beschrieben, lediglich eine wenig oder unstrukturierte Menge von natürlichsprachlichem Text, ein Corpus. Eine klare Trennung ist allerdings nicht wirklich möglich, da gerade die Maße mit strukturierter Wissensbasis lexical resource-based oder structured knowledge source-based häufig dennoch auf einen solchen Corpus zurückgreifen, um zusätzliche Informationen einfließen zu lassen. Maße, deren Wissensbasis nicht aus Daten einer strukturierten Quelle besteht, werden in der Literatur oft als distributional similarity measures (Weeds, 2003) bezeichnet, da sie sich Häufigkeitsverteilungen und andere Statistiken als Hauptinformationsquelle zunutze machen. Auch diese verlassen sich nicht unbedingt immer ausschließlich auf die berechneten Statistiken, sondern integrieren weitere Informationsquellen. In diesem Abschnitt sollen verschiedene Typen von Wissensbasen und darauf definierte Maße vorgestellt werden. Grundlage dieser Maße ist, explizit oder implizit, jeweils eine Wortliste mit Verweisen also eine Wissensbasis mit Struktur. Die einzelnen Abschnitte sind nach Art der Wissensbasis getrennt und sollen anhand ausgewählter Beispiele zeigen, wie Maße auf diesen Strukturen definiert werden können. Budanitsky und Hirst (2006), Zesch und Gurevych (2010) und Zhang et al. (2012) bieten ebenfalls eine umfassende Übersicht über die verschiedenen in der Literatur vorgestellten Ansätze Wörterbuch-basierte Ansätze Ein früher Ansatz, der die Verwendung eines Wörterbuchs illustriert, stammt von Lesk (1986). Seine Technik war eigentlich nicht dazu gedacht, die semantische Ähnlichkeit zweier Wörter zu bewerten, sondern die verschiedenen Bedeutungen eines Wortes im Kontext eines anderen zu erkennen: word sense disambiguation. Als Beispiel führt er den Begriff pine cone, Pinienzapfen, an und stellt die Frage, wie ein Computersystem feststellen könnte, dass mit dem Wort cone eben der Zapfen gemeint ist und nicht etwa (in anderem Kontext denkbar) eine Eistüte. Hierzu verwendet er die einzelnen Wortdefinitionen eines Wörterbuchs 16 : 16 nach Lesk (1986), gekürzt 29

38 Kapitel 2. Semantik und semantische Ähnlichkeit pine: (1) kinds of evergreen trees (2) waste away through sorrow or illness cone: (1) solid body which narrows to a point (2) fruit of certain evergreen trees Um nun für cone die richtige Bedeutung (2) zu finden, wird lediglich der Durchschnitt der Wortmenge der einzelnen Beschreibungen paarweise gebildet und die Beschreibung mit dem größten Durchschnitt gewählt. Wenn man möchte (vgl. Zesch und Gurevych (2010)) lässt sich so auch ein naives Maß semantischer Ähnlichkeit definieren. max( gloss(w 1 ) gloss(w 2 ) ) = {of, evergreen, tree} = 3 Dass dieses Maß keine sonderlich große Aussagekraft hat, wird schnell deutlich: Zum einen wird die Textüberlappung auch bei ähnlichen Konzepten oft extrem gering, häufig leer, sein, zum anderen entsteht ein großer Störfaktor durch extrem häufige Worte, hier of. Insbesondere bei sehr kurzen Glossen wird das Maß schnell versagen. Einen etwas aufwändigeren Ansatz verfolgen Kozima und Furugori (1993) in einer ebenfalls relativ alten Arbeit. Basis des dort vorgestellten Maßes ist das Longman Dictionary of Contemporary English. Dabei ist das Wörterbuch selbst nur Grundlage eines semantischen Netzwerks das daraus generiert wird, was wiederum von den Worterklärungen abhängig ist. car: engine: a vehicle with four wheels and an engine, that can carry a small number of passengers the part of a vehicle that produces power to make it move Ein Eintrag im Wörterbuch sieht aus wie oben dargestellt 17. Neben dem eigentlichen Schlüsselwort, headword, folgt eine Glosse, in der das Wort in einem gängigen Kontext beschrieben oder erklärt wird. Um ein semantisches Netzwerk aufzubauen, wird nun jedes Schlüsselwort sowie jedes Wort der Glosse zu einem Knoten des Netzwerks oder Graphen. Schließlich wird das Schlüsselwort mit einer Kante im Graphen mit jedem Knoten, der aus der Glosse entstanden ist, verbunden. Über alle Einträge des Wörterbuchs wächst der Graph zum semantischen Netzwerk. Das eigentliche Maß für die semantische Ähnlichkeit zweier Worte berechnet sich dann aus einer Aktivierung, die ausgehend vom ersten Wort im Graph entlang der Kanten verteilt wird. Offenbar sind auch hier die Autoren auf das Problem gestoßen, dass die sehr kurzen Glossen extrem häufig Begriffe wie the, a und so weiter enthalten. Um dies zu kompensieren wird ein Corpus herangezogen, mit dessen Hilfe für jedes Wort eine Signifikanz, hier die normalized information, s(w), eines Wortes auf Basis dessen relativer Häufigkeit berechnet wird, die in die Aktivierungsverteilung einfließt: 17 aus der Online-Version des Longman Dictionary of Contemporary English dictionary/car, abgerufen am , um weitere Bedeutungen gekürzt 30

39 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis s(w) = log occ(w) W log 1. W Hierbei ist W die Anzahl aller Wort-Vorkommen im gesamten Corpus und occ(w) die Häufigkeit des Vorkommens des Wortes w. Auf diese Weise werden etwa beim von den Autoren verwendeten Corpus den Wörtern red und and die Werte s(red) = 0,500 respektive s(and) = 0,254 zugewiesen. Hochfrequente Worte werden auf diese Weise gedämpft, seltenere verstärkt. Ganz sauber ist es dennoch nicht, diesen Ansatz als Wörterbuch-basiert zu bezeichnen, da das Wörterbuch hier nur Mittel zum Zweck ist, um mit Hilfe der vorhandenen Glossen ein Netzwerk von Beziehungen aufzubauen. Viele spätere Maße verwenden hierzu direkt Ressourcen, die in Form eines Netzwerks mit semantischen Beziehungen vorhanden sind, siehe hierzu Abschnitt Thesaurus-basierte Ansätze Während man im weiteren Sinne sowohl ein Wörterbuch als auch ein semantisches Netzwerk von Wörtern unter dem Oberbegriff Thesaurus zusammenfassen kann, wird in der Literatur mit diesem Begriff meist die besondere Struktur nach Roget s Thesaurus of English Words and Phrases von 1852 verwiesen. Anders als in einem klassischen Wörterbuch versucht dieses Werk, Wörter nach Klassen, darunterliegenden Sektionen und wiederum darunterliegenden Kategorien zusammenzufassen: CLASS III. Words Relating to MATTER SECTION III. ORGANIC MATTER 2. Special Vitality Mankind [372] 18 Hierbei handelt es sich um eine zunächst streng hierarchische Kategorisierung. Sie beginnt mit einer von 8 weit gefassten Klassen space, physics, matter, sensation, intellect, volition, affaction. Darunter finden sich Sektionen, die wiederum speziellere Konzepte zusammenfassen und letztlich bei einer der etwa nummerierten Kategorien enden. Jede Kategorie wird durch eine Menge von Absätzen beschrieben, getrennt nach Wortart, die etwa Wortclustern mit semantisch ähnlicher Bedeutung entsprechen, wobei jeder Absatz aus mehreren durch Semikolons getrennten Wortlisten besteht. Bei Durchsicht der einzelnen Einträge scheint es ein intuitiv verständliches Muster von zusammengehörigen Begriffen und Trennungen von weiter gefassten Bedeutungen zu geben. Welcher Art die jeweilige Beziehung ist, ist jedoch nicht angegeben. So findet sich unter Mankind (gekürzt): #372. Mankind. N. man, mankind; human race, human species, human kind, human nature; humanity, mortality, flesh, generation. [...] tribe, clan (paternity) 166; family (consanguinity) aus abgerufen am , gekürzt 31

40 Kapitel 2. Semantik und semantische Ähnlichkeit Jede Semikolon-Gruppe kann zudem Verweise auf andere Absätze innerhalb derselben Kategorie oder auf andere Kategorien siehe oben der Verweis auf family 11 beinhalten. Auf diese Weise wird die hierarchische Ordnung aufgebrochen und auch hier entsteht eine, wenn auch deutlich dünner besetzte, Form von semantischem Netzwerk. Möchte man wieder von Wörtern als Knoten ausgehen, gibt es außerdem einen Index, der zu jedem Wort auflistet, in welchen Kategorien und dort in welchen Absätzen es genannt wird 19 : lid: clothing cover eyelid stopper Auf Basis dieser Strukturen haben Morris und Hirst (1991) ebenfalls in einer älteren Arbeit ein Maß definiert, um lexical chains, also Ketten von Wörtern oder Wortgruppen innerhalb eines Textes zu finden, die eine starke semantische Zusammengehörigkeit aufweisen. Auf diese Weise sollen unter anderem Sinnabschnitte in zusammengehörigem Text gefunden werden. Ihr Ziel war zwar nicht die direkte Definition eines Maßes für semantische Ähnlichkeit, trotzdem zielen die entstanden Regeln letztlich auf ein solches ab. Die Ähnlichkeit wird hier nicht auf einen Zahlwert abgebildet, sondern auf eine gröbere binäre Beziehung. Demnach sollen zwei Worte als ähnlich gelten, wenn mindestens eine der folgenden Bedingungen erfüllt ist (vgl. auch Budanitsky und Hirst (2006)): 1. Zwei Worte verweisen im Index auf die gleiche Kategorie. 2. Eines der Worte verweist im Index auf eine Kategorie, die einen Verweis auf eine Kategorie des zweiten Wortes enthält. 3. Eines der Worte taucht als Kategorie selbst für das andere auf. 4. Zwei Kategorien, denen die Worte zugeordnet sind, befinden sich in der gleichen übergeordneten Gruppe. 5. In der Menge aller Verweise der Kategorien, die Wort a enthält, findet sich ein Verweis, der ebenfalls in der Menge aller Verweise der Kategorien von Wort b enthalten ist. Während die ersten drei Bedingungen mit Blick auf den Aufbau des Thesaurus intuitiv nachvollziehbar sind, fällt es für die folgenden etwas schwerer zu akzeptieren, dass sich Begriffe ähnlich sind. Wegen der größeren Entfernung wäre es durchaus auch denkbar, die Stärke der Ähnlichkeit gemäß dieser Regeln zu quantifizieren. Da jedoch nicht eindeutig und schon gar nicht im Hinblick auf semantische Ähnlichkeit definiert ist, welche Kategorien es gibt und wann ein Wort innerhalb dieser Kategorie auftaucht, bleibt unklar inwieweit ein solches Maß sinnvolle Ergebnisse liefern würde. Die obige Liste mit Arten von Verknüpfungen zwischen zwei Begriffen deutet bereits darauf hin, dass sich auch mit Hilfe der Thesaurus-Struktur eine Art von semantischem Netzwerk aufbauen lässt. McHale (1998) greift diese Idee auf und vergleicht die sich aus der Klassifikations-Struktur 19 aus Morris und Hirst (1991) 32

41 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis ergebende Hierarchie mit der von WordNet (siehe Abschnitt 2.3.3). Um zu überprüfen, inwiefern diese Hierarchie, etwa als Baumstruktur aufgefasst, zum Messen semantischer Ähnlichkeit genutzt werden kann, testet er verschiedene Maße, die vorher auf anderen Netz-Strukturen erfolgreich waren und vergleicht die Ergebnisse. Er kommt zum Schluss, dass die Maße auf der Thesaurus- Struktur zu ähnlichen oder gar besseren Ergebnissen führen, als auf den Strukturen auf denen sie ursprünglich definiert waren. Auf diese Ergebnisse aufbauend schlagen Jarmasz und Szpakowicz (2003) ein Maß vor, dass die Distanz zwischen Begriffen anhand des kürzesten Weges zwischen Ihnen durch die hierarchische Baumstruktur des Thesaurus definiert. Die Autoren definieren dazu 16 Ebenen, beginnend bei acht Klassen bis hinunter zu den einzelnen Semikolon-getrennten Gruppen von semantisch zusammengehörigen Begriffen. Offenbar handelt es sich hierbei um ein Distanz- und kein Ähnlichkeitsmaß, so dass die Autoren ihr Maß schließlich als sim(w 1, w 2 ) = 16 min distance(r 1, r 2 ) definieren. r 1 und r 2 sind hierbei Elemente der Menge der Referenzen, die sich im Index für die beiden zugehörigen Begriffe finden lassen. Die beiden Begriffe feline und lynx hätten etwa die Distanz 2, da sich bei beiden Begriffen im Index eine Referenz auf cat 365 findet, also zwei Kanten (feline cat lynx) zwischen den Begriffen liegen. 20 Die Ähnlichkeit ist demnach 14 (von 16). Ihr Maß haben die Autoren auf verschiedene Datensets ausgewertet und erreichen eine Korrelation von r = 0,878 für das Datenset von Miller und Charles (1991) und r = 0,818 für das von Rubenstein und Goodenough (1965). Für das WordSim-353-Datenset konnte lediglich eine Korrelation r = 0,539 erreicht werden. Bei den in-vivo-evaluationen wurde das Maß unter anderem auf die TOEFL-Synonym-Fragen angewandt und konnte 78,75% korrekt beantworten WordNet und vergleichbare semantische Netzwerke Der wohl größte Teil der Forschung im Bereich semantischer Ähnlichkeit auf Basis vorstrukturierter Wissensbasen bezieht sich auf WordNet (Fellbaum, 1998). WordNet ist die Bemühung, ein semantisches Netzwerk für eine komplette Sprache, in diesem Fall Englisch, aufzubauen, um verschiedene Aufgaben im Bereich des Natural Language Processing zu erleichtern und auf anderer Ebene natürlich Sprache, beziehungsweise die Sprache, selbst zu erforschen. WordNet setzt sich im Wesentlichen aus Substantiven, Verben, Adjektiven und zugeordneten Adverbien zusammen. Grundlage des Aufbaus sind dabei aber nicht Wörter, sondern sogenannte synsets: Wortmengen, die das gleiche Konzept beschreiben. Die Mehrdeutigkeit eines Begriffs ist also ähnlich wie in der Thesaurus-Struktur durch verschiedene dieser Mengen aufgelöst. In Abbildung 2.4 ist ein Ausschnitt aus WordNet zu sehen, den man durch Suche nach dem Wort book erreichen kann. Zunächst ist zu erkennen, wie zwischen den Wortarten, hier Substantiv und Verb, getrennt wird. Für jede Bedeutung des Wortes ist nach dem S: das jeweilige Synset notiert. Hier etwa findet sich eine eigene Bedeutung für das Konzept, das von book und volume beschrieben wird etwa Sammelband sowie ein Synset für den allgemeinen Begriff des Buches. 20 Betrachtet man das Maß, das ja im Wesentlichen distance(r 1, r 2) als Distanzfunktion verwendet, müssten die Begriffe eine Distanz von 0 haben, da in diesem Fall r 1 = r 2 = cat ist. Das Beispiel wurde aus der entsprechenden Arbeit übernommen. 33

42 Kapitel 2. Semantik und semantische Ähnlichkeit Abbildung 2.4: Beispiel-Ausgabe der Online-Version von WordNet für die Suche nach book (gekürzt, aus abgerufen am ) Weiter unten ist die Bedeutung der einzelnen Verbformen, aufgeschlüsselt. Als Beispiele sind hier die Synsets für jemanden (für einen Auftritt) buchen sowie eine Buchung (im Sinne von Reservierung) tätigen gegeben. Insgesamt enthält WordNet über einzigartige Begriffe, wovon etwa 75% Substantive sind, 14% Adjektive, 8% Verben und 3% Adverbien. 21 Je nach Wortart sind die einzelnen Synsets in WordNet über verschiedene, typisierte Beziehungen miteinander verknüpft. Die am deutlichsten ausgeprägte Verknüpfungsstruktur ergibt sich dabei aus der streng hierarchischen Hypernym/Hyponym-Beziehung, oft Ober-/Unterklasse- oder is-a-beziehung genannt. Wiederum ähnlich zur Thesaurus-Struktur stehen an der Spitze 25 sogenannte unique beginners, die dem Wurzel-Begriff entity untergeordnet sind. Je weiter man sich nach unten in der Hierarchie bewegt, desto spezieller werden auch die Begriffe beziehungsweise Konzepte, denen man begegnet. Im obigen Beispiel ist zu sehen, dass die Oberklasse für book publication lautet. Lässt man sich die gesamte Hierarchie für dieses Synset anzeigen, ergibt sich 21 Statistik laut WordNet Version 3.0, die zum Zeitpunkt des Verfassens dieser Arbeit aktuell war. Die Statistiken stammen von abgerufen am

43 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis book publication work, piece of work product, production creation artifact, artefact whole, unit object, physical object physical entity entity. Untergeordnet wären für dieses Beispiel eine ganze Reihe von Synsets wie etwa textbook, text, text edition, schoolbook, school text, Schulbuch, oder songbook, etwa Gesangbuch. Wie im obigen Beispiel zu sehen ist, sind Synsets aber auch durch andere Beziehungen miteinander verknüpft. So umfasst WordNet nicht nur die Beziehungstypen Meronym (part-of), beziehungsweise dessen Umkehrung Holonym, sondern auch informellere Beziehungstypen wie abgeleitete Begriffe, Instanzen oder neben geordnete Begriffe. Für die Gruppe der Adjektive lässt sich keine geeignete Hierarchie aufbauen (Fellbaum, 1998), so dass diese in WordNet über Antonym-Beziehungen, also Gegenteile, verknüpft sind. Auch hier sind Synsets für verschiedene Wortbedeutungen vorhanden. So findet sich für das Wort long ein Synset für die temporale Bedeutung von lang und eines für die räumliche Bedeutung. Weiterhin gibt es verschiedene andere Verknüpfungstypen, etwa similar-to, die semantisch ähnliche Konzepte in einer Art Bedeutungs-Cluster neben ordnet oder Beziehungen, die die Wortartgrenzen durchbrechen, wie attribute, worunter hier das substantivische Synset duration, length fallen würde. Die enthaltenen Adverbien sind dabei meist von einem Adjektiv abgeleitet (slow - slowly) und ähnlich verknüpft. Verben in WordNet sind hauptsächlich nach Troponymie verknüpft, die versucht eine ähnlich hierarchische Struktur wie bei den Substantiven aufzubauen. Da sich für Verben ebenfalls keine Ober-/Unterklassen-Beziehung herstellen lässt, ordnet Troponoymie einem Verb eine speziellere (oder allgemeinere) Form der Aktion zu. Zum Verb sprechen etwa wären flüstern oder schreien zwei Troponyme, die die gleiche Aktion beschreiben, jedoch mehr darüber aussagen in welcher Art und Weise die Aktion durchgeführt wird. Die Hierarchie ist hier deutlich flacher als bei den Substantiven. So besteht eine komplette Hierarchie von etwa sich bewegen bis hin zur speziellen Form von etwa prozessieren aus go walk march parade 22. Neben dieser Struktur bestehen ebenfalls mehrere andere Verknüpfungen wie Gegenteile oder für Verben im Speziellen Folgen, entails: Der Aktion Essen folgt die Aktion Schlucken. Schließlich sind fast alle der Synsets mit Beispielsätzen oder erklärenden Glossen versehen, ähnlich der Worterklärungen bei den Wörterbuch-basierten Ansätzen (vgl. Abschnitt 2.3.1). Diese sind insbesondere dazu gedacht, bei Synsets die nur ein Wort beinhalten, die korrekte Wortbedeutung zu ermitteln. So enthält das Synset für das Konzept book, wie in Buch, als auch das Konzept des gleichen Begriffs der Bedeutung eines Kartendecks jeweils nur das eine Wort, was 22 Synsets jeweils auf ein Wort gekürzt. 35

44 Kapitel 2. Semantik und semantische Ähnlichkeit eine Disambiguierung ohne die zugehörigen Glossen ( a written work or composition that has been published [...] sowie a collection of playing cards satisfying the rules of a card game ) unmöglich macht. Es wird deutlich, dass die einzelnen Synsets in vielfältiger Weise miteinander verknüpft sind und es wundert nicht, dass WordNet eine der meist verwendeten Ressourcen im Bereich des Natural Language Processing ist. An einigen Stellen weist WordNet selbst bereits semantisch ähnliche Konzepte als similar-to aus. Um aber ein konkretes Maß semantischer Ähnlichkeit zwischen belieben Begriffen zu definieren können, müssen und sollten auch die übrigen Verknüpfungen einbezogen werden Maße auf Basis des (kürzesten) Weges im Netzwerk Mit dem im vorherigen Abschnitt vorgestellten Ansatz von Jarmasz und Szpakowicz (2003) wurde bereits ein Maß beschrieben, das die Distanz zweier Konzepte in einer Graph-artigen Struktur nutzt. Einer der frühesten Ansätze, der die gleiche Idee verfolgt, wurde von Rada et al. (1989) vorgestellt. Die zugrundeliegende Idee ist denkbar einfach, später von Resnik (1995) zusammengefasst: Je kürzer der Weg von einem Knoten zum anderen, desto ähnlicher sind sie. Rada et al. arbeiten dabei allerdings nicht auf WordNet als semantischem Netzwerk, sondern MeSH (Medical Subject Headings) 23, eine Art Thesaurus für medizinische Begriffe, die in einer hierarchischen Struktur verknüpft sind und als semantisches Netzwerk aufgefasst werden können. Die denkbar einfache Definition des Ähnlichkeitsmaßes lautet hier: Distance(A, B) = minimum number of edges separating a and b Wobei A und B jeweils Konzepte darstellen, die im semantischen Netzwerk durch Knoten a und b repräsentiert werden. Innerhalb von MeSH sind die enthaltenen Konzepte in weitergefasst als-beziehungen (broader-than) miteinander verknüpft, was in etwa auf die is-a-beziehungen in WordNet übertragbar ist. Eine oft verwendete Konvention, um ein Maß für die Distanz oder Ähnlichkeit zweier Worte und nicht Konzepte zu definieren, ist die minimale Distanz aller möglichen Paarungen von zugehörigen Konzepten zu verwenden. Die größte Kritik, die in der Literatur gegenüber diesem oder ähnlichen sehr einfachen Ansätzen geäußert wird und ein entsprechend großes Problem bei der praktischen Nutzung darstellt, ist die Tatsache, dass eine Kante, die zwei Konzepte trennt, im semantischen Netz nicht unbedingt immer der gleichen Distanz entspricht (vgl. auch Budanitsky und Hirst (2006) und Zesch und Gurevych (2010)): Im Beispiel von book (siehe oben) etwa lässt sich leicht nachvollziehen, dass häufig Konzepte, die sich weiter oben in der Hierarchie befinden als weniger dicht (also ähnlich) empfunden werden (etwa publication und product), als weiter unten (etwa book und publication). Um dieses Problem zu umgehen, haben verschiedene Arbeiten die Tiefe und/oder Dichte am Ausgangs- oder Zielknoten betrachtet und in die Berechnung der Distanz mit einfließen lassen. Die Idee hierzu ist, dass ein Ebenenunterschied tiefer in der Hierarchie zwei bereits relativ spezielle Konzepte nur noch marginal spezieller unterscheidet, während die oberen Ebenen noch große 23 Digital verfügbar unter abgerufen am

45 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis Unterscheidungen wie die Trennung von physischen und abstrakten Konzepten beschreiben. Bei der Dichte, die im Teilnetz zweier Knoten herrscht, liegt die Vermutung nahe, dass je dichter das Netzwerk ist, desto ähnlicher sich die Konzepte sind. Sehr häufig wird in diesem Kontext die Arbeit von Leacock und Chodorow (1998) zitiert, die zwar die Tiefe der Gesamthierarchie mit einbezieht, aber lediglich als konstanten Normierungsfaktor, was keinen direkten Vorteil bieten dürfte. Zhang et al. (2012) haben zu den vielschichtigen Möglichkeiten, Dichte und/oder Tiefe in die Berechnungen mitaufzunehmen eine Vielzahl an Arbeiten begutachtet. Beschrieben werden sollen an dieser Stelle zwei frühe Ideen, die spätere Arbeiten inspiriert haben, sowie beispielhaft zwei neuere Arbeiten zum Stand der Technik. Wu und Palmer (1994) haben sich mit einem Mechanismus zur Unterscheidung der Semantik von Verben für maschinelle Übersetzung ins Chinesische beschäftigt und dabei ein Ähnlichkeitsmaß (hier in Anwendung für Verben) verwendet, das die Idee der Entfernung im Graphen aufgreift, aber die Tiefe mit einbezieht: ConSim(C1, C2) = 2 N3 N1 + N2 + 2 N3. Dabei sind C1 und C2 die beiden Konzepte, deren Ähnlichkeit ermittelt werden soll. C3 soll die tiefste gemeinsame Oberklasse in der Hierarchie sein (least common superconcept). N 1 ist dann die Distanz zwischen C1 und C3, N2 die zwischen C2 und C3 und N3 die Distanz von C3 zur Wurzel des Baumes, also dessen Tiefe. Zu bemerken ist außerdem, dass die Distanz zwischen zwei Knoten hier nicht als die Anzahl der Kanten, sondern Anzahl der Knoten zwischen den beiden zu verbindenden Konzepten gewählt wurde. Nicht ganz leicht ist die Idee anhand der Formel nachzuvollziehen, lässt sich aber letztlich so zusammenfassen: Ist die Distanz von zwei Konzepten zu ihrer nächsten gemeinsamen Oberklasse gering, steigt die Ähnlichkeit. Entscheidend beeinflusst wird diese Distanz dadurch, wie tief (spezifischer) die gemeinsame Oberklasse sich in der Hierarchie befindet. Je größer die Distanz zur Wurzel, desto größer die Ähnlichkeit der beiden Konzepte. Ein weiterer Ansatz, der nicht nur die Tiefe in der Hierarchie in die Berechnung des Ähnlichkeitsmaßes mit einfließen lässt, stammt von Sussna (1993). Er verwendet zur Berechnung nicht nur die strengen is-a-beziehungen der hierarchischen Struktur, sondern bezieht auch die anderen Beziehungstypen mit ein. 24 Allerdings sollte etwa eine durch Meronymie entstandene Kante nicht die gleiche Distanz bezeichnen, wie die einer Synonym-Kante. Um das Wissen der Beziehungsart in die Berechnung mit einfließen zu lassen, wurden daher experimentell ermittelte Kantengewichte zwischen 0 (Synonym) und 2.5 (Antonym) definiert. Für die übrigen Beziehungsarten wurde kein fester Wert zugewiesen, sondern ein Intervall zwischen 1 und 2 genutzt. Zudem wurden die Kanten als gerichtet aufgefasst, so dass für jede Kante nun ein Wert aus dem entsprechenden Intervall ermittelt werden kann. Der tatsächliche Wert richtet sich danach, wie viele Kanten des gleichen Typs vom Ausgangskonzept ausgehen (je weniger ausgehende Kanten, desto niedriger der Wert). Das eigentliche Maß berechnet sich dann als: 24 In der Version von WordNet, die Sussna für seine Arbeit herangezogen hat, waren dies lediglich synonymy, hypernymy, hyponymy, holonymy, meronymy, antanomy. Die Anwendung seines Maßes ist in seiner Arbeit auch auf den Graphen der Substantive beschränkt. 37

46 Kapitel 2. Semantik und semantische Ähnlichkeit w(a, B) = w(a B) + w(b A). 2d Wobei w(x Y ) eben das ermittelte Kantengewicht je nach Beziehungstyp zwischen den Konzepten X und Y wie oben beschrieben darstellt. Durch den Faktor 2d im Nenner wird das Durchschnittsgewicht der Hin- und Rückrichtung der Kanten zusätzlich mit der Tiefe d des tieferen der beiden Konzepte gewichtet. Offenbar stehen niedrigere Werte des Maßes für eine dichtere (ähnlichere) Beziehung, es handelt sich also um ein Distanzmaß. Einen ähnlichen Ansatz beschreiben Tsatsaronis et al. (2010). Ihr größter Kritikpunkt an bisherigen Arbeiten ist dabei, dass Maße oft lediglich die is-a-hierarchie des Substantiv-Netzwerks in WordNet verwenden und die anderen Wortgruppen völlig vernachlässigen. Da ihre Arbeit jedoch nicht nur auf ein Maß zur Bestimmung der Ähnlichkeit von einzelnen Worten, sondern ganzen Texten abzielt, betonen sie die generell für verschiedene Aufgaben wünschenswerte Fähigkeit, auch die Ähnlichkeit anderer Wortarten zueinander bestimmen zu können. Ihr Ansatz basiert dabei auf der Länge des Pfades zwischen zwei Knoten im Netzwerk, der Art der Verknüpfung und der Tiefe der Begriffe in der Hierarchie. Dabei wird das eigentliche semantische Netz anhand von gewichteten Kanten gebaut, deren Gewicht sich nach der Häufigkeit des Auftretens in WordNet richtet. So erhält etwa eine Kante, die eine Hypernymie-Beziehung darstellt, ein Gewicht von 0,61 was den Anteil von Hypernymie- beziehungsweise Hyponymie-Verknüpfungen in WordNet im Vergleich zu den übrigen Verknüpfungsarten darstellt. Eine Meronymie-Kante erhält im Vergleich dazu das Gewicht 0,0367. Um das Gewicht der Kanten nun in die Pfadlänge einfließen zu lassen, wird später das Produkt der Gewichte entlang des gewählten Pfades maximiert. Die sicherlich streitbare Intuition dahinter ist, dass die Autoren von WordNet wichtigere Kanten häufiger verwendet haben als weniger wichtige ( we assume that the most used relation types are stronger than the types less used ). Um die Informationen aus der Tiefe des jeweiligen Knotens im Netzwerk mit einfließen zu lassen, wird das auf die maximale Tiefe normierte, harmonische Mittel der Tiefen der beiden Knoten verwendet. Letztlich wird über alle Pfade zwischen den beiden Knoten das Produkt des Kantengewichts-Terms und des Tiefen-Terms maximiert, um den endgültigen Ähnlichkeitswert zu errechnen. Ist die Wortbedeutung noch nicht klar, also das Synset, zu dem das jeweilige Wort gehört, unbekannt, wird aus allen möglichen Bedeutungspaaren dasjenige mit der größten Ähnlichkeit gewählt. In der Evaluation beschreiben die Autoren, dass ihr Maß für das Testset von Miller und Charles (1991) eine Korrelation von r = 0,864, für das von Rubenstein und Goodenough (1965) r = 0,876 erreicht. Für das WordSim-353-Datenset geben sie r = 0,628 beziehungsweise ρ = 0,61 an. Im TOEFL-Test kann das Maß 87,5% der Fragen korrekt beantworten. Während es noch einige weitere Arbeiten gibt, die versuchen die ursprüngliche Idee von Rada et al. (1989) mit Hilfe von weiteren Informationen aus den Positionen der Knoten im Netz von WordNet zu erweitern und verbessern, haben sich Wang und Hirst (2011) mit der Grundsatzfrage beschäftigt, inwiefern die Tiefe und Dichte überhaupt mit der Ähnlichkeit von Knoten in der Hierarchie korrelieren. Um dies zu prüfen, haben die Autoren drei Testsets (vgl. Abschnitt 2.2) genommen, in denen Menschen Wortpaare in ihrer Ähnlichkeit bewertet haben: Miller und Charles (1991), Rubenstein 38

47 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis statistical significance of three data sets (MC and on RG is close to margina dge weight (left-handelated to similarity. ten biased by particular Data analysis suggests posed a concept simioncepts c 1 and c 2 as: and Smeaton (1995) prev structures in WordNet. dep(c) irregular densities of links en(c 2,c)+2 dep(c) in unexpected conceptual (1) pirically, on the one hand, subsumer (LCS) of c 1 Net nodes have density va ber of edges between 3. This means that for 90 to adjust hop count only three integer values denominator) with the the varying degrees of si een nodes with sameportion to hop counts, distinguishing power over Figure(a) 1: Correlation Tiefe gegen between Ähnlichkeit. depth and similarity. Figure(b) 3: Correlation Dichte gegen betweenähnlichkeit. density and similarity. such a range might be too ount, a deeper Abbildung LCS 2.5: Die Verteilung von (durch Menschen bewertete) Ähnlichkeit are achieved by the following experimental setting. MC RGvon Wortpaaren FG gegen hand, die there are outliers wi er to 1. Tiefe und Depth Dichte is defined und as ihres the number tiefsten of edges gemeinsamen between the Hypernym-Knotens. dep *** Aus Wang *** und0.3701*** Hirst (2011). particular to the perhaps o ) proposed a hybrid den * root of the hierarchy and the lowest common subsumer (LCS) of two nodes under comparison, and Table 1: Correlation between depth/density and similar- egorization of some Wor nd density information nodes can be LCS s of wo based model (Resnik, und Goodenough density as the number (1965) ofund siblings WordSim-353. of the LCS. 2 Similarity isvon measured Tiefebyauf human einjudgment Maß anzunähern on similar- der different niedrigste confidencegemeinsame intervals ( * for p Hypernym-Knoten < 0.05, *** for example, can be the LCS Innerhalb ity onder individual WordNet-Hierarchie data sets. Number of asterisks wurdeindicates dann um ferent similarity. The nod den Einfluss 1 ity between word pairs. Commonly used data sets ) a gesucht und dessen Tiefe in der Gesamthierarchie p notiert. < ). Ein Plot der Daten ist in Abbildung man woman, as well as q for such judgments include that of Rubenstein and as boy sage, where the la 2.5a dargestellt. Die Autoren schließen dabei, dass die Verteilung der Knoten einer Ebene eine Goodenough (1965), Miller and Charles (1991), and necessarily indicate high d Ē b) den(p) ] entscheidende FinkelsteinRolle et al. (2001) für die (denoted Korrelation RG, MC, and spielt. FG, Betrachtet ably because manjudges die Abbildung, associated the word wirdform relativ stockleicht Another crucial limitatio deutlich, respectively). dass fürrg dieishohen a collection Ebenen of similarity (kleine ratings Tiefen-Werte) with its financial kaumsense, eine especially Korrelation whenerkennbar there was ist, sity is the information los IC(p)]T (c, p) (2) of 65 word pairs averaged over judgments from 51 an abundant presence of pairs indicating this particular sense of the word (e.g., stock market, company für die höheren Werte jedoch möglicherweise schon. In einem auf Daten-Sampling basierenden isting literature, density is human subjects on a scale of 0 to 4 (from least to child nodes in Wordte the depth andzu den- ρ = RG 0,7056 data set. reicht, These pairs wenn were man chosen das tomit have evenly 30 Begriffen kleinste Testset alleine betrachtet. Verfahren ermitteln die Autoren eine hochsignifikante most similar). MC is a subset of 30 pairs out of the stock). Korrelation von ρ = 0,3779, die sogar for bisthe degree of specificit in densely connected regi is the average density distributed similarity ratings in the original data set, 3.2 Density to be more specific and t rdnet, and a andfür b aredie Korrelation zwischen der Dichte des niedrigsten gemeinsamen Hypernym-Knotens, de- depth judges als Anzahl with theder samegeschwisterknoten, instruction as used for RG. ist FGein Plot correlation in Abbildung with similarity 2.5b (Figure dargestellt. 3-a and 3-b). Hier Weist ited This information of a giv and similarity judgment was elicited from 38 human Comparing to depth, density exhibits much lower e contribution offiniert es by its hierarchical des ilarity score. IC( ) is should monotonically inc kaum möglich, is a much larger überhaupt set consisting eine Form of 353 von wordkorrelation pairs, conducted abzulesen correlation und zu experiments diesem between Ergebnis density kommen node based on probaes from a small sense- sity value of 15 under th hierarchy. For example, t auch die andautoren, the rating scale dieisdie fromerrechnete 0 to 10. We combine Korrelation the je andnach similarity Testset with the zwischen same setting gerade as for depth signifikanten and RG and FG data sets in order to maximize data size. similarity above. Data points with extremely high ), and T (c, p) is aρ linkerent types of relations = 0,10 und ρ = 0,27 angeben. Als mögliche Erklärung geben die Autoren an, dass über 90% ment. However, the dens Human ratings r on individual sets are normalized to density values (up to over 400) are mostly idiosyncratic to the densely connected regions in WordNet der Knoten Grand piano, upright pian r n on 0in to 1WordNet scale by thesowieso following nur formula: eine Dichte von 3 oder weniger haben, was dazu führt, dass es für eine Großzahl der betrachteten gemeinsamen is only 3. Due to the partic rrent Definitions of r n = r r andhypernym-knoten are numerically quite lediglich harmful. We drei thus Stufen excluded können. outliers with density values above 100 in the der network in WordNet, the Differenzierung gibt, die in die min Berechnung einfließen r max r min be incorrectly regarded as experiment. Kritisch äußern kann man sich zu diesen Ergebnissen natürlich dennoch, denn die Betrachtung similar) than, say, between s of depth and density where r max and r min are the maximum and minimum Evaluation on the combined data set shows no cussion instruments. der Tiefe, respektive Dichte am niedrigste gemeinsamen antic similarity meagation below suggests evaluated Betrachtung. using Spearman s Grundsätzlich r. gehen die firm ermittelten the result, we Werte break the fürexperiments die einzelnen down tomaße the 4an New Definitions of of the original ratings, respectively. Correlation is correlation Hypernym-Knoten between density and similarity. ist eine etwas To con-eindimensionale three individual data sets, and the results are listed in fail our intuition. verschiedenen Stellen nur als modifizierende Faktoren ein, so dass es selbst bei niedriger Korrelation in Verbindung mit einem geschickten Maß trotzdem Table 1. Thezu correlation signifikanten coefficient Verbesserungen between density des In this section, we form e effectiveness of usexamine their correla- 2 We also tried several other variants of these definitions, e.g., using the maximum or minimum depth of the two nodes and similarity ranges from 0.10 to 0.27 There is no depth and density to corr Gesamtmaßes instead of thekommen LCS. With respect kann to statistical diese significance werdentests, von den Autoren ja auch angegeben. Zudem werden l results in this section these variants all gave the same results as our primary definition je nach Maß auch gar nicht nur die Werte für diesen einen gemeinsamen Knoten betrachtet, 1005 sondern etwa bei Tsatsaronis et al. (2010) alle Knoten auf dem Pfad zwischen den beiden zu verbindenden Konzepten. Letztlich lässt sich noch anführen, dass die Betrachtung nur auf der Substantiv-Hierarchie (also auch nur auf einem Beziehungstyp) arbeitet. 39

48 Kapitel 2. Semantik und semantische Ähnlichkeit Dennoch haben die Autoren mit Hilfe des erlangten Wissens zwei neue Definitionen für Tiefe und Dichte vorgeschlagen, die die Verteilung der Knoten für die jeweilige Position des gemeinsamen Hypernym-Knotens mit einbezieht. Für die sowieso hochsignifikant korrelierende Tiefe konnten dabei nur marginale Verbesserungen festgestellt werden, für die Dichte keine. Um hier eine Verbesserung zu erzielen, schlagen die Autoren deshalb vor, das Konzept der Vererbung von Dichte-Werten in der Hierarchie aufzugreifen. Ihre Idee lautet, dass ein Knoten einer niedrigeren Ebene im Graphen keinen niedrigeren Dichte-Wert erhalten sollte als einer seiner Vorfahren: den i (c) = h hyper(c) den(h) + den(c). hyper(c) Die rekursiv definierte Funktion den i, mit den i (W URZEL) = 0, fügt dem eigentlichen Tiefen- Wert des Knotens den Durchschnittswert der Tiefen-Werte alle seiner Vorfahren zu. Mit diesen neuen Werten melden die Autoren nun ebenfalls eine hochsignifikante Korrelation mit den Ähnlichkeitswerten. Um den Einfluss der neu definierten Werte auf ein echtes Ähnlichkeitsmaß zu prüfen, reproduzieren die Autoren schließlich die Experimente, die Wu und Palmer (1994) (siehe oben) und Jiang und Conrath (1997) (siehe unten) durchgeführt haben. Gegen die vorher verwendeten Definitionen erzielen die Maße mit den neuen Werten signifikante Verbesserungen. Ein letztes, oft zitiertes Maß, das an dieser Stelle Erwähnung finden soll ist das von Hirst und St-Onge (1998). Die Autoren greifen in dieser Arbeit die Ideen von Morris und Hirst (1991) auf (vgl. Abschnitt 2.3.2), die auf Basis von Rogets Thesaurus Regeln definiert haben, um semantische Ähnlichkeit daraus abzuleiten. Hirst und St-Onge versuchen diese Regeln auf die Struktur und den Aufbau von WordNet zu übertragen. Hierbei unterscheiden sie zwischen vier Stufen von semantischer Ähnlichkeit: extra-strong, strong, and medium strong sowie weak. Um die Ähnlichkeit derart quantifizieren zu können, bilden sie die verschiedenen Arten von semantischen Verknüpfungen in WordNet auf Richtungen in einer hypothetischen, hierarchieartigen Struktur ab: Eine Hypernymie-Beziehung entspricht intuitiv einer Bewegung nach oben, eine Hyponymie-Beziehung nach unten. Zudem gibt es horizontale Bewegungsrichtungen, etwa bei der Verknüpfungsform similar-to oder see-also. Die stärkste Ähnlichkeit ist nur zu erreichen, wenn zwei gleiche Worte miteinander verglichen werden. Eine starke Ähnlichkeit wird, ähnlich wie bei Morris und Hirst, attestiert, wenn eine der folgenden Regeln erfüllt wird: 1. Beide Begriffe tauchen in einem gemeinsamen Synset auf. 2. Zwischen zwei Synsets für die Begriffe gibt es eine horizontale Verknüpfung. 3. Einer der Begriffe ist ein zusammengesetzter Begriff und enthält den anderen und es gibt zwischen zwei Synsets für die Begriffe eine (egal wie geartete, aber maximal 5 Knoten entfernte) Verknüpfung. Eine mittlere Ähnlichkeit wird erreicht, wenn es einen Pfad zwischen zwei Synsets der Begriffe gibt, der bestimmten Bedingungen genügt: Eine Bewegung nach oben muss auf dem Weg immer als erstes erfolgen und es ist maximal eine Änderung der Bewegungsrichtung erlaubt. Die einzige Ausnahme ist eine Seitwärtsbewegung, nach der von einer nach oben führenden Bewegung nach unten weitergelaufen werden darf. Die Idee hinter diesen Regeln ist die Tatsache, 40

49 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis dass eine Bewegung nach oben einer Generalisierung entspricht und nach unten einer Spezialisierung. Seitwärtsbewegungen entsprechen, so die Autoren, Pfaden mit sehr niedriger semantischer Distanz. Schließlich wird bei diesen Verknüpfungen der Kategorie medium-strong ein Gewichtswert vergeben, der niedriger (semantisch weniger ähnlich) wird, je länger der Pfad ist und je mehr Richtungsänderungen auf dem Weg passieren. Als weak miteinander verknüpft gelten schließlich alle Wortpaare, auf die keine der anderen Kategorien zutrifft Maße auf Basis gemeinsamen Informationsgehaltes Von den oben dargestellten Methoden, die darauf basieren einen geeigneten Pfad im semantischen Netzwerk zwischen den beiden zu betrachtenden Konzepten zu finden, lassen sich die im Folgenden beschriebenen Arbeiten einer eigenen Klasse zuordnen: Den so genannten information content-basierten Maßen. Die frühste Arbeit, die diese Idee vorstellt, stammt von Resnik (1995). In seiner Arbeit fasst er genau die gleiche Problemstellung auf, die bereits an die Pfadbasierten Maße gestellt wurde: Die Kanten im semantischen Netzwerk stellen keine uniformen Distanzen dar. Um dieses Problem zu umgehen, erweitert Resnik die hierarchische Struktur des is-a-netzes aus WordNet um Wahrscheinlichkeitsinformationen, bezogen auf das Auftreten eines Substantivs in einem Corpus. In gewisser Weise greift er hierbei den Methoden vor, die in Abschnitt 2.4 beschrieben werden und sich die Statistik der Worthäufigkeiten in einem solchen Corpus zunutze machen. Für sein Maß durchläuft er einen geeigneten Corpus, in seinem Beispiel der Brown Corpus of American English, und erfasst jedes Vorkommen eines jeden Substantivs. Dabei zählt er für ein Vorkommen etwa des Begriffs dime nicht nur die Häufigkeit des zugehörigen Synsets hoch, sondern auch aller Oberklassen hier also coin, cash, money und so weiter. Schließlich lässt sich so für jeden Knoten die Wahrscheinlichkeit bestimmen, in einem natürlichsprachlichen Text einer Instanz des jeweiligen Konzepts zu begegnen. Durch das Propagieren der Häufigkeiten auf die Oberklassen entsteht ein monotones Verhalten, wobei die Wahrscheinlichkeit einem Konzept einer Oberklasse immer größergleich dem Konzept einer Unterklasse ist. Daraus folgend lässt sich der information content, also Informationsgehalt, eines Konzepts als IC(c) = log(p(c)) ausdrücken: Der negativen, logarithmierten Wahrscheinlichkeit, dass ein Konzept auftritt. Für die Wurzel ist die Wahrscheinlichkeit offenbar 1, der Informationsgehalt also 0, je spezieller das Konzept, desto größer der Informationsgehalt. Um nun das eigentliche Ähnlichkeitsmaß für zwei Konzepte zu definieren, greift Resnik erneut auf das, beziehungsweise die gemeinsamen Hypernyme S(c 1, c 2 ) zurück. Auf Grund der erlaubten Mehrfachvererbung in der Struktur der is-a-hierarchie können dies mehrere sein, wobei dasjenige mit dem maximalen Informationsgehalt gewinnt : sim(c 1, c 2 ) = max log(p(c)). c S(c 1,c 2 ) Der Autor fasst die zugrundeliegende Idee zusammen: Je mehr Informationen zwei Konzepte 41

50 Kapitel 2. Semantik und semantische Ähnlichkeit teilen, desto ähnlicher sind sie 25. In Abbildung 2.6 ist darüberhinaus dargestellt, wie sich das Maß anders verhält als die bisher vorgestellten Pfad-basierten Maße. Nickel und gold haben hier mehrere gemeinsame Hypernyme. Dargestellt sind sowohl chemical element als auch metal, wobei nach Resnik nun für beide Oberklassen der Informationsgehalt bestimmt wird und je nachdem welches der beiden Konzepte den größeren hat, dieses gewählt wird. Das auf diese Weise definierte Maß erreicht für das Datenset von Miller und Charles (1991) eine Korrelation von r = 0, EXCHANGE ASSET SUBSTANCE SOLID MONEY CRYSTAL WEALTH CREDIT CASH COIN CHEMICAL ELEMENT METAL TREASURE CREDIT CARD NICKEL DIME NICKEL GOLD GOLD WordNet taxonomy. Abbildung Solid 2.6: Figure Mehrfachvererbung 2: Another in fragment WordNet of am the Beispiel WordNet von NICKEL taxonomy und GOLD, aus Resnik hed lines indicate(1995). that some ed to save space. ity, rather than concept similarity. Using s(w) torepre- sent Ein im Kontext der the Maße set auf of concepts Basis des in Informationsgehalts the taxonomy that oft are diskutiertes senses Problem ist eines, s with concepts das in the eigentlich taxre the same idea, von butwörtern avoid- bezüglich ihrer Bedeutung auch of word auf w, diedefine anderen Typen von Maßen zutrifft: Die Nicht-Unterscheidbarkeit sim(w 1,w 2 ) = max (vgl. istances. Let the taxonomy c1,c2 [sim(c Budanitsky und Hirst (2006) oder Zhang et al. 1,c 2 )], (2) (2012)). Resnik selbst führt dies als Problem an und nennt zudem ein Beispiel: Die Wörter n p : C [0, 1], tobacco such that und horse, where also c 1 Tabak rangesund overpferd, s(w 1 )andc seien nach 2 ranges seinemover Maß s(wähnlicher 2 ). als tobacco und robabilityofencountering alcohol. Während This füris ersteren consistent Begriff with alsrada beste et Klasse al. s drug [1989] gefunden treatment wird, gibt es in WordNet is implies thatein p issynset mono-füxonomy: if c 1 is-a als cgemeinsames 2,then fine Hypernym the distance mit größerem between Informationsgehalt two disjunctive sets dann of con- narcotic, was zu besagtem Heroin, of disjunctive in dem der concepts Begriffusing horseedge als Slang-Synonym counting: theyerscheint. de- Das Maß findet he taxonomy has Phänomen a uniqueführt. cepts Der Autor as theschlägt minimum aberpath in der length gleichen fromarbeit any element bereits eine of mögliche Lösung vor: is 1. Anstatt das Hypernym the firstmit setdem to any maximalen elementinformationsgehalt of the second. Here, zu wählen, the soll eine gewichtete umentation of information word similarity is judged by taking the maximal information content over all concepts of which both words Summe aus allen gefundenen Möglichkeiten gebildet werden. Das Gewicht, so die Idee, soll aus rmation content of a connegative the log dem likelihood, Kontext abgeleitet werden. So könnte wenn der Kontext geeignet bestimmt werden kann, could be an instance. For example, Figure 2 illustrates tifying information wascontent ein eigeneshow Problem the similarity darstellt ofder words Oberklasse nickel and narcotic gold ein would höheres be Gewicht zukommen, nse in this setting: wenn as probness decreases, so und thesonst morein niedrigeres for all classes Gewicht. subsuming any pair in the cross product es sich beim computed: betreffenden the information Dokument etwa content umwould einen be Artikel computed zu Drogenkonsum handelt, er its information content. of {nickel,nickel } and {gold,gold }, andtheinformation content of the most informative class used to Auf der gleichen Idee aufbauend haben sich Jiang und Conrath (1997) mit der Idee beschäftigt, den Ansatz e top concept, its informarization of information Arbeit pro- diskutieren sie die hier bereits genannten Vor- und Nachteile der beiden Ansätze und quantify der Pfadentfernung the similarity mit of dem the two des Informationsgehalts words. zu kombinieren. In ihrer e semantic similarity. schlagenthe vor, nicht 3 nur Evaluation die is-a-hierarchie von WordNet zu betrachten, sondern auch die übrigen pts share in common, Verknüpfungen. the Außerdem gehen sie auf die Erkenntnisse aus den Studien zur Tiefe und Dichte the information shared by 3.1 Implementation the information content 25 The more information two concepts share in common, the more similar they are [...]. of The work reported here used WordNet s (50,000-node) 26 Resnik betrachtet wegen fehlender Wortabdeckung in der von ihm verwendeten Version von WordNet nur 28 hem in the taxonomy. For- taxonomy of concepts represented by nouns (and compound nominals) in English. 2 Frequencies of concepts der 30 Wortpaare des Datensets. in the taxonomy were estimated using noun frequencies [ log p(c)], (1),c 2 ) from the Brown Corpus of American English [Francis and Kučera, 1982], alarge(1,000,000word)collection onceptsthatsubsumeboth 42 of text across genres ranging from news articles to science fiction. Each noun that occurred in the corpus was ugh similarity is computed unds for the two concepts, counted as an occurrence of each taxonomic class containing it. s the effect of identifying e no class is less informa- 3 For example, in Figure 1, an occurrence of the noun dime would be counted toward the frequency For example, in Figure 1, of dime, coin, andsoforth.formally, mbersofs(nickel, dime),

51 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis im Netzwerk bei den Pfad-basierten Ansätzen ein und schlagen vor, jede Kante im semantischen Netzwerk mit einem Gewicht zu versehen: ( wt(c, p) = β + (1 β) E ) ( ) d(p) + 1 α (IC(c) IC(p)) T (c, p). E(p) d(p) Mit wt(c, p) lässt sich das Gewicht einer Kante zwischen einem Kindknoten c und einem Elternknoten p berechnen. Ungeklärt lassen die Autoren dabei wie die Eltern-Kind-Beziehung definiert sein soll, wenn die Art der Verknüpfung nicht hierarchisch ist. Die Gleichung lässt sich am besten von rechts nach links erklären. T (c, p) soll ein spezifischer Faktor sein, der das unterschiedliche Gewicht der Art der Verknüpfung (Hypernym vs. Meronym, etc.) darstellt. Der Faktor IC(c) IC(p) ist der eigentliche Kernbestandteil der Gleichung. Jiang und Conrath leiten diesen auf Basis der Idee von Resnik (1995) her: So soll eine Kante auf Basis der Differenz des Informationsgehaltes des Eltern- zum Kindknoten in das Gesamtgewicht eingehen. Die beiden ersten Terme lassen schließlich durch die Faktoren α und β gesteuert die Dichte E(p) in Relation zur durchschnittlichen Dichte des Gesamtnetzwerkes E und die Tiefe der Knoten in der Hierarchie d(p) eingehen. Das eigentliche Ähnlichkeits- oder hier Distanzmaß ergibt sich dann aus der Summe aller Kantengewichte auf dem kürzesten Weg zwischen zwei Knoten. Durch Einsetzen der Faktoren α = 0, β = 1, T (c, p) = 1 lässt sich dieses Distanzmaß auf Dist(c 1, c 2 ) = IC(c 1 ) + IC(c 2 ) 2 IC(LSuper(c 1, c 2 )) vereinfachen. Ist der Informationsgehalt des dichtesten gemeinsamen Hypernyms LSuper(c 1, c 2 ) ähnlich groß wie die Summe der Informationsgehalte der beiden betrachteten Konzepte ist die Distanz offenbar gering, die Ähnlichkeit hoch. Bei der Evaluation Ihres Maßes haben Jiang und Conrath verschiedene Kombinationen für α und β getestet, kommen aber zu dem Ergebnis, dass die Unterschiede nicht signifikant sind, während das Maß insgesamt bei dem verwendeten Test eine signifikante Verbesserung gegenüber bisherigen Methoden zeigt: Eine Korrelation von r = 0,8282 für das Datenset von Miller und Charles (1991). Lin (1998) hat sich in seiner Arbeit auf abstraktere Weise mit dem Konzept der Ähnlichkeit befasst. Um ein Maß für Ähnlichkeit zu definieren, geht er von möglichst allgemeingültigen Annahmen aus, mit dem Ziel diese Annahmen später möglichst universell auf verschiedenste Domänen anpassen zu können. Die Ideen hierzu fasst er in drei Annahmen zusammen: 1. Die Ähnlichkeit zwischen A und B bezieht sich auf ihre Gemeinsamkeit. Je mehr Gemeinsamkeiten A und B aufweisen, desto ähnlicher sind sie sich. 2. Die Ähnlichkeit zwischen A und B bezieht sich auf ihre Unterschiede. Je unterschiedlicher A und B sind, desto weniger ähnlich sind sie sich. 3. Die maximale Ähnlichkeit zwischen A und B ist dann erreicht, wenn sie identisch sind. Auf Basis der informationstheoretischen Methode des Informationsgehaltes einer Aussage leitet er schließlich das allgemeine Maß 43

52 Kapitel 2. Semantik und semantische Ähnlichkeit sim(a, B) = log(p (common(a, B))) log(p (description(a, B))) her. Demnach soll die Ähnlichkeit von A und B durch das Verhältnis zwischen der Menge an Information, die notwendig ist um die Gemeinsamkeiten darzustellen, und der Menge an Information, die nötig ist, um vollständig zu beschreiben was A und B sind, dargestellt werden. Mit Hilfe der bereits zuvor verwendeten Häufigkeitsstatistiken und der hierarchischen is-a-struktur von WordNet überträgt er das Maß schließlich auf die Domäne der semantischen Wortähnlichkeit. Für die Menge an Information, um die Gemeinsamkeit zweier Konzepte darzustellen wird wie zuvor das niedrigste gemeinsame Hypernym C 0 verwendet. Die Information für die vollständige Beschreibung leitet er aus der Aussage A C 1 B C 2 her, deren Informationsgehalt log(p (C 1 )) log(p (C 2 )) ist. Für die Gemeinsamkeit gilt folglich die Aussage A C 0 B C 0, wodurch sich eingesetzt in das ursprüngliche Maß schließlich die Funktion sim(a, B) = 2 log(p (C 0 )) log(p (C 1 )) + log(p (C 2 )) ergibt. Mit diesem Ansatz erreicht Lin bei einer Korrelation von r = 0,834 mit den Daten von Miller und Charles (1991) ein ähnlich gutes Verhalten wie Jiang und Conrath (1997), obwohl hier die Tiefe und Dichte der Knoten beziehungsweise Knotenpositionen unberücksichtigt bleiben. Einer der größten Kritikpunkte, der für die Methoden auf Basis von Informationsgehalt angeführt werden, ist Abhängigkeit dieser von einem Corpus beziehungsweise der Häufigkeitsinformationen, die aus diesem extrahiert werden. Hierbei werden im Wesentlichen zwei Probleme angeführt: Die Allgemeingültigkeit der Häufigkeiten des Corpus und dessen sparsity, also das Problem, dass es für bestimmte, seltene Begriffe zu wenig oder manchmal gar keine Vorkommen gibt. Natürlich ist die Kritik wenn auch berechtigt relativ generisch, denn genauso kann man der linguistischen Quelle vorwerfen, dass ein Begriff fehlt oder seine Hierarchie nicht hinreichend ausgeprägt ist. Jiang und Conrath (1997) geben an, bei der Auswertung eines Tests auf einen Begriff (woodland) verzichtet haben zu müssen, da er in der entsprechenden WordNet-Version nicht vorhanden war. Das Problem der Allgemeingültigkeit ist bereits in anderer Form in der Diskussion zur Arbeit von Resnik (1995) angeklungen. Besteht der Corpus beispielsweise hauptsächlich aus Nachrichtenartikeln geht es vermutlich deutlich öfter um Themen wie Drogen als bei einem Corpus aus belletristischen Büchern, ganz zu Schweigen von einem Corpus aus Fachliteratur. Um dem Problem der Corpusabhängigkeit zu begegnen, haben sich Seco et al. (2004) damit beschäftigt, wie sich der Informationsgehalt intrinsisch, das heißt ohne die Verwendung eines Corpus und damit rein mit Hilfe des semantischen Netzwerks, berechnen lassen kann. Ihre Methode erinnert an die Idee, die Dichte-Informationen eines Knoten in die Berechnung der Pfad-basierten Maße mit einfließen zu lassen. Das Verfahren das die Autoren beschreiben folgt der Annahme, dass je mehr Hyponyme ein Konzept in WordNet hat, desto geringer sein Informationsgehalt: Wenn ein Konzept also sehr viele Spezialisierungen hat, muss es selbst sehr unspezifisch sein und folglich wenig Information vermitteln. Maximale Information wird also durch die Blätter vermittelt, minimale durch die Wurzel: 44

53 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis IC wn (c) = hypo(c)+1 log( max wn ) 1 = 1 log( max wn ) log(hypo(c) + 1). log(max wn ) Hierbei ist hypo(c) die Anzahl der Hyponyme des Konzepts c und max wn eine Konstante, die auf die maximale Anzahl von Konzepten in der Taxonomie gesetzt wird, so dass die resultierenden Werte im Intervall von 0 bis 1 liegen. In ihrer Evaluation haben Seco et al. insbesondere die bereits vorgestellten Maße von Resnik (1995), Jiang und Conrath (1997) und Lin (1998) verwendet und die dort notwendigen information content-werte aus dem jeweiligen Corpus durch die errechneten takeswerte into account nach obiger the features Formel that ersetzt. are common Hierbei to two vermelden conceptssie, anddass alsojedes the der Maße mit ihrem intrinsischen diæerentiatingmaß features genauso specific gutto oder each. besser As an arbeitet example, alssince zuvorcar und and zudem bicycle natürlich das both serve to transport people or objects, in other words they are both types Problem der Corpus-Abhängigkeit löst. Für das von Jiang und Conrath (1997) vorgeschlagene of vehicles, they share all features that pertain to the concept vehicle. However Maß wird so eine Korrelation von r = 0,84 für das Datenset von Miller und Charles (1991) each concept has also its specific features as steering wheel for car and pedal erreicht. for bicycle. Der Idee von Seco et al. folgend, hat sich Pirró (2009) in einer neueren Arbeit ebenfalls damit beschäftigt, According ein Maß auf to Tversky, Basis desthe Informationsgehaltes similarity of a concept von c 1 Konzepten to a conceptzu c 2 definieren. is a functionseine Arbeit erinnert dabei of the anfeatures die verschiedenen common tooben c 1 and bereits c 2, those beschriebenen in c 1 but notansätze: in c 2 andähnlich those inwie c 2 Lin (1998) gibt er an, but dassnot dieinähnlichkeit c 1. Figure 2 provides zweier Konzepte a graphical maßgeblich representation durch of Tversky s ihre Gemeinsamkeiten model. und Unterschiede beschrieben wird. Fig. 2. Tversky s similarity model Abbildung 2.7: Die Ähnlichkeit zweier Konzepte bezogen auf ihre Gemeinsamkeiten und Unterschiede, aus Pirró (2009). In Abbildung 2.7, die auf Tversky (1977) zurückgeht, macht er deutlich, dass das Verhältnis Admitting a function (c) that yields the set of features relevant to c, he der drei dargestellten proposed the Mengen following zueinander similarity die function: Ähnlichkeit zweier Konzepte bestimmen soll. Als Beispiel führt er die Konzepte des Fahrrads und des Autos an. Beide sind Fahrzeuge, so dass sich in der Schnittmenge Eigenschaften wie verfügt über Reifen oder transportiert Personen befinden, die sim Menge tvr (c 1,c 2 der )=Æ jeweils F( (c nicht 1 ) \ (c geteilten 2 )) Ø F( (c Eigenschaften 1 )/ (c 2 )) beinhalten F( (c 2 )/ (c dabei 1 )) Konzepte. wie (7) Lenkrad auf der einen oder Sattel auf der anderen Seite. Tversky hatte in seiner Arbeit das where F is some function that reflects the salience of a set of features, and Konzept des Ausdrucks von Ähnlichkeit als Linearkombination dieser Mengen ausgedrückt: Æ, Ø and are parameters that provide for diæerences in focus on the different components. According to Tversky, similarity is not symmetric, that is, sim tvr (c 1,c 2 ) 6= sim tvr (c 2,c 1 ) because subjects tend to focus more on one object than on S(a, theb) other = θf(a depending B) on αf(a the way B) the βf(b comparison A). experiment has been laid out. Die Mengen A und B entsprechen dabei in Abbildung 2.7 den Mengen Ψ(c 1 ) beziehungsweise Ψ(c 2 ). Sie stellen Obviously, also the die above Mengeformulation der Eigenschaften is not framed einesinjeweiligen information Konzepts theoreticdar. terms. Die Parameter Nonetheless, we argue that a parallel may be established that will lead to a new similarity function. Resnik considered the msca of two concepts c 1 and c 2 as reflecting the information these concepts share, which is exactly what is intended with the intersection45 of features from c 1 and c 2 (i.e., (c 1 ) \ (c 2 )). Now, remembering that function F quantifies the salience of a set of features, then we postulate that we may find that quantification in the form of information content. The above reasoning will lead us to the analogy 10

54 Kapitel 2. Semantik und semantische Ähnlichkeit θ, α, β 0 sollen die sich ergebenden Werte so gewichten, dass sie möglichst gut der menschlichen Wahrnehmung entsprechen. Schließlich lässt sich nicht a priori sagen, ob die Menge der Gemeinsamkeiten mehr zum Ähnlichkeitsempfinden beiträgt als eine der Mengen der Unterschiede. An dieser Stelle lässt sich außerdem bemerken, dass Tversky in seiner Arbeit argumentiert, dass Ähnlichkeit kein symmetrisches Maß ist. Er führt hierzu als einfaches Beispiel an, dass es bei einer natürlichsprachlichen Aussage immer ein Subjekt und ein Objekt gibt, die sich aufeinander beziehen. Eine Ähnlichkeitsaussage hat also eine Richtung. Nicht umsonst würde man etwa sagen Der Sohn sieht aus wie sein Vater. und nicht Der Vater sieht aus wie sein Sohn.. In einem Experiment hierzu wurden Probanden in einem Test befragt, welche von zwei Aussagen sie vorziehen würden wenn diese lauteten Land A ist ähnlich zu Land B 27 und analog B zu A. Die Ergebnisse waren eindeutig, wobei die Mehrheit die Variante bevorzugte, in der für A der Referent und für B die Referenz gewählt wurde, etwa North Korea is similar to Red China und nicht etwa umgekehrt. Bei einem weiteren Experiment, bei dem die Probanden die Ähnlichkeit ebenfalls von Ländern auf einer 20-wertigen Skala beurteilen sollten, ergab sich das gleiche Bild: A ist ähnlicher zu B, wenn B das prominentere Konzept ist. Inwiefern diese Ergebnisse auf das generelle Ähnlichkeitsempfinden übertragbar sind, lässt sich durch diese Ergebnisse nicht endgültig klären, denn nicht immer ist die Beziehung zwischen zwei Konzepten derart, dass beide der gleichen Domäne entstammen oder beides Instanzen des gleichen Konzepts sind. Dennoch bleibt festzuhalten, dass Symmetrie nicht unbedingt ein Merkmal eines Ähnlichkeitsmaßes sein muss. Für ein geeignetes Maß auf Basis von WordNet und den Überlegungen von Tversky folgend zu definieren, muss eine geeignete Funktion f gefunden werden. Hierzu geht Pirró davon aus, dass das der Informationsgehalt des niedrigsten gemeinsamen Hypernyms c 0 Ausdruck der Gemeinsamkeiten darstellt. Die Gesamtmenge an Eigenschaften eines Konzepts würde durch den Informationsgehalt eben dieses ausgedrückt. Für die Berechnung der information content-werte für die einzelnen Knoten im Graphen kommt in seiner Arbeit die Technik von Seco et al. (2004) zum Einsatz, die bereits zuvor Verbesserungen im Vergleich zur Corpus-basierten Methode zeigen konnte. Daraus ergibt sich in Anlehnung an Tversky (1977) das Maß: sim(c1, c2) = IC(c 0 ) (IC(c 1 ) IC(c 0 )) (IC(c 2 ) IC(c 0 )) = 3 IC(c 0 ) IC(c 1 ) IC(c 2 ). Natürlich können die gewählten Terme nur als mäßige Approximation der ursprünglichen Idee durchgehen, aber die theoretische Grundlage bleibt bestehen. Betrachtet man an dieser Stelle erneut auch die Maße von Resnik (1995) sowie Jiang und Conrath (1997), so stellt man fest, dass sich diese bei geeigneten θ, α, β ebenfalls auf die Grundgleichung von Tversky rückbeziehen lassen. Auf Basis dieser Überlegungen produziert Pirró signifikant bessere Ergebnisse in seinen Tests als mit den zuvor vorgestellten Maßen erreicht werden konnten. Bedauerlicherweise gibt er die Korrelation seines Maßes nur für die Ähnlichkeitswerte an, die er in einem reproduzierten Experiment ermittelt hat (vgl. Abschnitt 2.2.1), was die Ergebnisse schwerer vergleichbar macht. 27 Im Original: country a is similar to country b. 46

55 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis In einer weiteren aktuellen Arbeit von Sánchez und Batet (2012), wird gezeigt, dass sich die IC-basierten Maße aktuellen Stands der Technik in ihrer Annäherung an die Übereinstimmung mit menschlichen Urteilen noch weiter verbessern lassen, wenn man alternative Methoden betrachtet, den Informationsgehalt der Konzepte zu berechnen. Genau wie Seco et al. (2004) schlagen die Autoren ein intrinsisches Maß auf Basis der Taxonomie vor, geben jedoch an, dass die bisherigen Berechnungsgrundlagen die Informationen aus dem semantischen Netzwerk nicht hinreichend ausnutzen würden. Ein bekanntes Problem bei dem von Seco et al. (2004) vorgeschlagenen Ansatz ist etwa, dass alle Blätter, da es für sie keine weiteren Hyponyme mehr gibt, den gleichen Informationsgehalt tragen, auch wenn ihre absolute Höhe in der Hierarchie nicht die gleiche ist. Um dies zu umgehen betrachten Sánchez und Batet die Hierarchie von einem Konzept ausgehend nicht nach unten, sondern nach oben. Die Idee bleibt jedoch ähnlich nur in die andere Richtung: Je mehr Hypernyme ein Konzept hat, desto spezifischer muss es sein. Für jedes Blatt verhalte sich dessen commonness, also seine Spezifität, antiproportional zur Anzahl seiner Hypernyme. Hierbei wird explizit auch darauf hingewiesen, dass in der Menge der Hypernyme auch diese enthalten sein sollen, die durch Mehrfachvererbung entstehen. Der Gedanke dabei ist, dass Konzepte, die von mehreren Oberklassen erben, noch spezifischer sein müssen, als solche, die nur ein direktes Hypernym haben. Die Generalität von Nicht-Blättern wird nach unten blickend ermittelt, so soll diese einfach die Summe der ermittelten Werte der darunterliegenden Blätter sein, was automatisch zu der von Resnik (1995) geforderten Monotonie im Verhalten der Werte führt. Insgesamt definieren die Autoren ihr IC-Maß schließlich als IC(c) = log commonness(c) commonness(root), also normiert um die Spezifität der Wurzel, so dass als Argument der Logarithmus-Funktion erneut Werte im Intervall von 0 bis 1 entstehen. Mit dieser Neudefinition des Informationsgehalts betrachten die Autoren ebenfalls die etablierten Maße, in diesem Falle von Resnik (1995), Lin (1998) und Jiang und Conrath (1997). Die Ergebnisse werden mit den bisher vorgestellten IC-Definitionen verglichen, wobei signifikante Verbesserungen, mit dem Maß von Jiang und Conrath in Kombination mit der obigen Definition sogar eine (lineare) Korrelation von 0,89 für das Datenset von Miller und Charles (1991), gemeldet werden. Für das betreffende Testset hatte Resnik (1995) als theoretische Obergrenze eine Korrelation von 0,9015 ermittelt, die von Menschen erzielt wird, wenn sie versuchen sollen die Testergebnisse zu reproduzieren Eigene Arbeiten im Bereich der Ähnlichkeitsmaße auf Basis des gemeinsamen Informationsgehalts Da Sánchez und Batet (2012) das bisher am besten korrelierende Maß aus Pirró (2009) nicht untersucht haben, wurden im Rahmen dieser Forschungsarbeit eine Entwicklungsumgebung geschaffen, um die Ergebnisse zu reproduzieren und von den bisherigen Forschungsarbeiten ausgehend ein eigenes Ähnlichkeitsmaß auf Basis des gemeinsamen Informationsgehalts zu entwickeln. 47

56 Kapitel 2. Semantik und semantische Ähnlichkeit M&C R&G WS Maß Pearson Spearman Pearson Spearman Pearson Spearman Resnik 0,809 0,764 0,840 0,774 0,678 0,645 Jiang und Conrath 0,888 0,847 0,865 0,799 0,679 0,667 Lin 0,843 0,768 0,870 0,799 0,691 0,660 Pirró 0,853 0,811 0,838 0,787 0,668 0,648 Diese Arbeit 0,911 0,861 0,881 0,819 0,701 0,682 Tabelle 2.5: Ergebnisse der Reproduktion verschiedener Ähnlichkeitsmaße auf Basis gemeinsamen Informationsgehalts laut Definition von Sánchez und Batet (2012). Zunächst ist hierbei festzuhalten, dass einige der Autoren mit älteren Versionen von WordNet gearbeitet haben. So geben sogar Sánchez und Batet (2012) an, die 2006 erschiene Version 2 von WordNet genutzt zu haben. Für die folgenden Forschungsergebnisse wurde die zum Zeitpunkt des Verfassens dieser Arbeit aktuelle Version verwendet. Die im vorherigen Abschnitt beschriebenen Arbeiten deuten darauf hin, dass eine intrinsische Definition des Informationsgehalts von Konzepten bessere Ergebnisse als eine extrinsische liefert. Die diesbezüglich beste Definition ist die im vorherigen Abschnitt beschriebene von Sánchez und Batet (2012), die auf der commonness eines jeden Konzepts beruht. Zur Reproduktion der Ergebnisse wurde zunächst der Graph aller substantivischen Synsets aus WordNet geladen und anschließend ihr Informationsgehalt berechnet. Danach wurden die Datensets von Miller und Charles (1991), Rubenstein und Goodenough (1965) und Agirre et al. (2009) in selbiges Programm geladen. Die ersten beiden Datensets sind diejenigen, auf denen die Autoren der zuvor vorgestellten Datensets selbst ihre Maße evaluiert haben. Anstatt das komplette WordSim-353-Datenset zu verwenden, wurde an dieser Stelle das von Agirre et al. erstellte Teilset genutzt, das die strengere Bedeutungsähnlichkeit von Begriffspaaren bewertet (vgl. Abschnitt 2.2.3). Diese Wahl wurde getroffen, da die beiden anderen Sets ebenfalls diese Art semantischer Ähnlichkeit betrachten und für die Maße, die auf der ebenfalls strengen is-a- Taxonomie von WordNet aufbauen, bessere Benchmarks darstellen, als Datensets, die sich mit relatedness statt similarity befassen. Zudem haben Sánchez und Batet (2012) ebenfalls dieses Teilset bei ihrer Auswertung verwendet. Schließlich wurden die Ähnlichkeitsmaße gemäß der Definition der ursprünglichen Autoren implementiert und die Korrelation mit den Bewertungen der menschlichen Probanden ermittelt, wie in Tabelle 2.5 dargestellt. Beim Betrachten der Ergebnisse fällt auf, dass die sehr guten Korrelationen, die Sánchez und Batet (2012) gemeldet hatten nicht ganz reproduzierbar sind. Diese hatten für das Datenset von Miller und Charles (1991) eine Korrelation von r Resnik = 0,83, r J&C = 0,89 sowie r Lin = 0,86 angegeben. Die Ergebnisse für den Reproduktionslauf liegen etwas darunter, die Unterschiede 28 WordNet kann unter abgerufen am , geladen werden. Die verwendeten Daten stammen vom WordNet-SQL-Projekt unter das die zugrundeliegende Datenbank im SQL-Format zum Download anbietet (abgerufen am ). 48

57 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis können aber durchaus auf die Berechnung auf Basis der neueren Version von WordNet zurückzuführen sein. Gleiches gilt für die Korrelationen mit der Teilmenge des WordSim-353-Datensets. Hier lag die Korrelation bei r = 0,68 für alle drei Maße, die hier für Lin etwas besser ausfällt. Während die hier verwendete Version von WordNet Synsets für alle Begriffe des Datensets von Miller und Charles (1991) und Rubenstein und Goodenough (1965) enthielt, könnten aus den 203 Wortpaaren, die in der WordSim-353-Teilmenge enthalten sind, lediglich 188 Paare ausgewertet werden 29. Wie oben bereits beschrieben wurde, hat die Arbeit von Sánchez und Batet das Maß von Pirró (2009) nicht berücksichtigt. Der Autor dieses Maßes hat in seiner Arbeit leider keine Vergleichswerte für die Original-Datensets angegeben, sondern nur für eine eigene Reproduktion der Experimente, was einen Vergleich schwierig gestaltet. Auch dieses Maß wurde implementiert und die Definition des Informationsgehalts durch die von Sánchez und Batet ausgetauscht Pirró hatte zuvor die Definition von Seco et al. (2004) verwendet. In seiner Arbeit hatte er hervorragende Korrelationen von r = 0,912 für seine Reproduktion des Experiments von Miller und Charles (1991) sowie r = 0,908 für die Reproduktion von Rubenstein und Goodenough (1965) angegeben. Bedauerlicherweise lässt sich dieser Vorsprung gegenüber den alternativen Maßen nicht nachvollziehen. Im Reproduktionslauf zeigt das Maß in keinem der Tests bessere Ergebnisse als das von Jiang und Conrath (1997). Ausgehend von diesen Ergebnissen sind eigene Ideen zur Definition eines semantischen Ähnlichkeitsmaßes entstanden, die im Folgenden beschrieben werden sollen. Betrachtet man die von den Autoren selbst veröffentlichten Ergebnisse der Ähnlichkeitsmaße im Kontext der Ergebnisse, die die Reproduktion ergeben hat, so wirft das vergleichsweise schlechte Ergebnis des Maßes von Pirró Fragen auf. Obwohl selbiges die bisher besten Korrelationsergebnisse für Maße auf Basis gemeinsamen Informationsgehalts verspricht, konnten entsprechende Ergebnisse nicht erzielt werden. Um diesen Umstand besser verstehen zu können und darauf aufbauend eine bessere Technik zu liefern, wurde die Definition von Ähnlichkeit laut Tversky (1977), auf die auch Pirró aufbaut, erneut in Betracht gezogen: S(a, b) = θf(a B) αf(a B) βf(b A). Die Ähnlichkeit zweier Konzepte zueinander soll eine Linearkombination geeigneter Funktionen ihrer Gemeinsamkeiten und Unterschiede sein. Pirró schlug vor, die Gemeinsamkeiten und Unterschiede mit Hilfe des information content der einzelnen Konzepte zum Ausdruck zu bringen. Er definierte folglich sim P irro (c1, c2) = IC(c 0 ) (IC(c 1 ) IC(c 0 )) (IC(c 2 ) IC(c 0 )). Die Idee Gemeinsamkeiten mit Hilfe des in der Taxonomie niedrigsten gemeinsamen Hypernyms zum Ausdruck zu bringen liegt nahe und geht auf die Autoren zurück, die vor ihm Maße definiert hatten. Die Unterschiede modelliert er, indem er dem Informationsgehalt eines Konzepts den Anteil abzieht, den das entsprechende gemeinsame Hypernym ausmacht. Die Idee scheint nachvollziehbar, approximiert allerdings nach Lage der Ergebnisse nicht hinreichend gut die Vorstellung von Gemeinsamkeiten und Unterschieden. Wenn die theoretische Grundlage nach Tversky solide ist, wie lässt sich also mit Hilfe des Informationsgehalts eine bessere Approximation finden? 29 Nicht berücksichtigt wurden Wortpaare, die die Begriffe media, Arafat, eat, Japanese, Harvard, Mexico, children, live, Mars, Wednesday, CD, santa oder smart beinhalteten. 49

58 Kapitel 2. Semantik und semantische Ähnlichkeit Zunächst betrachten wir die Gemeinsamkeiten: f(a B). Das niedrigste gemeinsame Hypernym ist sicherlich ein guter Startpunkt, um herauszufinden, wie groß die Gemeinsamkeiten zweier Konzepte sind. Offenbar reicht es aber nicht, lediglich dessen Informationsgehalt zu betrachten. Behalten wir die Definition des intrinsischen Informationsgehalts nach Sánchez und Batet bei, commonness(c) = 1 subsumers(c) l l ist ein Blatt unter c commonness(l) c ist ein Blatt, sonst IC(c) = log commonness(c) commonness(root), so ist besonders der Term für die Berechnung der commonness eines Nicht-Blattes interessant. Wählen wir für die Darstellung der Gemeinsamkeiten also das spezifischste gemeinsame Hypernym zweier Konzepte, erhöht sich dessen commonness je weiter wir dafür nach oben in die Hierarchie schauen müssen, da offenbar mehr Blätter in die Summe eingehen. Gleichzeitig sinkt der Informationsgehalt, was sinnvoll erscheint, denn je weiter oben das gesuchte Hypernym liegt, desto weniger verwandt müssen die zu vergleichenden Konzepte sein. An dieser Stelle soll nicht unerwähnt bleiben, dass im Rahmen der Arbeit an dem hier vorgestellten Maß auch mit den oben beschriebenen Ergebnissen von Wang und Hirst (2011) experimentiert wurde. Offenbar liegt der Idee der Definition über commonness von Sánchez und Batet auch die Tatsache zu Grunde, dass die Tiefe der Knoten im gegenseitigen Vergleich beziehungsweise des niedrigsten gemeinsamen Hypernyms mit der Wahrnehmung von Ähnlichkeit korreliert. Wang und Hirst hatten ebenso festgestellt, dass dies für eine unmodifizierte Betrachtung der lokalen Dichte im Netzwerk nicht gilt, aber eine alternative Dichte-Funktion vorgeschlagen, die dies umgeht. Beim Experimentieren wurde daher versucht, die comonness eines Blattes nicht allein durch seine Tiefe im Baum zu definieren, sondern die lokale Dichte mit einfließen zu lassen. Es hat sich jedoch bei der Evaluation herausgestellt, dass etwa das Einfügen eines gewichteten additiven Dichte-Terms keine Verbesserungen im Gegenteil, eher Verschlechterungen des Gesamtmaßes mit sich bringt. Die Definition der commonness nach Sánchez und Batet wurde deshalb beibehalten. Was in dessen Definition des Informationsgehalts aber unberücksichtigt bleibt, ist die Struktur, die unter c 0, also dem betrachteten Hypernym, liegt, sowie die Position von c 1 und c 2 in dessen Teilbaum. Nehmen wir an, unter c 0 liegen noch mehrere Ebenen mit mehrfachen Verzweigungen. Egal ob c 1 und c 2 direkte Kindknoten von c 0 sind oder weiter entfernte Blätter für den Term des Informationsgehalts des Hypernyms ändert sich dadurch nichts. Übersetzt in die Analogie von Tversky würde das bedeuten, dass c 1 und c 2 unabhängig von dieser Tatsache immer gleich viele Gemeinsamkeiten haben. Offenbar ist dies jedoch nicht der Fall. Vielmehr scheint es sinnvoll anzunehmen, dass die Menge der Gemeinsamkeiten größer ist, wenn c 1 und c 2 einen insgesamt größeren Beitrag zur commonness von c 0 leisten sich also in der Hierarchie dichter an c 0 befinden. Auch wenn sich die folgenden Terme an der Idee von Pirró orientieren, soll der 50

59 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis Begriff information content vermieden werden, da wir uns durch die eingebrachten Gewichtsund Skalierungsfaktoren doch recht weit von den ursprünglichen Herleitung über die Auftretenswahrscheinlichkeit entfernen. Anstatt also den negativen Logarithmus der commonness von c 0 ins Verhältnis zu der Wurzel setzen, definieren wir r(c 0, c) = commonness(c) commonness(c 0 ), ( g(c 0, c 1, c 2 ) = log 1 r(c 0, c 1 ) + r(c 0, c 2 ) ) commonness(c 0 ) commonness(root) Die Funktion r(c 0, c) berechnet einfach den Anteil, zu dem das Konzept c zur commonness des (Hypernym-)Konzepts c 0 beiträgt. Die Hilfsfunktion kommt jetzt für die Berechnung von g (für Gemeinsamkeit) zum Einsatz. Anstatt wie zuvor nur das Verhältnis des spezifischsten Hypernyms zur Wurzel zu betrachten, gewichten wir den Wert mit dem Kehrwert der Summe der Anteile, die jeweils c 1 und c 2 die zu betrachtenden Konzepte am gemeinsamen Hypernym c 0 haben. Mit Hilfe dieses Faktors wird das gewünschte Verhalten erreicht: Machen c 1 und c 2 einen großen Anteil der commonness von c 0 aus, ist r groß, der Kehrwert also klein, der Faktor verringert das Ergebnis, der negative Logarithmus wird also größer genauso wie Menge der Gemeinsamkeiten. Analog dazu muss nun f(a B) beziehungsweise f(b A) ermittelt werden. Also die Unterschiede zwischen den beiden Konzepten. Hierzu gehen wir ebenfalls von dem Anteil aus, den ein Konzept zur commonness eines anderen beiträgt. Betrachten wir wieder die Konzepte c 1 und c 2 sowie als spezifischstes gemeinsames Hypernym c 0. Nehmen wir an, wir wollen f(a B) berechnen, also die Unterschiede zwischen c 1 und c 2 quantifizieren. Hierzu können wir betrachten, wie groß der Anteil von c 2 an c 0 ist: r(c 0, c 2 ). Natürlich ist diese Annahme nicht korrekt, aber zur Veranschaulichung könnte man annehmen, dass die ermittelte Zahl genau den Anteil der gemeinsamen Oberklasse darstellt, der für c 2 spezifisch ist. Ermitteln wir also etwa einen Anteil 0,2 würde dies bedeuten, dass 20% der Dinge, die c 0 ausmachen durch c 2 bedingt sind. Diese möchten wir natürlich gerade nicht betrachten, wenn wir uns für die Eigenschaften von c 1 ohne die von c 2 interessieren. Unter dieser Annahme könnten wir folgern auch das ist natürlich nicht korrekt, dass nur 80% = 1 20% der commonness von c 2 betrachtet werden dürfen, wenn alles das, was das Konzept mit c 1 gemein hat, nicht betrachtet werden darf. Eine letzte Tatsache lässt sich noch in das Modell einfügen: Je weiter wir uns vom gemeinsamen Hypernym in der Taxonomie nach unten bewegen, desto geringer wird der Einfluss der Eigenschaften von c 2. Praktisch: Wenn 20% der Eigenschaften von c 0 tatsächlich von c 2 stammen, dann wird dieses Verhältnis für die Kindknoten von c 0 aufgeweicht, diese werden spezieller, der Einfluss von c 2 sinkt und dies mit jeder Ebene, die wir in der Taxonomie nach unten wandern mehr. Für f(a B) definieren wir folglich. ( ) u(c 0, c 1, c 2 ) = log (1 r(c 0, c 2 ) dist(c 1,c 0 ) commonness(c 1 ) ) commonness(root). 51

60 Kapitel 2. Semantik und semantische Ähnlichkeit Zu lesen ist die Funktion wie folgt: c 0 ist das spezifischste gemeinsame Hypernym und berechnet werden soll die Quantifikation der Information, die c 1 ohne c 2 in sich trägt. Wenn dist(c 1, c 0 ) die Distanz in Kanten zwischen den beiden Konzepten zurückgibt, dann ist 1 r(c 0, c 2 ) dist(c 1,c 0 ) der Term, der angibt wie groß der Anteil ist, der von c 1 bleibt, wenn die Anteile von c 2 abgezogen werden. Da die vorliegenden Terme darauf basieren, die commonness-werte der einzelnen Knoten ins Verhältnisse zu setzen insbesondere wird immer das Verhältnis eines Knotens zum gemeinsamen Hypernym-Knoten betrachtet, müssen drei Fälle gesondert behandelt werden. Was ist zu tun, wenn entweder c 1 oder c 2 Hypernym das jeweils anderen Konzepts ist? Offenbar funktionieren die Überlegungen nun nicht mehr gut. Nehmen wir an c 1 = c 0 sei Hypernym von c 2 offenbar ist r(c 1, c 1 ) = 1, so dass der Skalierungsfaktor die commonness von c 1 noch erhöht, was den Wert der Funktion g verringert. Dies, obwohl es ja naheliegt, dass die Gemeinsamkeiten umso größer sind, wenn ein Konzept Hypernym des anderen ist. Um dies zu umgehen, wurden verschiedene Strategien evaluiert und als beste hat sich diejenige herausgestellt, bei der die Taxonomie künstlich verändert wird. Anstatt die Gemeinsamkeiten eines Konzepts mit dem Hypernym direkt zu ermitteln, wird für die Berechnung ein synthetischer Kindknoten eingefügt, der als neuer Vergleichspartner dient. Um eine absolut unrealistische Modellierung zu verhindern etwa den Knoten als Blatt zu modellieren wird dem synthetischen Knoten die gleiche commonness zugeordnet wie seinem Vaterknoten, dem Hypernym. Natürlich handelt es sich dabei um eine streitbare Entscheidung, aber verschiedene Evaluationsläufe haben gezeigt, dass so die besten Ergebnisse erzielt werden. Damit die Verhältnisberechnung wieder funktioniert, wird die commonness des Vaterknotens und der Wurzel nun erneut berechnet. Die Berechnung der eigentlichen Ähnlichkeitswerte erfolgt dann nahezu analog zum Normalfall, wobei wir darauf verzichten die Unterschiede zwischen dem synthetischen Knoten und dessen ursprünglichen Hyponyms zu berechnen, die Rückrichtung aber schon. Schließlich bleibt der Fall, der bereits von Pirró als Spezialfall aufgefasst wurde: Was ist, wenn A und B das gleiche Konzept beschreiben? Pirró hatte hier einfach festgelegt, dass der Wert bei 1 liegen sollte. Unklar ist, warum die 1 gewählt wurde. Vermutlich liegt die Begründung in der Fehlannahme, dass das Maß einen Maximalwert von 1 erreichen kann, was jedoch schlicht nicht der Fall ist. Die Idee, dass ein Maximalwert erreicht werden sollte, wenn zwei Konzepte gleich sind, ist trotzdem nachvollziehbar. Insbesondere leuchtet dies ein, wenn die zwei untersuchten Worte gleich sind: Das Paar tiger-tiger des WordSim-353-Datensets sollte sicherlich den Maximalwert erreichen, aber was ist mit Wortpaaren, die zwar das gleiche Konzept beschreiben, aber unterschiedlich sind, etwa gem-jewel, für die sich ein und das selbe Synset in WordNet finden lässt. Die Konzepte sind laut WordNet exakt die gleichen, aber die Begriffe nicht. Bei der Evaluation zeigt sich, dass die Zuweisung eines festen Maximalwerts keine guten Ergebnisse liefert, da keine Differenzierung mehr möglich ist. Aus diesem Grund behalten wir die ursprüngliche Berechnungsidee einfach bei und ermitteln als Ähnlichkeitswert nur noch die Gemeinsamkeit commonness(c) commonness(root) als log. Der Nachteil an diesem Verfahren liegt auf der Hand. Exakt gleiche Begriffspaare höherer Ebenen der Taxonomie, etwa ein Paar entity-entity würde einen deutlich niedrigeren Wert erhalten, als ein gleiches Paar niedrigerer Ebenen. Für die betrachteten Datensets liefert dieses Verfahren dennoch die besten Ergebnisse, müsste aber bei Anwendung auf eine größere Menge an Daten sicherlich überdacht werden. 52

61 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis Insgesamt ergibt sich also für die Ähnlichkeit von c 1 zu c 2 mit dem spezifischsten gemeinsamen Hypernym c 0 die folgende Ähnlichkeitsfunktion, wobei g und u auf der modifizierten Taxonomie operieren, die wie oben beschrieben entsteht, wenn ein Konzept Hypernym des anderen ist, genauso ist c 1 beziehungsweise c 2 der einzufügende synthetische Kindknoten. log commonness(c 1) commonness(root) wenn c 1 = c 2 θ g (c 0, c 1 sim(c 0, c 1, c 2 ) =, c 2) β u (c 0, c 2, c 1 ) wenn c 1 = c 0 θ g (c 0, c 1, c 2 ) α u (c 0, c 1, c 2 ) wenn c 2 = c 0 θ g(c 0, c 1, c 2 ) α u(c 0, c 1, c 2 ) βu(c 0, c 2, c 1 ) sonst Jiang und Conrath (1997) haben an Maßen die auf gemeinsamen Informationsgehalt beruhen kritisiert, dass diese lediglich die is-a-hierarchie von WordNet verwenden würden und haben in ihrer Arbeit auf eine Idee hingewiesen, inwiefern auch andere semantische Verknüpfungen zwischen den Synsets genutzt werden könnten, um die Ergebnisse zu verbessern. Im Rahmen der Evaluation des hier entstandenen Ähnlichkeitsmaß wurde diese Idee ebenfalls in Betracht gezogen. Gerade für die Idee, Ähnlichkeiten und Unterschiede zu betrachten, drängt sich hier die Beziehung der Meronymie auf. In WordNet ist diese als part-of - oder member-of -Beziehung modelliert und es liegt nahe, sich diese für die Betrachtung der Gemeinsamkeiten zweier Konzepte näher anzuschauen. Bedauerlicherweise ist das Netzwerk dieser Beziehungen längst nicht so dicht, wie die is-a-hierarchie Tsatsaronis et al. (2010) geben etwa an, dass in der älteren Version 2 von WordNet lediglich knapp 4% der Kanten Meronymie-Beziehungen zwischen Synsets repräsentieren. Diese Tatsache führt dazu, dass die Anzahl von erfassten Meronymen für Konzepte stark schwankt. Die naheliegende Idee, den Wert für f(a B) zu erhöhen, je mehr Meronyme beide Konzepte sich teilen, musste daher verworfen werden. Um die starke Schwankung bei der Anzahl der Konzepte in der Schnittmenge der Meronyme von A und B zu relativieren, hat es sich als vorteilhaft erwiesen, nicht die Größe der Menge zu betrachten, sondern einen Durchschnittswert über alle Elemente der Schnittmenge zu berechnen. Wenn man einen Wert betrachten möchte, stellt sich natürlich die Frage, wie dieser zu quantifizieren ist. Hier bietet es sich an, die gleichen Ideen fortzuführen, die bereits für die allgemeine Berechnung genutzt wurden. Ist ein geteiltes Meronym spezieller, also sein Informationsgehalt größer, so sind die beiden Ausgangskonzepte vermutlich stärker verwandt, als bei allgemeineren Konzepten. Wir nutzen also erneut die Berechnung über die commonness der Meronyme und modifizieren die Funktion für den Ausdruck der Gemeinsamkeiten, indem wir den durchschnittlichen Informationsgehalt der geteilten Meronyme, mit M(c) der Menge der Meronyme eines Konzepts, hinzufügen: avgic mero (c 1, c 2 ) = m M(c 1 ) M(c 2 ) log g mero (c 0, c 1, c 2 ) = g(c 0, c 1, c 2 ) + γ avgic mero (c 1, c 2 ). commonness(m) commonness(root) 1 M(c 1 ) M(c 2 ) Für die Auswertung des endgültigen Maßes wurde also g durch g mero für den Fall ersetzt, dass ein Konzept nicht Hypernym des anderen ist. Außerdem wurde für den Fall, dass beide Konzepte 53

62 Kapitel 2. Semantik und semantische Ähnlichkeit gleich sind, ebenfalls der Ergänzungsterm addiert, damit die Ähnlichkeit hier mit den erhöhten Werten für die Gemeinsamkeit mit skaliert. Insgesamt entsteht die Ähnlichkeitsfunktion: log commonness(c 1) commonness(root) + γ avgic mero(c 1, c 2 ) wenn c 1 = c 2 θ g (c 0, c 1 sim mero (c 0, c 1, c 2 ) =, c 2) β u (c 0, c 2, c 1 ) wenn c 1 = c 0 θ g (c 0, c 1, c 2 ) α u (c 0, c 1, c 2 ) wenn c 2 = c 0 θ g mero (c 0, c 1, c 2 ) α u(c 0, c 1, c 2 ) βu(c 0, c 2, c 1 ) sonst. Das entstandene Maß ist offenbar stark durch das von Pirró (2009) inspiriert, auch wenn die Definitionen für Gemeinsamkeiten und Unterschiede, so wie Tversky es vorgeschlagen hat, deutlich unterschiedlich sind. Der Idee von letzterem entsprechend muss nun noch eine geeignete Gewichtung der einzelnen Parameter gefunden werden, damit diese sich möglichst dicht an der Ähnlichkeitswahrnehmung von Menschen befindet. Man könnte an dieser Stelle auch argumentieren, dass β und α für den Fall, dass ein Konzept Hypernym des anderen ist daher hier als β und α bezeichnet, nicht die gleichen Werte haben müssen wie im allgemeinen Fall, zumal wir in diesem Fall bereits die Taxonomie künstlich verändert haben, um eine Berechnung nach gleicher Art zu ermöglichen. Andererseits lässt sich anführen, dass das Einführen von zu viel experimentell bestimmten Konstanten schnell zu einer Überanpassung des Maßes an das jeweils getestete Datenset führen kann. Um die Werte dieser Parameter zu ermitteln, wurden, wie oben bereits beschrieben, die Datensets von Miller und Charles (1991), Rubenstein und Goodenough (1965) und Agirre et al. (2009) herangezogen. Für die Evaluation wurde eine Grid-Suche implementiert, die mögliche Parameter-Konstellationen zwischen 0 und 1 prüft. θ beziehungsweise θ taucht bei der Betrachtung nicht auf, da sich gezeigt hat, dass hier 1 in Kombination immer der beste Wert ist. Tabelle 2.6 zeigt die Ergebnisse der Parametersuche. Dargestellt ist pro Testset jeweils das beste Ergebnis der Pearson- und Spearman-Korrelation für verschiedene Parameter. Das Subskript mero erlaubt die Berücksichtigung von Meronymen wie oben erläutert. Für die Ergebnisse des Subskripts gesamt wurde ermittelt, wann die beste durchschnittliche Korrelation auf allen drei Datensets zustande kommt, wobei die jeweilige Korrelation mit der Größe des Datensets gewichtet wurde. Hierdurch soll vermieden werden, dass ein überdurchschnittliches Überlernen eines bestimmten Datensets stattfindet. Zu erkennen ist, dass die Berücksichtigung der Meronyme Einfluss auf die Qualität der Ergebnisse, insbesondere bei den kleineren Datensets nehmen. Ebenfalls interessant ist, dass sich zumindest für die Definition dieses Maßes die These von Tversky, dass Ähnlichkeit nicht symmetrisch wahrgenommen wird, zu bestätigen scheint. Die Werte für α sind fast ausschließlich größer als die für β, genauso für die gestrichenen Varianten. Offenbar hat die Differenz von A zu B einen größeren Einfluss auf das Ähnlichkeitsempfinden als B zu A, wobei A der jeweils erstgenannte Begriff ist. Oftmals ist β sogar 0, was darauf hindeuten könnte, dass der Unterschied zwischen den beiden Konzepten bereits durch den von α modifizierten Term hinreichend modelliert wird. Tabelle 2.7 stellt eine Zusammenfassung der erreichten Ergebnisse für die drei Datensets dar. Bei der Auswertung wurde erneut die Methode des gewichteten Durchschnitts eines jeden Datensets 54

63 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis Parameter-Werte Korrelation α β α β γ M&C Pearson 0,902 0,6 0,6 0,3 0,0 - Spearman 0,858 0,5 0,5 0,6 0,4 - Pearson mero 0,923 0,6 0,6 0,3 0,0 0,6 Spearman mero 0,876 0,6 0,0 0,6 0,4 0,6 Pearson gesamt 0,910 0,3 0,1 0,4 0,0 0,5 Spearman gesamt 0,867 0,4 0,0 0,5 0,2 0,6 R&G Pearson 0,876 0,6 0,3 0,1 0,0 - Spearman 0,814 0,4 0,0 0,6 0,3 - Pearson mero 0,888 0,6 0,2 0,1 0,0 0,6 Spearman mero 0,826 0,5 0,0 0,0 0,0 0,6 Pearson gesamt 0,880 0,3 0,1 0,4 0,0 0,5 Spearman gesamt 0,826 0,4 0,0 0,5 0,2 0,6 WS Pearson 0,696 0,4 0,0 0,5 0,1 - Spearman 0,676 0,5 0,1 0,6 0,3 - Pearson mero 0,701 0,4 0,1 0,5 0,1 0,4 Spearman mero 0,683 0,5 0,1 0,6 0,0 0,6 Pearson gesamt 0,701 0,3 0,1 0,4 0,0 0,5 Spearman gesamt 0,683 0,4 0,0 0,5 0,2 0,6 Tabelle 2.6: Ergebnisse der Parametersuche. M&C R&G WS Pearson Spearman Pearson Spearman Pearson Spearman sim, 0,889 0,844 0,869 0,809 0,695 0,675 sim, β, α 0,887 0,844 0,867 0,809 0,697 0,677 sim mero 0,911 0,861 0,881 0,820 0,700 0,681 sim mero, β, α 0,911 0,861 0,881 0,819 0,701 0,682 Tabelle 2.7: Ergebnisse der verschiedenen Auswertungsmethoden mit oder ohne Berücksichtigung des Meronym-Terms sowie eigener oder gleicher Parameter-Werte für α und β. 55

64 Kapitel 2. Semantik und semantische Ähnlichkeit gewählt, so dass eine Zeile nun ein konkretes Maß mit konkreten Werten für die Konstanten darstellt und die erreichten Ergebnisse genau dieser Konfiguration auf den drei Datensets entstammen. Die Zeile sim mero, β, α ist dabei das flexibelste Maß, das hier als Endergebnis betrachtet werden soll. Als Parameter kamen γ = 0,55, α = 0,35, β = 0,05, α = 0,4, β = 0,0 zum Einsatz. Um den berechtigten Vorwurf der Überanpassung weiter zu entkräften, sind außerdem die Varianten dargestellt, die keine separaten Werte für α und β erlauben und zu Vergleichszwecken die Ergebnisse des Maßes ohne Betrachtung der Meronyme. Während der Unterschied zwischen der Variante mit α = α beziehungsweise β = β und derjenigen mit separat optimierten Werten marginal ist, fällt bei den kleineren Datensets die Diskrepanz bei der Nicht-Beachtung der Meronyme deutlicher ins Gewicht. Betrachtet man die Ergebnisse, zeigt sich unabhängig von einem Vergleich mit anderen Ähnlichkeitsmaßen ein sehr gutes Ergebnis mit Korrelationen, die sich sehr dicht an den Werten bewegen, die bei den Experimenten oder ihren Reproduktionen als inter-annotator agreement angegeben wurden (vgl. Abschnitt 2.2). Vergleicht man die erreichten Werte nun mit denen der in der Literatur vorgestellten Maße mit der gleichen Wissensbasis, wie bereits in Tabelle 2.5 dargestellt, ist außerdem zu erkennen, dass das hier definierte Maß auf jedem Datenset und in jeder Art von Korrelation die höchsten und damit besten Ergebnisse erreicht. Auch wenn dies der Fall ist, sollte trotzdem angemerkt werden, dass die Ergebnisse nicht signifikant von denen der übrigen Maße abweichen 30. Insgesamt wurde also ein Maß geschaffen, das sich grob an der intrinsischen Berechnung des Informationsgehalts für Konzepte nach Sánchez und Batet (2012) orientiert und die Idee von Pirró (2009) für ein Ähnlichkeitsmaß reinterpretiert ohne die theoretische Grundlage von Tversky (1977) hierfür zu verwerfen. Obwohl die Ergebnisse überzeugen, muss die Gesamtqualität des Maßes dennoch kritisch betrachtet werden. Wie bereits im Abschnitt zu den einzelnen Datensets beschrieben wurde, kann man insbesondere auf Grund der geringen Größe keine Pauschalaussagen dazu treffen, ob das vorgestellte Maß tatsächlich generell besser, im Sinne von besserer Modellierung der menschlichen Ähnlichkeitswahrnehmung, ist oder lediglich für die spezielle Auswahl der hier betrachteten Begriffspaare eine bessere Leistung zeigt. Trotz dieser Tatsache bleibt zusammenfassend zu bemerken, dass das Maß, insbesondere im Vergleich mit den von Sánchez und Batet (2012) publizierten Werten, die beste dem Autor bekannte Leistung für die betrachteten Datensets bei Verwendung eines Maßes in der Klasse derer, die auf Basis des gemeinsamen Informationsgehalts operieren, liefert Maße auf Basis von Glossen Eigentlich passt die Kategorie der Maße, die auf Glossen basieren, nicht so recht in den Abschnitt derer, deren Wissensgrundlage ein semantisches Netzwerk ist. WordNet etwa enthält neben der semantischen Struktur zu jedem Synset eine kurze Erklärung, also die Glosse, die das jeweilige Konzept beschreibt. Ein Algorithmus, der sich diese Glossen zunutze macht, wurde bereits in Abschnitt beschreiben. Lesk (1986) hatte die Glossen verwendet, um die (Wort-)Schnittmenge 30 Zum Test der Signifikanz wurden die Koeffizienten Fischer-z-transformiert und die entstandenen Werte verglichen (vgl. Bosch (1998)). 56

65 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis der Glossen zweier Begriffe für ein Ähnlichkeitsmaß zu nutzen. Während seine Grundlage ein klassisches Wörterbuch war, haben Banerjee und Pedersen (2002) diese Idee für WordNet aufgegriffen. Genau wie Lesk haben sich die Autoren eigentlich nicht speziell mit einem Maß semantischer Ähnlichkeit beschäftigt, sondern waren an der Lesartdisambiguierung eines Begriffs interessiert. Für ein bestimmtes Wort in einem Kontext sollte ermittelt werden, welches der möglichen Konzepte gemeint ist. Als Beispiel nennen die Autoren den Begriff interest, der für das Interesse an einer Sache, in anderem Kontext aber für den Begriff der Zinsen stehen kann. Für einen gegebenen Kontext um den Begriff wie etwa I have an interest in the fine arts. hatte Lesk paarweise für alle möglichen Wortbedeutungen des Begriffs und alle Wortbedeutungen der umliegenden content-worte, hier also arts und fine, die Größe der Schnittmenge bestimmt, um festzustellen, welche Bedeutung die korrekte ist. Banerjee und Pedersen gehen etwas anders vor. Anstatt nur das zu disambiguierende Wort mit allen anderen Worten in dessen Kontext zu betrachten, gehen sie vom gesamten Kontext aus. In diesem werden alle content-begriffe gewählt, hier also interest, f ine, arts. Für diese Menge wird nun das Kreuzprodukt der möglichen Wortbedeutungen gebildet. Bevor aber die Glossen einer dieser Kombinationen paarweise miteinander verglichen werden, kommt das Wissen, das im semantischen Netzwerk von WordNet kodiert ist, ins Spiel. Anstatt nur die Glossen der möglichen Wortbedeutungen miteinander zu vergleichen, werden außerdem alle semantisch verknüpften Synsets für beide Begriffe betrachtet und das Kreuzprodukt der Glossen dieser verglichen. Für jeweils zwei Glossen werden dann übereinstimmende Sequenzen von Wortfolgen, also nicht einfach nur der Durchschnitt, identifiziert deren Längen quadriert und dann summiert. Das Paar mit dem maximalen Wert wird schließlich gewählt. Auf diese Weise werden auch auf ein Konzept bezogene, also ähnliche, Begriffe in Betracht gezogen. Ist das Maximum für alle Paare bestimmt, werden diese aufsummiert und als Wert für dieses eine Element des ursprünglichen Kreuzprodukts notiert. Am Ende gewinnt das Element mit dem größten Wert und für das betreffende Wort wird die Bedeutung gewählt, die Teil der Berechnung war. Für Anwendungen semantischer Ähnlichkeit kann dies auf zweierlei Art interessant sein. Zunächst könnte die Ermittlung der konkreten Wortbedeutung als Schritt vor die Berechnung der Ähnlichkeit geschaltet werden. Die meisten Maße fallen ja darauf zurück, bei der Ermittlung der Ähnlichkeit zweier Begriffe ebenfalls das Kreuzprodukt aller möglichen Bedeutungen zu betrachten und als konkreten Wert das Maximum zurückzuliefern. Wäre aber im Vorhinein bekannt, welche Bedeutung gemeint ist, könnte dies zu einer Verbesserung führen. Auf der anderen Seite könnte man versuchen, ein neues, kontextsensitives Ähnlichkeitsmaß auf Basis dieser Überlegungen zu definieren. Eines der Hauptprobleme, das bereits im Kontext der Wörterbuch-basierten Ansätze beschrieben wurde, ist, dass die Glossen sowohl in WordNet als auch in Wörterbüchern relativ kurz sind und folglich Maße, die darauf basieren Schnittmengen von Begriffen zu bilden, schnell scheitern. Gurevych (2005) hat sich aus diesem Grund damit beschäftigt, wie sich mit Hilfe eines semantischen Netzwerks so genannte Pseudoglossen generieren lassen. Die grundlegende Idee dahinter ist die Tatsache, dass die menschlichen Autoren, die die echten Glossen verfasst haben, dies auf Grund des Wissens um die Funktion, die Allgemeinheit, das Spezielle und den Kontext (vgl. Gurevych (2005)) getan haben. Genau diese Informationen seien aber bereits im semantischen Netzwerk kodiert, so dass es nahe liegt, die Struktur dieses auszunutzen, um eine künstliche Glosse zu generieren. Diesem Ansatz folgend schlägt die Autorin ein Verfahren vor, 57

66 Kapitel 2. Semantik und semantische Ähnlichkeit bei dem ausgehend von einem Begriff die verschiedenen semantischen Verknüpfungen verfolgt und die zugehörigen Worte zu einer solchen Pseudoglosse konkateniert werden. Bei der Evaluation wurde dieses Mal nicht WordNet, sondern das deutsche Gegenstück GermaNet (Hamp und Feldweg, 1997) herangezogen, das einen analogen Aufbau aufweist, jedoch selbst keine Glossen enthält. Folgt man den semantischen Verknüpfungen etwa für den Begriff Bursche, lässt sich die Pseudoglosse junger Mensch, Erwachsener, Bursche, Bub, Junge, Knabe, Bube, Kind, Jüngling erzeugen. Um zu überprüfen, inwiefern dieses Verfahren für die Berechnung semantischer Ähnlichkeit genutzt werden kann, wurde das Datenset von Rubenstein und Goodenough (1965) ins Deutsche übertragen und erneut von Testpersonen bewertet. Als eigentliches Ähnlichkeitsmaß hat die Autorin das Maß von Lesk (1986) herangezogen, dabei aber eben die Schnittmenge der Pseudoglossen berechnet. Im Ergebnis ist festzustellen, dass die Korrelation mit den menschlichen Probanden stark davon beeinflusst ist, welche Parameter für die Erzeugung der Pseudoglossen verwendet werden. Die Arbeit kommt zu dem Schluss, dass solche, die ausschließlich auf den Hypernymen der Konzepte basieren, die besten Ergebnisse liefern, in diesem Fall eine Korrelation von r = 0,668 auf dem bestreffenden Datenset. Da für selbiges eine theoretische Obergrenze von r = 0,810 als inter-annotator agreement ermittelt wurde, können die Ergebnisse nicht richtig überzeugen. Eventuell wäre es interessant, zu überprüfen inwiefern das Verfahren besser wird, wenn das Maß von Lesk durch das oben beschriebene von Banerjee und Pedersen ersetzt würde Vektor-basierte Maße Betrachtet man Übersichts-Literatur zum Thema semantischer Ähnlichkeit auf Basis von Word- Net, etwa Zesch und Gurevych (2010) oder Zhang et al. (2012), findet man häufig eine eigene Klasse von Ähnlichkeitsmaßen, die auf Vektoren, oft auch concept vectors genannt, basieren. Die Idee dabei ist, ein Konzept als einen Vektor von Eigenschaften darzustellen und diese dann miteinander zu vergleichen. Diese Art der Maße bieten oft eine außergewöhnlich gute Leistung, was Patwardhan und Pedersen (2006) beispielsweise damit begründen, dass die Repräsentation eines Konzepts mit Hilfe von Vektoren derer des menschlichen Verstandes am nähesten käme. Trotzdem sollen die Vektor-basierten Maße an dieser Stelle nicht beschrieben werden, denn auch wenn die Literatur oft versucht eine Trennung von Maßen vorzunehmen, die auf gemeinsamen Worthäufigkeiten in einem (unstrukturierten) Textcorpus basieren und solchen, die auf einer wohlstrukturieren Wissenbasis wie WordNet aufbauen, basiert die große Mehrheit dieser Maße doch auf genau der Idee, die in Abschnitt 2.4 beschrieben wird: Systematische Auswertung gemeinsamer Häufigkeits- und Verteilungsstatistiken. Aus diesem Grund wird die entsprechende Literatur in eben diesem Abschnitt besprochen. Maße, die in besonderer Weise auf die Struktur eines semantischen Netzwerks wie WordNet zurückgreifen sind insbesondere in Abschnitt erwähnt Wikipedia, Wiktionary und andere Wissensbasen Nicht ganz scharf in den Bereich der strukturierten, linguistischen Wissensbasen passend, aber dennoch interessant sind diejenigen, die im Rahmen der Web 2.0-Bewegung entstanden sind. 58

67 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis Besonders hervorzuheben ist hier sicherlich Wikipedia 31. Hierbei handelt es sich um eine kostenlos zugängliche Enzyklopädie, die in den verschiedensten Sprachen verfügbar ist, kollaborativ erstellt wurde und kontinuierlich gepflegt und erweitert wird. Zum Zeitpunkt des Verfassens dieser Arbeit umfasste die englische Version über vier Millionen Artikel, die deutsche über anderthalb Millonen. Dass diese Form von Wissensbasis nicht ganz in diesen Abschnitt passt, liegt vor allem daran, dass sich Wikipedia als klassisches Lexikon nicht speziell mit Worten, Begriffen, Konzepten und ihrer Beziehung zueinander befasst, sondern vielmehr mit der Erklärung von abstrakt Dingen. Zudem ist ihrer kollaborativen Natur auch das zumindest größtenteils Fehlen des Wissens professioneller Linguisten geschuldet. Trotzdem haben sich verschiedene Autoren damit befasst, inwiefern eine Quelle wie Wikipedia genutzt werden kann, um Wissensbasis eines semantischen Ähnlichkeitsmaßes zu sein. Zesch und Gurevych (2007) haben sich beispielsweise damit beschäftigt, wie sich der Aufbau von Wikipedia mit dem eines semantischen Netzwerks wie WordNet (vgl. vorheriger Abschnitt) vergleichen lässt. Die Enzyklopädie besteht aus Seiten, die unter einem bestimmten Begriff (also etwa dem Namen eines Konzept) zu finden sind. Die Seiten sind je nach Kategorie nach einem bestimmten Muster aufgebaut, deren Einhaltung aber nicht erzwungen wird, sondern lediglich von der Community überwacht. So findet sich meist zuerst ein kurzer Absatz, der erklärt worum es sich bei dem entsprechenden Konzept handelt, worauf in relativ formfreien Gruppen von Überschriften bestimmte Aspekte dieses Konzepts näher erläutert werden. Abbildung 2.8: Die Artikelseite zum Begriff gem der englischen Wikipedia, abgerufen am Ein Beispiel ist in Abbildung 2.8 für den Begriff gem dargestellt. Zu sehen ist besagte kurze Erklärung, das Inhaltsverzeichnis der weiteren Überschriften sowie der erste zugehörige Abschnitt, arts and entertainment, der weiterführendes Material zu relevanten anderen Seiten aufzeigt. Wie zu sehen ist, verlinkt also jede Seite auf eine Vielzahl anderer Seiten, woraus sich eine Graphstruktur ergibt, die den so genannten article graph bildet. Jeder Artikel ist darin ein Knoten mit ein- und ausgehenden Kanten zu den verlinkten Artikeln. Zesch und Gurevych waren aber mehr an einer Sekundärstruktur interessiert, die ebenfalls in Wikipedia vorhanden ist, dem category 31 abgerufen am

68 Kapitel 2. Semantik und semantische Ähnlichkeit graph. Zusätzlich zu den Links auf andere ist jeder Artikel in Wikipedia einer oder mehrerer Kategorien zugeordnet. Die Kategorien selbst beschreiben abstraktere Konzepte und in den seltensten Fällen so etwas Konkretes wie ein Synset in WordNet. Trotzdem ist die Struktur ähnlich. Jede Kategorie kann eine beliebige Anzahl von Unterkategorien enthalten, die meist entstehen (vgl. Zesch und Gurevych (2007)), wenn zwischen ihnen eine Hyponymie- oder Meronymie-Beziehung vorherrscht. Der Graph ähnelt also der is-a-taxonomie von WordNet, auch wenn die Autoren angeben, dass die von ihnen untersuchte Variante nur zu 99,8% zusammenhängend war und 7 Zyklen enthielt. Da der Kategorie-Graph keine ausreichende Abdeckung allgemeiner Begriffe liefert denn diese befinden sich ja quasi als Instanzen untergeordnet stellen die Autoren in einer späteren Arbeit (Zesch und Gurevych, 2010) ein Verfahren vor, über das vorhandene Maße, die für WordNet definiert worden sind, auf den Kategorie-Graph übertragbar werden. Im Grunde gehen sie dabei so vor, dass zunächst alle relevanten Artikel für zwei Begriffe gesucht werden. Zu jedem daraus entstandenen Paar werden dann alle Kategorien zu denen sie gehören ermittelt. Für alle entstandenen Kategoriepaare wird schließlich anhand des Kategorie-Graphen ein Ähnlichkeitsmaß ausgewertet, wobei das Paar mit dem maximalen Wert als Bewertung für das Artikelpaar zurückgeliefert wird. Von den so bewerteten Artikelpaaren gewinnt ebenfalls das mit dem maximalen Ähnlichkeitswert. Mit dieser Form der Abbildung zweier Begriffe auf den Kategorie-Graphen können im Grunde alle Maße, die zuvor für WordNet definiert waren, auf Wikipedia übertragen werden. In ihrer Auswertung, bei der eine Vielzahl an Maßen unter anderem auch der Großteil der in Abschnitt besprochenen untersucht wurde, stellen die Autoren fest, dass je nach Testset eine ähnliche Qualität zu erreichen ist wie mit Hilfe von WordNet als Wissensbasis. So liegt WordNet zum Beispiel beim Datenset von Miller und Charles (1991) und Rubenstein und Goodenough (1965) vorne die Wikipedia-basierten Maße erreichen hier nur ρ = 0,67 sowie ρ = 0,75, wird bei den beiden Teilen von WordSim-353 jedoch mit ρ = 0,69 und ρ = 0,51 übertroffen. Je nachdem von welcher Seite man argumentiert, lässt sich also sagen, dass die Datenbasen, die von Experten erstellt wurden, nicht unbedingt jenen, die kollaborativ entstanden sind, überlegen sind. Insgesamt ist dies ein positives Ergebnis, da es für viele Sprachen oft keine so stark entwickelten semantischen Netze wie WordNet gibt, vielleicht aber eine hinreichend gute Version von Wikipedia, die es ermöglicht, die vorgestellten Maße auch auf diese Sprachen zu übertragen (Zesch und Gurevych, 2007). Im Rahmen der Wikipedia-Initiative existiert eine weitere Datenquelle, die als Basis semantischer Ähnlichkeitsmaße herangezogen werden kann: Wiktionary 32. Dem gleichen kollaborativen Grundgedanken von Wikipedia folgend handelt es sich dabei um ein Wörterbuch, das von einer offenen Community gepflegt wird. Für jeden erfassten Begriff gibt es hier ebenfalls eine Seite, die zwar einem bestimmten Schema folgen sollte, aber da dies lediglich durch die Community kontrolliert wird und historische Schemata unter Umständen nicht zeitnah aktualisiert werden, liegen die Daten nicht immer in einer einheitlichen Form vor. Im Allgemeinen weist eine Begriffsseite aber Abschnitte für jede Wortart auf und dazu für jeden möglichen Wortsinn eine Disambiguierung, meist auch mit Hilfe einer kurzen Glosse. Bemerkenswert ist, dass viele Begriffe außerdem 32 abgerufen am

69 2.3. Maße auf Grundlage einer strukturierten (linguistischen) Wissensbasis über typisierte semantische Verknüpfungen mit anderen Begriffen verlinkt sind. Für einige gibt es zudem eine mit dem Begriff Wikisaurus gekennzeichnete Seite, die quasi der Sammlung semantischer Beziehungen eines Synsets entspricht. Abbildung 2.9 zeigt ein Beispiel für den Begriff gemstone, wobei zunächst der Wortsinn erläutert ist, danach folgen die Mitglieder des Synsets, wenn man so möchte, und darauf eine Menge von semantisch verknüpften Konzepten, in diesem Fall die erfassten Hyponyme. Abbildung 2.9: Der (gekürzte) Eintrag im Wikisaurus zum Begriff gemstone, abgerufen am Zesch et al. (2008) haben sich in ihrer Arbeit damit beschäftigt, wie sich diese Ressource für semantische Ähnlichkeit nutzbar machen lässt. In ihrer Arbeit haben sie hierzu verschiedene Datenbasen wie WordNet, aber auch Wikipedia, mit Wiktionary verglichen. Grundlage ihrer Tests waren zwei Maße, wobei eines auf dem kürzesten Weg im Netzwerk (vgl. die Idee von Resnik (1995) in Abschnitt ) und eines auf einer vektoriellen Darstellung von Konzepten basierte (vgl. Abschnitt ). Für das sehr einfache Pfad-Modell stellen sie zwar eine signifikante Korrelation mit menschlichen Ähnlichkeitsurteilen fest, jedoch liefert Wiktionary als Wissensbasis deutlich schlechtere Ergebnisse als WordNet. Für ihr vektorielles Maß, das auf Pseudo-Glossen basiert (vgl. Abschnitt ), konnten sie jedoch zeigen, dass die erreichten Werte auf nahezu allen Testsets höher liegen als bei Nutzung des gleichen Maßes mit WordNet als Grundlage. Sie fassen also zusammen, dass sich Wiktionary durchaus als Alternative zu WordNet anbietet und genau wie Wikipedia insbesondere dann eine hervorragende Ressource sein kann, wenn für die betrachtete Sprache kein hinreichend entwickeltes semantisches Netzwerk vorliegt. Da einer der großen Vorteile bei der Nutzung dieser kollaborativen Wissensbasen die Tatsache genannt wird, dass diese in verschiedenen Sprachen vorliegen, soll an dieser Stelle noch kurz Erwähnung finden, dass es natürlich auch für andere Sprachen als Englisch von Experten erstellte und gepflegte semantische Wortnetze gibt. Gerade oben vielzitierter Zesch hat mit seinen Kollegen viel im Bereich semantischer Ähnlichkeitsmaße für die deutsche Sprache gearbeitet und dabei oft das deutsche Pendant zu WordNet, GermaNet 33 (Hamp und Feldweg, 1997), herangezogen. Dabei handelt es sich um ein an WordNet orientiertes, aber eigenständig entwickeltes semantisches Netzwerk, das auf Grund seines analogen Aufbaus die gleichen Ideen semantischer Ähnlichkeitsmaße unterstützt wie WordNet. Zesch und Gurevych (2010) bieten eine detaillierte Übersicht über Ergebnisse bei der Anwendung mit GermaNet als Grundlage und deutschsprachigen Testsets für die Auswertung. Eine weiterführende Einführung in den Aufbau und die Struktur von GermaNet bieten auch Kunze und Lemnitzer (2007). In eben dieser Arbeit finden sich auch 33 GermaNet wird von der Universität Tübingen unter shtml gepflegt. Abgerufen am

70 Kapitel 2. Semantik und semantische Ähnlichkeit Beschreibungen semantischer Netzwerke für andere Sprachen. Eine Initiative hierzu war EuroWordNet 34, ein Projekt, das bis 1999 lief und dessen Ziel es war, verschiedensprachige semantische Netzwerke nach Art von WordNet so miteinander zu verbinden, dass ein multilinguales semantisches Netzwerk entsteht. Ein weiterführendes Projekt ist die Global WordNet Association 35, auf deren Internetseite sich auch ein detailliertes Verzeichnis von Projekten verschiedenster Sprachen in diesem Bereich findet Zusammenfassung In den vorherigen Abschnitten wurden semantische Ähnlichkeitsmaße vorgestellt, die auf einer strukturierten, meist von professionellen Experten zusammengestellten Wissensbasis definiert wurden. Dabei wurden Maße beschrieben, die auf einfachen Wörterbüchern, indizierten Thesauri und semantischen Netzwerken basieren. Fasst man die Ergebnisse zusammen, lässt sich festhalten, dass sich ein Großteil der Forschung mit der Nutzung von Quellen mit komplex annotierten Verknüpfungen in einem semantischen Netzwerk befasst im Bereich der englischen Sprache vorwiegend mit WordNet. In diesem Rahmen ist anzumerken, dass aus diesen Arbeiten wiederum die meistbeachtete Wortart die der Substantive ist, beziehungsweise die Hypernym/Hyponym- Hierarchie in WordNet. Vermutlich ist dies der Tatsache geschuldet, dass sich für diese Begriffe ein leichter nachvollziehbarer Ähnlichkeitsbegriff definieren lässt. Insbesondere für physisch existente, also konkrete, Konzepte scheint es intuitiv einfacher, zu bestimmen wann zwei dieser etwas miteinander zu tun haben oder im strengeren Sinne sogar bedeutungsähnlich sind. Auf der anderen Seite hängt der Fokus auf die Substantive sicherlich damit zusammen, dass die historisch vorherrschenden Testsets, insbesondere Miller und Charles (1991) und Rubenstein und Goodenough (1965), trotz ihrer Mängel immer noch als Messlatte der Qualität semantischer Ähnlichkeitsmaße gelten. Zudem orientieren sich diese Tests eher an der strengeren Bedeutungsähnlichkeit, die sich mit der ebenfalls strengeren is-a-hierarchie in WordNet besser modellieren lässt. Fasst man die Ergebnisse der Forschungsarbeiten zusammen, lässt sich sagen, dass Maße des aktuellen Stands der Forschung auf den betrachteten Testsets oft eine Qualität liefern, die sehr dicht an den theoretischen Obergrenzen für die Testsets liegen. Für die betrachteten Beispiele liefern sie also annähernd menschliche Urteile und dies sogar auf Stufe 5 der Kriterien für ein semantisches Ähnlichkeitsmaß, also linear korrelierend. Trotzdem sollten diese Ergebnisse nicht kritiklos hingenommen werden. Kaplan und Schubert (2001) argumentieren in ihrer Arbeit etwa, dass insbesondere WordNet keine stringente Taxonomie sei. Sie monieren, dass die Semantik der Hyponymie-Relation oft keine Spezialisierung/Generalisierung beschreiben würde, sondern vielmehr Beispiele für Instanzen liefert obwohl hierfür eigentlich eine eigene Verknüpfungsart vorgesehen ist. Weitere Kritikpunkte sind nicht nachvollziehbare Regeln bei der Nutzung von Mehrfachvererbung, die Vermischung von Bedeutungen, 34 Informationen zu EuroWordNet sind unter abrufbar. Abgerufen am abgerufen am abgerufen am

71 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken die ein Synset beschreibt und ein Mangel an Spezifität bei den abstrakten Konzepten der oberen Ebenen. In den obigen Abschnitten wurde zudem bereits erwähnt, dass Verknüpfungen, die sich außerhalb der is-a-hierarchie befinden, etwa Meronymie, extrem dünn gesät sind. Die Tatsache macht es schwierig ein Maß zu definieren, dass semantische Ähnlichkeit im weiteren Sinne modelliert, insbesondere auch weil kaum ein Maß auf die Strukturen, nach denen Adjektive oder Verben miteinander verknüpft sind, übertragbar ist. Schließlich ist den Maßen, die auf einer von Experten zusammengestellten Wissensbasis aufbauen, inhärent, dass diese wegen des großen Aufwands bei der Erstellung stets der Zeit hinterherhinken. Für den allgemeinen Wortschatz ist das vermutlich nicht sehr dramatisch, aber insbesondere Eigennamen, also named entities, sind und können im Rahmen einer solchen Quelle kaum erfasst sein. WordNet weist etwa Michael Jackson als Instanz von singer aus, aber wann oder ob ein Künstler neuerer Zeit, etwa jemand wie Lady Gaga, in das Netzwerk eingepflegt wird, ist fraglich. 2.4 Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Eadem sunt quorum unum potest substitui alteri salva veritate. Jene sind dieselben, von denen das Eine für das Andere substituiert werden kann, wobei die Wahrheit erhalten bleibt. Die oben dargestellte oft angeführte Grundidee, die den zweiten großen Forschungszweig im Bereich der semantischen Ähnlichkeit motiviert, stammt von Leibniz (2000). Die Aussage bezieht sich allerdings eher auf die allgemeine Logik, auch wenn sie leicht auf die Begrifflichkeiten der Wortähnlichkeiten bezogen werden kann. Für eine gegebene Aussage natürlichsprachlichen Textes gelten zwei Begriffe für diesen Kontext als Synonym, wenn sich diese beliebig austauschen lassen, ohne die Aussage selbst beziehungsweise den Wahrheitsgehalt der Aussage zu verändern. Als absolut synonym gelten sie, wenn sie in jedem Kontext austauschbar sind. Generell ist diese Aussage nichts Spezielles für die Form von semantischer Ähnlichkeitsberechnung um die es in diesem Abschnitt gehen soll, deutet aber durch seine Betonung des Kontexts als Ähnlichkeitskriterium auf die Berechnungsgrundlage hin. Mehr auf Anwendungen bezüglich Text und Sprache bezogen sind die Aussagen von Firth (1957), You shall know a word by the company it keeps 37, und Harris (1954), If we consider words or morphemes A and B to be more different in meaning than A and C, then we will often find that the distributions of A and B are more different than the distributions of A and C. 38. Offenbar geht es um die Kontexte eines beziehungsweise mehrere Begriffe, die dazu verwendet werden sollen, die Bedeutung eines Wortes zu ermitteln. Anders als bei den Maßen auf Grundlage einer strukturierten, meist von Experten zusammengestellten Wissensbasis, wie etwa WordNet (siehe Abschnitt 2.3.3), basieren die Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken lediglich auf einem Corpus und einem 37 Frei übersetzt etwa: Begreife die Bedeutung eines Wortes durch die Worte in dessen Kontext. 38 Wenn die Morpheme A und B bedeutungsfremder sind als die Morpheme A und C, dann werden wir oft sehen, dass die Verteilung [der Kontexte] von A und B verschiedener sind, als die von A und C. (Vom Autor übersetzt.) 63

72 Kapitel 2. Semantik und semantische Ähnlichkeit mathematischen Modell, das Wissen aus dessen Inhalt extrahieren soll. Grundlage dieser Idee ist die Tatsache, dass schon Kinder in der Lage sind, Repräsentationen von Worten oder Konzepten mit Hilfe der Kontexte, in denen sie ihnen begegnen, erschließen können (Bullinaria und Levy, 2007). Für die Form von Lernen ist keine formale Definition eines unbekannten Begriffs notwendig, lediglich ein Fluss von Text oder natürlicher Sprache. Die Idee liegt nahe, dass dies mit der oben beschriebenen Tatsache zusammenhängt: Begriffe, die in ähnlichen Kontexten auftreten, sind vermutlich semantisch ähnlich. Ach bei Erwachsenen lässt sich dieses Phänomen beobachten, wenn diese einen Text in einer Sprache lesen, in der sie nicht geübt sind. Erfassen sie ein unbekanntes Wort, wird dessen Sinn aus dem Kontext heraus erfasst, nur selten muss hierzu ein Wörterbuch herangezogen werden. Wie kann diese Tatsache genutzt werden, um ein Maß semantischer Ähnlichkeit zu definieren? Clark (2012) motiviert die Ideen hinter dieser Technik auf Basis eines Anwendungsproblems: Information Retrieval, Informationsbeschaffung. Das Problem beschäftigt die meisten Menschen täglich. Zu einer gegebenen Menge von Begriffen, einer Query, sollen diejenigen Webseiten gefunden werden, die für diese die größte Relevanz haben, also die Informationen erhalten, die gesucht werden. Analog zu der Frage, wie ähnlich sich zwei Begriffe oder Konzepte sind, wird hier also nach der Ähnlichkeit einer Menge von Begriffen, der Query, zu einer anderen Menge von Begriffen, den gesuchten Dokumenten oder Webseiten gefragt. Natürlich ist die Auffassung eines Dokuments als sogenannter bag of words, also einer Menge von Worten, ohne ihre Reihenfolge zu beachten, eine starke Vereinfachung, aber quasi das Modell, das Grundlage vieler moderner Sucharchitekturen ist. Das SMART information retrieval system von Salton et al. (1975), hat sich diese Ähnlichkeitsbeziehung zur Informationsbeschaffung zunutze gemacht und damit sehr gute Ergebnisse erzielen können. Grundlage des Systems ist eine vektorielle Darstellung von Dokumenten und eine analoge Darstellung von Queries als Pseudo-Dokumente. Dokument d 1 39 : Die Abgeordneten des Deutschen Bundestages werden in allgemeiner, unmittelbarer, freier, gleicher und geheimer Wahl gewählt. Dokument d 2 39 : Der Bundestag tritt spätestens am dreißigsten Tage nach der Wahl zusammen. Betrachten wir die beiden oben dargestellten Dokumente, werden diese nun als Vektoren dargestellt. Der Vektorraum aller Dokumente hat dabei genau so viele Dimensionen wie es verschiedene Begriffe gibt. Aus Gründen der Übersicht sollen hier nur die folgenden Begriffe betrachtet werden, die jeweils auf eine Grundform abgebildet wurden: Abgeordneter, Deutsch, Bundestag, werden, allgemein, unmittelbar, frei, gleich, geheim, Wahl, wählen, treten, spätestens, dreißig, Tag, zusammen. Sind dies die Dimensionen lassen sich die Dokumente als Vektoren darstellen: v 1 = 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, v 2 = 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1. Die Vektor-Koeffizienten sind dabei zum Beispiel die Häufigkeiten mit denen ein Begriff im 39 Aus dem Deutschen Grundgesetz, Artikel 38 (1) und Artikel 39 (2). 64

73 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Dokument auftaucht. Aus Gründen der Übersichtlichkeit wurde an dieser Stelle ein einfaches Beispiel verwendet. Eine Query lässt sich nun ebenfalls als Vektor dieses Raumes darstellen, etwa bei der Suche nach Bundestag Wahl als q 1 = 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0. Um nun festzustellen, welche Dokumente die relevanten Informationen für diese Anfrage enthalten könnte beispielsweise ein einfaches Produkt der Vektoren gebildet werden: v q = i v i q i, also hier v 1 q 1 = 2, v 2 q 1 = 1. Die Ähnlichkeit der Query mit den beiden Dokumenten wäre in diesem Fall jeweils 2, da beide in der Dimension für beide Suchbegriffe den Wert 1 tragen. Das Beispiel lässt sich beliebig komplexer gestalten, denn verschiedene Verbesserungen liegen hier relativ offensichtlich auf der Hand. So ist etwa das Produkt der Vektoren kein besonders gutes Ähnlichkeitsmaß, da es die Länge der Dokumente nicht berücksichtigt, genauso lässt sich schnell feststellen, dass bestimmte Begriffe vermutlich mehr zur Ähnlichkeit beitragen sollten (etwa Eigennamen und Substantive) als andere (etwa die bereits aus Übersichtlichkeitsgründen ausgelassenen Artikel und Konjunktionen). Wie lässt sich dieses Modell für die Berechnung der semantischen Ähnlichkeit von Begriffen nutzen? Eine Möglichkeit der Darstellung ist die der Begriffs-Dokument-Matrix. Oben sind die beiden Dokumente bereits als Zeilenvektoren untereinander aufgeschrieben, die einzelnen Spalten repräsentieren dabei die Begriffe. Betrachtet man dies als Matrix, kann man diese transponieren und gelangt damit eben zur term-document matrix: d 1 d 2 Abgeordneter 1 0 Deutsch 1 0 Bundestag 1 1 werden 1 0 allgemein 1 0 unmittelbar 1 0 frei 1 0 gleich 1 0 Wahl 1 1 wählen 1 0 treten 0 1 spätestens 0 1 dreißig 0 1 Tag 0 1 zusammen 0 1 Für das obige Beispiel gilt nun nichts anderes als vorher: Sind sich die Spalten-Vektoren über wie ein auch immer geartetes Maß ähnlich, so ist es wahrscheinlich, dass sich die Dokumente ähnlich sind. Turney et al. (2010) fassen dies, ebenfalls unter Bezugnahme auf Salton et al., als bag of words hypothesis zusammen: Die Häufigkeiten von auftretenden Begriffen sind ein Indikator für die Relevanz eines Dokuments zu einer Abfrage. 65

74 Kapitel 2. Semantik und semantische Ähnlichkeit Aus dieser Hypothese lässt sich nun direkt die zweite, für diese Arbeit interessantere, ableiten. Die distributional hypothesis: Begriffe, die im gleichen Kontext auftreten, haben oft eine ähnliche Bedeutung. Hier schließt sich direkt die Frage an, was als Kontext zu bezeichnen ist (vgl. Abschnitt 2.4.4). Betrachten wir einmal ein Dokument als Kontext, dann eröffnet sich direkt die Möglichkeit analog zum Beispiel oben nicht die Spalten-, sondern die Zeilenvektoren miteinander zu vergleichen. Haben zwei Begriffe in der gleichen Spalte einen hohen (oder zumindest von 0 verschiedenen) Wert, tauchen diese im gleichen Kontext auf. Offenbar lässt sich der Zeilenvektor eines Begriffs als semantische Repräsentation auffassen, Mohammad und Hirst (2012) nennen dies lexical distributional profile. Das obige Beispiel ist natürlich etwas kurz, aber die Idee lässt sich trotzdem nachvollziehen. Besonders ähnlich sind sich oben die Begriffe Bundestag und Wahl, da sie in beiden Kontexten (also Dokumenten) auftreten. Offenbar wird diese Form von Ähnlichkeitsbetrachtung differenzierter, je mehr Dokumente in der Matrixrepräsentation verzeichnet sind. Bevor in den folgenden Abschnitten die verschiedenen Möglichkeiten auf Grundlage dieser Idee, die Ähnlichkeit zwischen Begriffen zu bestimmen, besprochen werden, soll erneut auf die Definitionen von semantischer Ähnlichkeit eingegangen werden. Während die Maße auf Grundlage der strukturierten Wissensbasen meist explizit die klassischen Ähnlichkeiten, die auch als Bedeutungsähnlichkeiten bezeichnet wurden, gemessen haben, also im Wesentlichen Synonymie, und Hypo-/Hypernymie, lässt sich durch geschickte Wahl der Parameter bei den Maßen, die auf co-occurrences, also gemeinsamer Auftretenshäufigkeit, basieren, Verschiedenes erreichen. Weeds (2003) führt in diesem Rahmen die Arbeit von Grefenstette (1994) an, der drei Ebenen von Ähnlichkeiten bennent, die sich betrachten lassen. In der ersten Ebene betrachtet man, wie häufig zwei Begriffe in ihrem gegenseitigen Kontext gemeinsam auftreten. Fasst man den Begriff des Kontexts etwas enger, also etwa der Frage, wie oft zwei Worte gemeinsam in einem Satz auftauchen. Turney et al. (2010) nennen diese Form von Ähnlichkeit semantically associated. In der zweiten Ebene betrachtet man nicht, wie häufig zwei Begriffe im gleichen Kontext miteinander auftreten, sondern wie sehr sich ihre Kontexte gleichen. Dadurch entsteht eine Art transitive Ähnlichkeit. Schließlich wird eine dritte Ebene beschrieben, in der Mengen von Kontexten miteinander verglichen werden. Letztere soll jedoch für diese Arbeit nicht beachtet werden. Offenbar lassen sich unterschiedliche Dinge berechnen, je nachdem welche Art von Ähnlichkeit und welche Definition von Kontext betrachtet wird. Als einfaches Unterscheidungsbeispiel gelten Synonyme. Grefenstette führt die zwei Schreibweisen tumor und tumour an, die beide als Synonyme für das gleiche Konzept gelten können. Selbst bei der Wahl eines sehr weit gefassten Kontexts, werden die Begriffe selten gemeinsam auftreten die meisten Autoren werden sich für eine Schreibweise entscheiden. Auf Ebene zwei ist es genau umgekehrt, denn wenn die Idee lautet, dass Synonyme sich gegenseitig ersetzen können, dann werden die Kontexte, in denen die beiden Begriffe auftauchen, oft aus den gleichen Begriffen bestehen. Ähnliches gilt für die Wahl des Kontexts. Je größere dieser gefasst ist, also wie oben etwa ein ganzes Dokument, so werden im Kontext eines betrachteten Wortes sehr viele Begriffe auftauchen, die nur eine sehr wage Beziehung zu diesem haben, insbesondere werden aber Begriffe, die in einer nicht-klassischen oder informellen Beziehung (etwa Stift-Papier) zum Ausgangswort stehen, erfasst. Ist der Kontext sehr eng gefasst wird mehr syntaktische Information erfasst, die dazu führt, dass der Ähnlichkeitsbegriff auch für die zweite Ebene deutlich enger gefasst wird. 66

75 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken In den folgenden Abschnitten soll anhand vorhandener Literatur und eigenen Ergebnissen im Rahmen dieser Arbeit auf die verschiedenen Komponenten, die bei der Definition und Berechnung von Ähnlichkeit auf Basis dieser gemeinsamen Häufigkeiten eine wichtige Rolle spielen, eingegangen werden. Im letzten Abschnitt vor der Zusammenfassung ist außerdem in einen angewandten Exkurs beschrieben, wie sehr große Corpora in einem verteilten System verarbeitet werden können Bestandteile eines Maßes Wie oben bereits angeklungen ist, gehören zu einem Ähnlichkeitsmaß, das auf gemeinsamen Häufigkeiten basiert, mehrere Komponenten. Zunächst ist da der zugrundeliegende Text-Corpus. Da aus ihm die Koeffizienten der gemeinsamen Häufigkeiten berechnet werden, steht und fällt ein Maß mit dessen Auswahl. Ist er zu klein, sind die Ergebnisse nicht repräsentativ, ist er zu domänenspezifisch, ist das Maß nicht allgemein genug, ist er von zu geringer (Sprach-)qualität leidet die Abdeckung. Verschiedene häufig verwendete Corpora sowie ihre Vor- und Nachteile werde in Abschnitt beschrieben. Die zweite Komponente ist die Datenvorverarbeitung. Im Beispiel des vorherigen Abschnitts wurden etwa Artikel und Konjunktionen entfernt, da die Vermutung naheliegt, dass diese kaum zum semantischen Profil eines Begriffs beitragen. Aber ist dies wirklicher der Fall? Andere Vorverarbeitungsschritte sind ebenfalls denkbar, etwa jedes Wort um Informationen zu seiner Wortart zu erweitern, ein part of speech-tagging. Einige Ansätze hierzu werden in Abschnitt besprochen. Ist der Corpus gewählt und geeignet vorverarbeitet, bleibt die Frage was überhaupt als gemeinsames Auftreten betrachtet werden soll, was soll als gemeinsamer Kontext gelten? Ganze Dokumente, wie oben, um möglichst viele der nicht-klassischen semantischen Beziehungen zu erfassen oder nur direkte Wortnachbarschaften, was zu einer stärkeren Betonung von syntaktischen Informationen führt. Alternativen und Konsequenzen hierzu sind in Abschnitt behandelt. Sind diese Parameter definiert, könnte das Maß einfach wie im obigen Beispiel die Rohdaten erfassen, also die ganze Zahl, die angibt, wie oft Begriff A im gewählten Kontext vorkommt. Es hat sich jedoch gezeigt, dass es auf Grund der speziellen Häufigkeitsverteilung von Worten in natürlicher Sprache, bestimmte Gewichtungsfaktoren oder Wahrscheinlichkeitsbetrachtungen zu besseren Ergebnissen führen. Ein wichtiger Forschungsaspekt, der großen Einfluss auf die Qualität eines Ähnlichkeitsmaßes hat, ist deshalb die Berechnung der assoziativen oder Zugehörigkeitsstärke zwischen Begriff und Kontext. Betrachtet man nicht die erste Stufe von Ähnlichkeiten, wie im vorherigen Abschnitt beschrieben, sondern möchte die Kontexte oder die sich daraus ergebenden semantischen Profile vergleichen, ist zusätzlich ein Vergleichsmaß meist auf vektorieller Ebene zu wählen. Es wird deutlich, dass ein so zusammengesetztes Ähnlichkeitsmaß viele Parameter hat, die nicht nur Einfluss auf die Qualität der Ergebnisse nehmen, sondern mit denen sich auch steuern lässt, welche Form von Ähnlichkeit gemessen wird. 67

76 Kapitel 2. Semantik und semantische Ähnlichkeit Corpora Einer der ersten Corpora, der im Jahr 1964, quasi noch vor Beginn des Informationszeitalters, veröffentlicht wurde, ist der Brown-Corpus (Francis und Kucera, 1979), ursprünglich erschienen als A Standard Corpus of Present-Day Edited American English, for use with Digital Computers. Text-Corpora haben verschiedenste Anwendungsszenarien, die weit über die Nutzung als Datenquelle für das Spezialgebiet der semantischen Ähnlichkeit hinausgehen. Der Brown- Corpus war gerade in Anbetracht der Tatsache, dass die Rechenkapazität in den 1960er Jahren kaum ausgereicht hat, um Berechnungen auf Matrizen zu betrachten, die so viele Zeilen haben wie Worte im Corpus vorhanden sind, eher als Grundlage genereller Sprachforschung gedacht. Er besteht aus etwa einer Million Worte, die aus 500 Textausschnitten zusammengefasst sind. Schon damals war den Autoren wichtig, dass die Auswahl der enthaltenen Texte möglich viele Elemente von natürlicher Sprache enthält. So besteht der Corpus aus etwa 70% informative prose, also etwa Zeitungsberichten aus verschiedensten Bereichen, Buchbesprechungen und im weitesten Sinne Fachliteratur verschiedener Gebiete. Die übrigen 30% entstammen sogenannter imaginative prose, also Kurzgeschichten und Romane verschiedenster Genres. Auch wenn der Aufbau dafür spricht, dass es sich um einen so genannten general purpose Corpus handelt, also keine spezielle Ausrichtung auf ein Fachgebiet enthält, sondern möglichst gut den allgemeinen Sprachgebrauch abdeckt, findet der Corpus in aktuellen Anwendungen allerdings kaum Einsatz. Dies liegt vor allem an zwei Nachteilen: Der erste liegt direkt auf der Hand. Der Corpus wurde im Jahr 1961 zusammengestellt und umfasst auch nur Literatur dieses speziellen Jahres. Auch wenn man denken könnte, dass sich der generelle Sprachgebrauch im Laufe der Zeit wenig ändert, ist die Literatur im Corpus (zum Zeitpunkt des Verfassens dieser Arbeit) doch bereits über 50 Jahre alt. Insbesondere problematisch ist die Tatsache, dass die Literatur tatsächlich nur einem Jahr entstammt und damit relativ stark gerade bei den Texten aus Zeitungen und Zeitschriften durch die politische Lage der Zeit und den aktuellen Zeitgeist geprägt ist. Natürlich ließe sich vermutlich trotzdem herausfinden, dass es zwischen den Begriffen love und hate etwa eine semantische Beziehung gibt. Tatsächlich wäre es sogar interessant die Veränderung der semantischen Profile von bestimmten Begriffen über den Lauf der Zeit zu betrachten, aber dies entzieht sich dem Rahmen dieser Arbeit. Der zweite Nachteil des Corpus ist seine geringe Größe. Zwar mag eine Million Wörter nach viel klingen, aber gerade bei einem Berechnungsverfahren, dass darauf ausgelegt ist, möglichst viele Kontexte, in denen ein Begriff verwendet wird, zu erfassen, scheitern Ansätze oft an zu wenig (aussagekräftigen) Daten. Bullinaria und Levy (2007) haben hierzu in einer Studie für ein festes Verfahren die Corpus-Größe variiert und festgestellt, dass über die gesamte betrachtete Bandbreite von 10 6 (= 1 Million) bis 10 8 Worten die Qualität des Maßes je nach Test stärker oder weniger monoton wächst. Ein neuerer Datensatz, der auf die Tradition der Arbeiten der Autoren des Brown-Corpus zurückgeht, ist der British National Corpus 40 (Burnard et al., 2000). Eine rückblickende Übersicht über dessen Entstehungsgeschichte liefert zum Beispiel Burnard (2002). Der Corpus selbst und dies war auch eines der erklärten Ziele der Autoren ist mit 100 Millionen Worten um zwei Zehnerpotenzen größer als die meisten seiner Vorgänger. Ähnlich wie bei der Produktion des Brown-Corpus 40 Der Corpus ist unter erwerbbar und dokumentiert (abgerufen am ). 68

77 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken wurden verschiedene Kriterien definiert, nach denen Textmaterial ausgewählt werden sollte. An dem größeren Unterfangen, das insgesamt über mehr als 3 Jahre lief, waren sowohl kommerzielle Anbieter aus dem Bereich der Wörterbücher als auch staatliche Organisationen, namentlich die Universitäten Oxford und Lancester, beteiligt, wobei das Projekt insgesamt etwa 1,5 Millionen Pfund gekostet hat. Dieser Tatsache ist es vermutlich auch geschuldet, dass der Corpus nicht frei verfügbar ist, sondern lizenziert werden muss. Auch wenn die Autoren, vielleicht in gewisser Bescheidenheit, nicht behaupten würden, dass der Inhalt des Corpus statistisch repräsentativ für die Sprache Englisch in seiner Gesamtheit wäre, waren die Kriterien für die Erfassung von Dokumenten durch eine möglichst große Vielfalt geprägt. So enthält der Corpus neben verschriftlichen Werken auch etwa 10% Transkripte gesprochener Konversation verschiedenster Themen. Bei den übrigen Inhalten finden sich genau wie im Brown-Corpus Medien wie Bücher, Tageszeitungen, Zeitschriften und Fachliteratur vielfältiger Genres und Ausrichtungen. Bei der Auswahl der Texte wurde darauf geachtet, dass nicht aus Bequemlichkeit Einschränkungen auf etwa digital verfügbare Materialien stattfanden. Stattdessen wurden viele Materialien gescannt oder neu transkribiert, was sicherlich einen großen Teil der doch relativ hohen Kosten erklärt. Schließlich ist der Corpus vollständig maschinenlesbar in SGML 41 annotiert. Die Annotationen umfassen im Wesentlichen die Wortarten, es handelt sich also um part of speech-tags. Selbige wurden maschinell bestimmt, allerdings nach Angabe der Autoren mit 95% Genauigkeit. Weiterhin finden sich Annotationen zu (Sinn-)abschnitten, Quellen und sogar anonymisierte Personenreferenzen für die Transkripte. <s n=003> <w NN1>Beer <w VVZ>seems <w DT0>such <w AT0>a <w AJ0>simple <w NN1>drink <w CJT>that <w PNP>we <w VVB>tend <w TO0>to <w VVI>take <w PNP>it <w CJS-PRP>for <w VVD-VVN>granted <c PUN>. Oben ist ein Beispiel 42 des annotierten Corpus-Inhalts gegeben. Das s-tag kennzeichnet hier den Beginn eines neuen Satzes, wobei jedes Wort durch ein w-tag, das zusätzlich mit der erkannten Wortart (und Form) versehen ist, annotiert ist. Diese Form der Annotation macht es möglich, in Anwendungen zwischen Homogrammen zu unterscheiden. Hier also könnte man erkennen, dass es sich bei dem Wort take um das Verb im Sinne von nehmen handelt und nicht um das Substantiv im Sinne von Interpretation, Meinung. Insgesamt handelt es sich bei dem Corpus um den größten seiner Art, im dem Sinne, dass an seiner Erstellung viele Experten und Sprachwissenschaftler beteiligt waren, die ein relativ striktes Qualitätsbewusstsein an den Tag gelegt haben. Insgesamt kann man den gesammelten Daten auch nicht vorwerfen, dass der Corpus zu klein wäre, obwohl natürlich etwa Bullinaria und Levy (2007) gezeigt haben, dass sich bis zur vollen Größe des BNC je nach Test kein Plateau in der Qualität der resultierenden Ähnlichkeitsmaße zeigt. Der Sprachaspekt bleibt hingegeben bestehen: Der Corpus ist durch Datenerhebung Anfang der 1990er Jahre entstanden und wurde 1995 erstmals veröffentlicht. Damit sind die Daten (zum Zeitpunkt des Verfassens dieser Arbeit) mit über 20 Jahren ebenfalls etwas in die Jahre gekommen. Außerdem muss erwähnt werden, dass es sich um British English handelt, was insbesondere bei den gesprochenen Anteilen durchaus gewissen Einfluss auf Ausrichtung der 41 SGML steht für Standard Generalized Markup Language und ist eine Obermenge des bekannteren XML. 42 gekürzt entnommen aus Burnard (2002) 69

78 the New York Times corpus with an average score of 67.3%. PMI performed the worst on the Project Gutenberg corpus, the massive online collection of books, with an average score of 43.2%. NSS performed best on the Wikipedia corpus with an average score of 65.4%. NSS performed worst on the Project Gutenberg corpus with an Kapitel 2. Semantik und semantische Ähnlichkeit average score of 54.2%. A two-factor ANOVA revealed a significant main effect of Corpus, F(5,25080) = , p < Daten haben könnte. Je nach Art der Anwendung ist der BNC trotzdem ein guter Kandidat um Basis eines Ähnlichkeitsmaßes zu sein. Während in den 1990er Jahren das Sammeln und Verarbeiten von 1,5 Gigabyte reinen Textes für.001, a significant main effect of MSR, F(1,5016) = die damalige durchschnittliche Rechenkapazität eines Standard-PCs ein beachtliches unterfangen war, , hat sich mit p dem <.001, darauffolgenden and a significant explosionsartigen effect Wachstum of the descorpus Internet eine by weitere QuelleMSR linguistischer interaction, RessourcenF(5,25080) aufgetan. Verschiedene = , Forscherp haben <.001. sich damit PMI s beschäftigt, wie sich die vielfältigen Informationen, die aus dem Internet geladen werden können, für linguistische Verfahren, performance etwa auchshowed semantische a Ähnlichkeitsberechnung, high dependence on genutzt the werden text können. corpus Obwohl es naheliegend used, while erscheint, NSS die extreme varied Größe less textueller from corpus Information to corpus. des Internets für einen Corpus quasi NSS beliebiger performed Größe zu better verwenden, than haben PMI etwa on Lindsey all but etthe al. (2007) New oder York Bullinaria und Levy (2007) gezeigt, dass bei der Wahl der Informationen, die in diesen eingehen sollen, mehr Sorgfalt Times nötig corpus ist, als(mean man zunächst NSS denken performance könnte. Letztere = 60.2%; haben beispielsweise mean PMI das Usenet, eine performance Art digitales Forum, = 55.0%), mit einerand Vorform the des overall Konzepts performances von Mailinglistenof zu vergleichen, the verwendet um einen Corpus der Größe des BNC zu generieren. Ihre Auswertung zeigt, dass diese sehr eingeschränkte Informationsquelle signifikant schlechtere Ergebnisse im Anwendungsfall two MSRs were highly correlated across the six corpuses (rsquare Ähnlichkeit =.82). zur Folge semantischer hat. Figure 1. Corpus comparison for PMI and NSS. Standard error bars are too small to be displayed. Abbildung 2.10: Auswirkungen der Auswahl eines bestimmten Corpus auf die gemessene Qualität semantischer Ähnlichkeit in Lindsey et al. (2007). Lindsey et al. haben in ihrer Arbeit zwei Ähnlichkeitsmaße betrachtet, die als Grundlage verschiedene online verfügbare Datenquellen verwendet haben. In Abbildung 2.10 ist eine Übersicht ihrer Ergebnisse dargestellt. Es wird deutlich, dass das hier verwendete Qualitätsmaß, Diskriminationsfähigkeit zwischen echten und falschen semantischen Paaren anhand des Free Association Norms-Testsets, wie in Abschnitt beschrieben, stark davon abhängt, welche Art von Corpus gewählt wurde. We were surprised that the New York Times corpus performed the best out of all the corpora we tested on PMI. It is not nearly as extensive as the Google corpus, nor as structured as Wikipedia, nor does it contain as much conversational English as the Enron Corpus or Google Groups. Yet it clearly had the highest score. Also surprisingly, Project Gutenberg, 70 which is a large collection of online books, was the worst of these corpora. These Another corpus, w corpus, is tested, PM for the fo abundance Turney, 20 that both P corpus. How goo matter. We collection lexicon. H application Project Gu choice po understand impaired. Our stud or two MS to test ma various ev Ultimately be the opti choice for componen 1988), or researcher Researche relatedness possible. R MSR, we attention cognitive m We woul contributio Dr. Walla corpus. Th

79 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Ferraresi et al. (2008) haben sich in diesem Rahmen mit der Frage beschäftigt, wie sich ein generell einsetzbarer, general purpose, qualitativ hochwertiger Corpus aus unstrukturierten Textdaten im Internet zusammen stellen lässt. Dabei ist unter anderem der ukwac-corpus entstanden. Dieser ist mit über zwei Milliarden Worten nochmals etwa 20-mal so groß wie der BNC. Die dahinterstehende Idee war, ausgehend von einer Reihe von Seed-Begriffen, eine Menge von Quell- Webseiten zu finden, von denen ausgehend alle Links verfolgt werden, deren Text-Informationen wiederum gespeichert werden, und so weiter. Dieses als Web-Crawling bekannte Verfahren wird im Allgemeinen von Suchmaschinen verwendet, um Webseiten zu indizieren. Die Autoren geben den Wunsch an, dass ihr Corpus, ähnlich wie der BNC, nach Möglichkeit extrem vielschichtig sein und so auch Textarten wie Predigten, Kochrezepte, Betriebsanleitungen und Transkripte gesprochener Konversation beinhalten sollte. Um dies zu erreichen wurden aus dem BNC 1000 zufällige Wortpaare gewählt, die in eine Suchmaschine eingegeben wurden, um mögliche Quell- Webseiten zu identifizieren. Das gleiche Verfahren wurde für 500 zufällige Wortpaare aus dem transkribierten Teil des BNC durchgeführt sowie mit 500 Wortpaaren aus einer Vokabelliste für Englisch-Lerner. Da das Ziel der Autoren war, einen Corpus zu generieren, der repräsentativ für die (britisch-)englische Sprache ist, wurden die Adressen den Webseiten auf solche eingeschränkt, die die Domain-Endung.uk beinhalteten. Insgesamt wurden auf diese Weise 351 Gigabyte Daten gesammelt. Eine nicht-triviale Aufgabe musste schließlich gelöst werden: ein Sicherstellen adäquater Datenqualität. Stellt man sich beispielsweise die Darstellung einer typischen Nachrichten-Webseite vor, findet sich darauf neben dem eigentlich gewünschten Artikel eine Vielzahl an irrelevanten Text-Informationen, beginnend bei der generellen Seitenstruktur, die auf andere Ressorts oder Webseiten verweist, Auszüge aus anderen Nachrichten oder sogar Werbung. Dazu kommt, dass der eigentliche Quelltext einer Webseite ja nicht aus reinem Text, sondern einer Markup-Sprache wie HTML besteht, deren Aufbau aber für die zu extrahierenden Daten nebensächlich, sogar unerwünscht ist. Ist der reine Text schließlich extrahiert, bleibt unklar von welcher Qualität dieser ist. Unter Umständen handelt es sich um eine Wortliste oder einen Wörterbucheintrag ohne zusammenhängende Satzstruktur. Dazu kommt, dass viele Webseiten unter Umständen exakt oder deutlich schwieriger zu ermitteln nahezu den gleichen Inhalt haben. Gerade bei Nachrichtenmitteilungen kann es sich um eine Pressemeldung einer Agentur handeln, die auf n verschiedenen Webseiten zu finden ist. Die Autoren beschreiben in ihrer Arbeit recht genau, welche Mechanismen eingesetzt wurden, um diesen Problemen zu begegnen. Schließlich bleiben für den Corpus etwa 12 Gigabyte an unkomprimierten Text-Daten, die die oben genannten zwei Milliarden Worte umfassen. Mit Hilfe einer automatisierten Klassifikation haben die Autoren den Corpus, ähnlich dem Format des BNC, ebenfalls mit linguistischen Informationen annotiert: Es sind part of speech-tags und Grundformen eines jeden Wortes enthalten. <s> Not not RB 1 4 NMOD many many JJ 2 4 NMOD prawn prawn NN 3 4 NMOD sandwiches sandwich NNS 4 5 SBJ were be VBD 5 0 ROOT eaten eat VVN 6 5 VC.. SENT 7 5 P </s> 71

80 Kapitel 2. Semantik und semantische Ähnlichkeit Oben ist ein Beispiel des Datenformats des Corpus gegeben. Die eigentlichen Daten befinden sich einer Art Pseudo-XML, das Dokumente und Sätze in Tag-Strukturen zusammenfasst. Jeder Begriff innerhalb eines Satzes ist in einer Tab-getrennten Zeile dargestellt und umfasst das Ursprungswort, die maschinell ermittelte Grundform, die Wortform und im Falle der gesondert publizierten Version PukWaC auch ein Dependency Parsing, also Informationen über die syntaktischen Zusammenhänge im Satz. Eine Analyse der Inhalte im direkten Vergleich mit dem BNC haben Baroni et al. (2009) durchgeführt. An ihren Ausführungen bezüglich häufiger Begriffe und Themenkreise der beiden Corpora lässt sich ableiten, dass der BNC relativ stark auf prosaischen Text ausgerichtet ist, die Autoren nennen diese Kategorie imaginative. Außerdem finden sich viele Begriffe aus dem politisch/wirtschaftlichen Bereich, jedoch häufig in Form von retrospektiven Texten. Zudem wird etwa anhand der Begriffe soviet und cold 43 in diesem Zusammenhang ein stärkerer Fokus auf die politische Situation der Zeit, in der der Corpus erzeugt wurde, deutlich. ukwac enthält mehr Texte, die sich mit der Gegenwart beschäftigen, was sich zum Beispiel an Verbformen ableiten lässt. Die Autoren vergleichen die beiden Corpora auch anhand zweier einfacher Vergleichsmaße, die sie Coverage und Enrichment, also Abdeckung und Bereicherung, nennen. Hierbei berechnen sie etwa für Coverage(ukW ac, BN C) wie viele Begriffe, die im BNC enthalten sind, ebenfalls in ukwac vorkommen. Es wurden hierzu nur Begriffe betrachtet, die mindestens 10-mal in jedem Corpus vorhanden sind. Mit Enrichment wird das Verhältnis der Begriffe gemessen, die in letzterem Corpus weniger als 20-mal vorkommen, in ersterem aber häufiger. Coverage ist also ein grobes Maß dafür, wie gut sich ein Corpus durch einen anderen ersetzen lässt, weil die ursprünglichen Begriffe immer noch ausreichend häufig auftreten, während Enrichment angibt, inwiefern mehr Begriffe ausreichende Betrachtung fänden, würde man die Corpora austauschen. Baroni et al. kommen zu dem Ergebnis, dass ukwac über 98,4% Coverage zum BNC verfügt und zudem für 89,2% der Begriffe, die im BNC zu selten vorkommen, ausreichende Auftretenshäufigkeiten verzeichnet. Die Umkehrung zeigt, dass der BNC lediglich über 18,4% Coverage des ukwac und quasi über kein Enrichment diesem gegenüber verfügt 44. Der hohe Coverage-Wert gepaart mit der Analyse der Themenabhängigkeiten der Corpora legt nahe, dass es sinnvoll erscheint, den BNC durch den ukwac zu ersetzen. Dabei ist jedoch Vorsicht geboten, denn keiner der beiden Werte macht eine Aussage darüber, welchen Themenbereichen gegenüber ukwac eine Präferenz zeigt. Trotzdem haben die Autoren mit ihrem Corpus eine Ressource geschaffen, die in dieser Größe und mit einem wohldefinierten Qualitätsanspruch derzeit ihresgleichen sucht. Dazu kommt die Tatsache, dass die so genannte WaCky - The Web-As-Corpus Kool Yinitiative ihr Konzept der Corpus-Generierung ebenfalls für andere Sprachen, unter anderem auch die deutsche, angewandt haben. Eine weitere häufig genutzte Datenquelle für die Corpus-Generierung wurde in Abschnitt bereits beschrieben: Wikipedia. Während bei den Maßen auf Grundlage einer strukturierten Wissensbasis mehr Interesse an der Verknüpfungsstruktur der einzelnen Artikel der Enzyklopädie lag, ist es nun der Volltext, der als Wissensbasis dienen soll. Verschiedene Autoren haben sich mit der Nutzung von Wikipedia beschäftigt. Fuchs (2010) beispielsweise beschreibt den sys- 43 wie in cold war 44 Die Werte beziehen sich auf die Wortart der Substantive, die übrigen Wortarten bewegen sich in ähnlichen Bereichen. 72

81 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken tematischen Vorgang, der nötig ist, um einen Corpus aus dieser Datenquelle zu erzeugen. Da die Quelldaten von Wikipedia regelmäßig in Form eines so genannten Dumps im XML-Format zum Download zur Verfügung gestellt werden und es für Text-Corpora verschiedene Forschungsund Anwendungsszenarien gibt, haben verschiedene Autoren Software bereitgestellt, um aus den Rohdaten die relevanten Textinformationen zu extrahieren. Auch wenn die Extraktion deutlich weniger aufwändig ist, als etwa den relevanten und vor allem zusammengehörigen Teil einer beliebigen HTML-Seite herauszufiltern, hat auch Wikipedia eine eigene Markup-Sprache, die die Struktur eines Artikels definiert. Komplexe Elemente wie Tabellen oder Informationsboxen sind für die Corpus-Generierung irrelevant und sogar störend, da sie keinen zusammenhängenden Text darstellen. Auch hier ist ein Filtern notwendig. Zudem enthalten die vollständigen Dumps von Wikipedia ebenfalls die Historie von Artikeln, also Vorgänger und Änderungen sowie die oft sehr langatmigen Diskussionen der Mitglieder der Community. Auch wenn etwa letztere eine interessante linguistische Quelle bilden könnten, muss hier abgewogen werden ob die Datenqualität hoch genug ist, da es sich oft um Texte handelt, die eher umgangssprachlich und in einem informellen Ton gehalten sind. Besonders interessant an diesem Corpus ist, dass er sich in einem ständigen Wandel befindet und auch Begriffe des aktuellen Zeitgeists insbesondere auch named entities wie Firmen oder Berühmtheiten extrem zeitnah umfasst. Da der Aufwand der Verarbeitung dennoch nicht unerheblich ist, bietet es sich trotzdem an, auf eine vorverarbeitete Quelle zurückzugreifen. Die oben bereits erwähnte The Web-As-Corpus Kool Yinitiative hat hierzu einen Dump der Wikipedia aus dem Jahre 2009 unter dem Namen WaCkypedia_EN 45 im gleichen Format wie den ukwac bereitgestellt. Der Corpus ist mit etwa 800 Millionen Begriffen nicht ganz so groß wie letzterer, umfasst aber eine ähnlich große Menge an Text. Beachtet werden sollte natürlich die spezielle Form in der die Inhalte dargestellt sind gerade im Kontrast zu den Corpora wie BNC oder ukwac, die aus sehr vielschichtigen Informationsquellen zusammengestellt wurden. Andrerseits scheint eine Enzyklopädie eine natürliche Wahl für ein Anwendungsszenario zu sein, in dem die semantische Bedeutung von Begriffen untersucht werden soll. Mit den verschiedenen Möglichkeiten Corpora zu wählen ergibt sich natürlich auch die Möglichkeit, die Datenquellen zu mischen. Insbesondere bei den beiden von der The Web-As-Corpus Kool Yinitiative bietet sich dies durch das gleiche Ausgangsformat an und wird etwa von Baroni und Lenci (2011) bei der Auswertung von semantischen Ähnlichkeitsmaßen empfohlen. Wie oben bereits angesprochen lässt sich generell jede Textquelle als Basis für einen Corpus verwenden. Für den besonderen Anwendungsfall, aus dem Corpus letztlich gemeinsame Auftretenshäufigkeiten von Begriffspaaren zu messen, gibt es zudem die Möglichkeit das gesamte Internet als Text-Corpus zu verwenden. Lindsey et al. (2007), von denen auch die obige Abbildung stammt, haben sich das Konzept von Suchmaschinen zu Nutze gemacht, um zu ermitteln in wie vielen Dokumenten zwei Begriffe gemeinsam auftreten. Viele Suchmaschinen wie etwa Google zeigen neben der Ergebnisliste auch die Anzahl der gefunden Dokumente, die Treffer, an. So lässt sich relativ leicht ermitteln, in wie vielen Dokumenten, hier also Webseiten, diese gemeinsam oder auch einzeln auftreten. In vielen Fällen lässt sich sogar der Suchbereich einschränken. So wurden die in Abbildung 2.10 vorgestellten Auswertungsergebnisse dadurch ermittelt, dass Suchanfragen für Wortpaare in Google auf die betreffende Webseite, also Datenquelle, eingeschränkt wurden. 45 Der Corpus WaCkypedia_EN ist genauso wie der ukwac auf der Webseite des Konsortiums unter http: //wacky.sslmit.unibo.it/doku.php?id=corpora auf Anfrage verfügbar (abgerufen am ). 73

82 Kapitel 2. Semantik und semantische Ähnlichkeit Die Anfrage car journey site:en.wikipedia.org in Google führt zu [u]ngefähr Ergebnisse[n]. Agirre et al. (2009) geben bei diesem Verfahren jedoch zu bedenken, dass es sich wie Google direkt angibt lediglich um (gerundete) Approximationen der tatsächlichen Trefferanzahl handelt. Sie sind der Meinung, dass bessere Ergebnisse erzielt werden können, wenn wie im Fall von ukwac und WaCkypedia die Quelldaten komplett geladen und separat verarbeitet werden. Eine letzte der vielfältigen Möglichkeiten der Corpus-Generierung soll an dieser Stelle noch genannt werden, da einige Maße, die letztlich auf der strukturierten Wissensbasis WordNet basieren, nicht im zugehörigen Abschnitt beschrieben wurden. Dies hat den Grund, dass es sich bei ihnen letztlich um Maße handelt, die trotz ihrer Wissensbasis auf gemeinsamen Auftretenshäufigkeiten basieren. Der Corpus aus denen diese Statistiken berechnet werden ist allerdings WordNet selbst. Damit ist jedoch nicht das semantische Netzwerk gemeint, sondern die zu den Konzepten zugehörigen erklärenden Glossen. Die Idee ist die gleiche wie bei der Verwendung von Wikipedia. Die Glossen werden als besonders kompakte und informationsreiche Erklärungen eines Konzepts angesehen und man verspricht sich aus der Nutzung dieser als Text-Corpus eine deutlich weniger verrauschte Quelle, als etwa bei der Nutzung von Web-basierten Informationen. Patwardhan und Pedersen (2006) haben beispielsweise genau dieses Verfahren genutzt, aber mit den weiteren Informationen, die aus dem semantischen Netzwerk von WordNet ableitbar sind, versehen. Ihr Vorgehen wird deshalb erst in Abschnitt genauer beschrieben. Zusammenfassend lässt sich sagen, dass es vielfältige Möglichkeiten für die Generierung von Text- Corpora gibt. Auf Grund der sehr großen Datenmengen auch zum Zeitpunkt des Verfassens dieser Arbeit sind die rund 350 Gigabyte an Quelldaten eher mit Rechenzeit im Bereich von Tagen bis Wochen verbunden zu der noch separat die Ermittlung der nötigen statistischen Häufigkeitsinformationen kommt, scheint es sinnvoll, einen der vorverarbeiteten Corpora zu verwenden, insbesondere wenn diese nach nachvollziehbaren Qualitätskriterien zusammengestellt wurden (Linguistisches) Preprocessing Je nach Art der Anwendung kann es sinnvoll sein, den verwendeten Corpus einer Vorverarbeitung zu unterziehen. Ein Mensch ist in der Lage die semantische Beziehung zwischen Elementen eines Textes beim Lesen nachzuvollziehen oder zu erkennen. Das liegt sicherlich auch daran, dass ihm neben den rohen Buchstaben-Listen, die die Worte formen, viele weitere Informationen zur Verfügung stehen. Einige Beispiele hierzu liegen auf der Hand. Liest man als Mensch etwa Autos, ist klar, dass es sich bei dem Begriff um den Plural von Auto handelt. Für einen Algorithmus ist es schwieriger, die Grundform eines Begriffs zu ermitteln. Genauso können wir mit Hilfe von Kontext-Wissen ableiten, ob bei einem Homonym wie Tau ein Seil oder morgendlicher Niederschlag gemeint ist. Ein Problem, das sich mit Hilfe gerade des semantischen Wissens lösen ließe, das aber gerade erst erlangt werden soll. Turney et al. (2010) teilen die Vorverarbeitung eines Corpus in drei Klassen auf: Tokenization, Normalization und Annotation. Der erste Schritt ist dabei in jedem Fall notwendig, um überhaupt mit gemeinsamen Häufigkeiten zu arbeiten. Er stellt die Frage, wovon überhaupt gemein- 74

83 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken same Häufigkeiten gemessen werden sollen. Wörter? Begriffe? Terme? Offenbar ist es notwendig, den Text in diesen Einheiten zu zerlegen und zwar nach bestimmten Regeln. Der einfachste Ansatz hierbei wäre sicherlich, an den Wort-Trennern, im Englischen und Deutschen also den Leerzeichen, jeweils einen neuen Begriff zu betrachten. Unter Umständen ist dies aber nicht unbedingt die beste Lösung. Im Englischen etwa werden zusammengesetzte Begriffe wie don t zu einem Wort, auf der anderen Seite werden Eigennamen wie Barack Obama oder ice hockey (vgl. Turney et al. (2010)) zu Einzelbegriffen aufgespalten. Unter Normalization versteht man eine Vereinfachung der ermittelten Terme. Wie im Beispiel oben, muss man sich die Frage stellen, ob die Informationen, die man einem Corpus über den Begriff Autos entnehmen kann, nicht auch auf den Begriff Auto zutreffen. Nimmt man an, dass keine oder wenig semantische Information verloren geht, wenn man immer nur Grundformen von Begriffen betrachtet, ist es eventuell sinnvoll jedes Wort vor der eigentlichen Verarbeitung auf diese zurückzuführen. Hierzu gibt es verschiedene Techniken. Bei der Informationsverarbeitung kommt, wenn die Sprache dies erlaubt, oft ein sehr schneller, heuristischer Ansatz für das so genannte Stemming zum Einsatz. Der wohl bekannteste Algorithmus hierzu stammt von Porter (1980) und entfernt nach gewissen Regeln komplexe Suffixe eines Wortes, um verschiedene Begriffe wie connected, connecting oder connections auf einen Grundbegriff zurückzuführen. Eine komplexere Methode, die auf das gleiche Ergebnis abzielt, ist die so genannte Lemmatization. Auch hier soll eine flektierte Wortform zu seiner Grundform zurückgeführt werden, jedoch im linguistisch korrekten Sinne. Ein Wort wie better beispielsweise lässt sich nicht durch abschneiden eines Suffix zu seiner Grundform good zurückführen, weitere Beispiele sind is oder was, deren Grundform be, also die Form eines Wortes, die man in einem Wörterbuch nachschlagen würde, ist. Offenbar ist für diese Form der Vorverarbeitung nicht nur größeres Vorwissen, sondern unter Umständen auch Wissen über den Kontext erforderlich. Ohne solchen wäre unklar ob der Begriff meeting für den Wortsinn eines Treffens, bereits in seiner Grundform vorliegt oder auf (to) meet zurückgeführt werden muss. Während der Normalisations-Schritt Information aus den Original-Daten entfernt, zielt der Annotations-Schritt auf genau das Gegenteil ab. Hier sollen mit Hilfe von Kontext-Wissen Informationen hinzugefügt werden. Eine häufig auch in den oben beschriebenen vorverarbeiteten Corpora anzutreffende Technik ist das so genannte part of speech tagging. Dabei wird jeder Begriff oder jedes Wort mit seiner Wortart, und je nach Komplexität des Verfahrens, auch weitere Informationen wie die spezielle Form oder Art hinzugefügt. Ein sehr bekanntes Tool, das Text auf diese Weise verarbeiten und annotieren kann, ist der TreeTagger 46 (Schmid, 1994). Im Beispielsatz aus dem vorherigen Abschnitt Not many prawn sandwiches were eaten. würde etwa für das tag set, also die Annotationsregeln, des Penn Treebank Project (Santorini, 1990) der Begriff were nicht nur als Verb annotiert, sondern mit dem Kürzel VBD für Verb, past tense versehen. TreeTagger enthält auch ein Modul für das Ermitteln eines Lemmas, so dass es sich anbieten könnte, dieses Wort auf das Token be-vbd abzubilden. Der Einsatz von solcher Information kann bereits einen wichtigen Beitrag zu einer weiteren Annotationsart leisten. Der Disambiguierung verschiedener Wortbedeutungen. Durch einfaches Hinzufügen des Wissens um 46 TreeTagger ist unter abrufbar, hat jedoch eine eingeschränkte Lizenz (abgerufen am ). 75

84 Kapitel 2. Semantik und semantische Ähnlichkeit die Wortart könnten bereits die beiden Begriffe uniform-j, also das Adjektiv, und uniform-n, also das Substantiv, unterschieden werden, die fast keinen Bezug zueinander haben. Nimmt man ein semantisches Netzwerk wie WordNet, ein Wörtebuch oder Thesaurus zur Hilfe, wäre auch denkbar zu versuchen mit Kontext-Wissen jeden Begriff etwa auf ein WordNet-Synset abzubilden, um unterschiedliche Wortbedeutungen zu unterscheiden. Eine weitere Form der linguistischen Annotation wäre es, auch die syntaktischen Informationen aus dem Kontext zu erschließen. Ein bekanntes Tool hierzu ist der MaltParser 47 (Nivre und Hall, 2005), der syntaktische Abhängigkeiten in Sätzen ermittelt. So lässt sich der Satz aus dem obigen Beispiel erneut aufgreifen, denn in Not many prawn sandwiches were eaten. kann man so ermitteln, dass der Begriff prawn die Beziehung NMOD zu sandwiches hat, es sich also um einen modifier dieses Begriffs handelt. Mit Hilfe dieser Information ließe sich etwa die Entscheidung fassen, beide Worte als zusammengesetzten Begriff zu betrachten oder es ließe sich ableiten, dass der Begriff prawn hier eher kulinarisch als zoologisch aufgefasst werden sollte. Insgesamt, so lautet auch die Empfehlung von Turney et al. (2010), muss man abwägen, welche Vorverarbeitungsschritte man auf seinen Corpus anwenden möchte. Generell wird es sich für die meisten Anwendungen so verhalten, dass je mehr Informationen durch Zusammenfassen und Abbildung auf einen kleineren Informationsraum verloren gehen, die Precision leidet, dafür aber der Recall steigt. Für das Szenario semantischer Ähnlichkeitsberechnung könnte dies zum Beispiel bedeuten, dass mehr Fehler dabei gemacht werden, eine korrekte Aussage über die semantische Zusammengehörigkeit zweier Begriffe zu machen, Precision, jedoch für tatsächlich zusammengehörige Begriffe auch mehr als solche erkannt werden, Recall. Ein Problem, das bei zu großer Annotation auftritt ist, dass die Häufigkeitsfrequenzen stark abnehmen. Wird bei Adjektiven etwa unterschieden, um welche Steigerungsform es sich handelt, ist natürlich weniger gemeinsames Auftreten einer jeden Form mit einem assoziierten Begriff zu messen, als wenn nur dessen Grundform betrachtet wird. Noch extremer wird dies, wenn mehrere Worte etwa auf Basis ihrer syntaktischen Zusammengehörigkeit als zusammengehörige Begriffe betrachtet werden Kontext und Ermittlung gemeinsamen Auftretens Eine auf das Ergebnis enorm einflussreiche Parameter-Wahl ist die Definition eines Kontexts. Da die Ähnlichkeit auf Basis der gemeinsamen Auftretenshäufigkeiten berechnet werden sollen, spielt die Wahl dessen was als gemeinsam gelten soll, eine wichtige Rolle. Je nach Wahl der Kontext-Größe und -Beschaffenheit zeigen sonst gleich definierte Ähnlichkeitsmaße signifikant unterschiedliches Verhalten. Abbildung 2.11 zeigt beispielhaft verschiedene Präferenzen eines Ähnlichkeitsmaßes bezüglich verschiedener semantischer Assoziationsarten. Die Grafik zeigt die Verteilung von Ähnlichkeitswerten nach dem Auswertungsprinzip des BLESS- Datensets (vgl. Abschnitt 2.2.5). Beim linken Boxplot wurde ein Kontext als Text-Fenster gewählt, das sich nach links und rechts jeweils um 10 content words, also ohne extrem häufige Funktionsworte wie the, a, to und so weiter, erstreckt. Ein betrachtetes Wort tritt also gemeinsam mit jedem anderen Wort in diesem Text- oder Kontext-Fenster auf. Die mittlere Auswertung zeigt die 47 MaltParser ist unter für Java-Anwendungen verfügbar (abgerufen am ). 76

85 Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V ContentWindow20 AllWindow2 Document COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V Figure Abbildung 1: Distribution 2.11: ofunterschiedliche relata cosines across Präferenzen concepts des (values gleichen on ordinate Ähnlichkeitsmaßes are cosines je after nach concept-by-concept Wahl der Definition eines Kontexts, aus Baroni und Lenci z- normalization). (2011). words, Situation, and thus wenn theyausgehend capture syntactic, von einem rather Begriff thannurity dermeasure, direkte would Nachbar notlinks haveund givenrechts us thisals broad Kontext betrachtet distributional wird. properties. Bei demas letzten a result, Boxplot ran- wurde of how einmodels komplettes are behaving. Dokument, ausgehend von view semantic domder nouns Kombination are as high des(statistically WaCkypedia_EN indistinguishablebei from) allen hypernyms Ähnlichkeitsmaßen and meronyms. die besondere Interestingly, semantische Beziehung von Substantiven mit koor- mit dem ukwac -Corpus, als Kontext aufgefasst. Obwohl 6 Conclusion attributes dinierten alsosubstantiven belong to this amsubset semantisch of relations ähnlichsten bewertet wird, ist die Verteilung der übrigen probably Beziehungstypen due to the effect deutlich of determiners, verschieden. quantifiers Im Fall der Wemittleren introducedauswertung BLESS, thewird first data sogar set die specifically Kontrollgruppe and other DP-initial zufälliger function Substantive words, that etwa will genauso often gut designed bewertet for the wie intrinsic die meisten evaluation echt-semantisch of DSMs. The zugehörigen Begriffe. Baroni und Lenci (2011) führen occur both before nouns and before adjectives. Indeed, even random adjectives, although significantly plicitly typed semantic relations, plus a number of data dies set unter contains anderem tuples darauf instantiating zurück, different, dass ein ex- sehr kleines Kontext-Fenster wie in diesem Fall weniger semantische als syntaktische Zusammengehörigkeit erfasst, was hier besonders ins Gewicht fällt, da nicht die Assoziationsstärke zweier below the other relations we discussed, are significantly above both random and meaningful verbs to evaluate both the ability of DSMs to discriminate controlled random tuples. Thus, BLESS can be used Worte, sondern die Ähnlichkeit der Kontexte zweier Worte erfasst wurde. (i.e., Eine events). vermutlich For thefür Document fast jedes model, Substantiv all meaningful etwa relations the are is significantly wobei die Leerstelle above the durch random ein beliebiges analysessubstantiv of the typesfüllbar of semantic ist. Imrelata Rahmen that different der extremtruly häufig related anzutreffende word pairs, Kontext-Situation and to perform wäre in-depth ones. Entscheidung, However, coordinates, wie groß der while Kontext still thegewählt nearestwerden models sollte, tendspielt to favor also among auchthe eine nearest Rolle, neighbors ob die of neighbours gemeinsamen (significantly Auftretenshäufigkeiten closer than all other von Worten relations) miteinander are much verglichen less distinct werden. than inauf thediese window- Unterscheidung performance wurde of bereits a few DSMs in der on Einleitung BLESS dieses - like the direkt a target betrachtet concept. werden, Even a simple oder obcomparison ihre Kontexte of the based Abschnitts models. Note eingegangen. that we cannot say a priori that one we have shown here - is able to highlight interesting seindifferences soll, müssen in letztlich the semantic die gemeinsamen spaces produced ContentWindow2 Ist definiert, wie is better groß der thanzudocument betrachtende because Kontext it favors Häufigkeiten coordinates. im Corpus However, ermittelt while they werden. are both In der by Literatur the various wirdmodels. hierzu oft The der success Begriffoffrequency BLESS will ablematrix to sort(turney out trueetand al., random 2010) verwendet. relata, theda latter viele Anwendungen obviously depend tatsächlich on whether nicht it will die become direkte aas- soziationsstärke, a weaker abilityalso to discriminate nach Grefenstette among(1994) differ- dieence erstemodel Ebenefor von theähnlichkeit, evaluation of messen, DSMs, sondern something refer- shows ent types die Ähnlichkeit of semanticder relations Kontexte, (co-occurring wird diesem withinrahmen that can auch nothäufig be foreseen auf den a priori. AufbauWhatever eines vector its destiny, semantic we believemodel that the (Baroni BLESSund approach Lenci, can 2011) boost a document space model is indeed (Turney a much et looser al., 2010) cue to oder similarity distributional thanverwiesen. specificallydie co-occurring Idee ist jedoch within immer a narrow die gleiche: window). fürtraditional jeden Kontext DSM tests, wie immer based on er definiert a single qual- wurde aswird a key das condition gemeinsame to get Auftreten at a deeper in understanding Matrix and Der innovate Corpus wird evaluation schrittweise in distributional durchlaufen semantics, und vermerkt. Möchte man den Vorgang möglichst allgemein of its potentialities beschreiben, aswird a viable jedem model Kontext for meaning. ein zu jedem anderen Kontext orthogonaler index vector (Sahlgren, 2005) zugewiesen. Nehmen wir der Einfachheit halber an, dass ein komplettes Dokument als Kontext gelten soll und wir betrachten 9 drei Dokumente, so würden die Vektoren 77

86 Kapitel 2. Semantik und semantische Ähnlichkeit d 1 = 1, 0, 0, d 2 = 0, 1, 0, d 3 = 0, 0, 1 für diese Dokumente entstehen. Offenbar müssen die Vektoren so hochdimensional sein, wie Kontexte im Corpus vorhanden sind. Sind dies ganze Dokumente, verfügt der Raum bereits je nach Corpus-Größe über hunderttausende Dimensionen, wählt man den Kontext kleiner, führt dies schnell in extreme Bereiche, weshalb man in diesem Fällen, oft bereits im Vorhinein, Zusammenfassungen betrachtet dazu aber unten mehr. Die Generierung der Frequenz-Matrix erfolgt nun einfach so, dass jedes Wort beziehungsweise jeder zu betrachtende Begriff als Zeile einer Matrix betrachtet wird und jedes Dokument als Spalte. Es entsteht also eine term-documentoder besser term-context-matrix mit n = Anzahl der Worte Zeilen und k = Anzahl der Kontexte Spalten. Die Frequenzen werden dann so ermittelt, dass letztlich jeder Zeilenvektor die Summe aller Index-Vektoren von Kontexten ist, in denen ein Begriff auftritt. Nehmen wir also an, wir betrachten drei Begriffe für die obigen Dokumente und w 1 soll in jedem Dokument zweimal auftreten, w 2 einmal in d 1 und d 3, und w 3 zweimal in d 1 und einmal in d 2, dann ergibt sich die folgende Matrix. d 1 d 2 d 3 w w w Grundlage der meisten Ansätze zur Berechnung semantischer Ähnlichkeit sind jetzt die entstandenen Zeilenvektoren, die ja die Verteilungsstatistik eines Begriffs repräsentieren und sich somit der distributional hypothesis folgend vergleichen lassen. Da Vektorrepräsentationen mathematisch wohldefiniert sind, basieren die meisten Maße darauf, bestimmte Distanz-Metriken auf die Zeilenvektoren anzuwenden, um die Ähnlichkeit zu ermitteln. w 1 und w 2 haben beispielsweise eine (euklidische) Distanz von etwa 2,45, w 2 und w 3 etwa 1,73 und wären damit das ähnlichere Paar. Je nach Wahl der Kontextdefinition, aber auch für sehr große Kontexte, wird die entstehende Matrix extrem dünn besetzt sein. Aus dieser Matrix lässt sich jedoch einfach eine term-term- Matrix generieren. Offenbar tauchen w 1 und w 2 gemeinsam in d 1 auf, da die betreffenden Zellen mit Werten größer 0 versehen sind. Um zu ermitteln, wie oft zwei Begriffe gemeinsam im gleichen Kontext aufgetreten sind, kann man nun je nachdem wie man zählen möchte die Werte der von 0 verschiedenen Zellen addieren oder multiplizieren. Das Multiplizieren entspricht dabei einer Instanz-orientierten Berechnung. Für jedes Vorkommen von w 1 ist im gleichen Kontext d 1 zweimal w 3 angetroffen werden, für d 3 analog. Für das obige Beispiel ergäbe sich also die folgende zusammengefasste Matrix. w 1 w 2 w 3 w w w Das Ergebnis ist offenbar symmetrisch, wobei die Dichte der Besetzung je nach Kontextdefinition nicht unbedingt eine Dimensionsreduktion zur Folge haben muss. Am obigen Beispiel lässt sich 78

87 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken gut der Unterschied der Messung der Ähnlichkeit der Wortkontexte und der direkten Assoziationsstärke zu anderen Worten erkennen. Offenbar sind w 1 und w 3 stark assoziiert, denn w 1 ist sechsmal mit w 3 im gleichen Kontext gefunden worden. Vergleicht man aber die nun entstandenen Kontexte, also erneut die Zeilenvektoren, ergibt sich eine (euklidische) Distanz zwischen w 1 und w 2 von etwa 4,9, für w 1 und w 3 etwa 8,5, also genau das gegenteilige Ergebnis als wenn man die Assoziation betrachtet. Das liegt in diesem Fall natürlich hauptsächlich daran, dass die Diagonale mit 0 in die Berechnung eingeht, was bei drei Begriffen stark ins Gewicht fällt, bei tausenden oder sogar hunderttausenden aber nicht mehr 48. Dennoch illustriert das Beispiel gut, dass es wichtig ist im Auge zu behalten, was genau gemessen werden soll. Als Faustregel scheint sich intuitiv ableiten zu lassen, dass ein größerer Kontext auch weiter entfernte, aber dennoch semantisch ähnliche Begriffe erreichen kann. Möchte man allerdings Kontexte vergleichen, führt eine größere Kontext-Definition auch unweigerlich zu einem größeren Rauschen. Auf der anderen Seite lässt sich, wie oben bereits erwähnt, sagen, dass eine engere Definition mehr syntaktische Zusammengehörigkeit erfasst, dafür aber entferntere Konzepte nicht mehr aufgreift. Generell scheint es also für die Messung von strenger Bedeutungsähnlichkeit sinnvoll, nur einen sehr kleinen Kontext um einen Begriff zu betrachten und dann zu messen, wie ähnlich sich zwei Kontexte sind, wobei dies ja implizit der Frage entspricht, wie gut sich Begriff A durch Begriff B in allen im Corpus vorhandenen Kontexten austauschen ließe. Ist man zum Beispiel daran interessiert, mit welchen Verben ein Substantiv assoziiert ist, hilft die Messung kaum, da ein Verb wohl in fast keinen Fall an genau die gleiche Stelle eines Satzes beziehungsweise Kontextes eingesetzt werden kann, an der vorher ein Substantiv stand. In letzterem Beispiel würde man also sicher gut feststellen können, dass car und drive stark assoziiert sind, in ersterem wird die Ähnlichkeit extrem gering ausfallen. Auf der anderen Seite werden dann car und automobile eine große Ähnlichkeit aufweisen, die sicherlich auch assoziiert sind, aber eben eventuell nicht so stark wie sich ihre Kontexte ähneln. Außer für die formale Definition so könnte man denken lohnt die Definition über die Matrix nicht richtig, denn in konkreten Anwendungsszenarien würde man ob der enormen Datenmengen wohl eher eine Datenbank zur Verarbeitung, denn eine komplett im Speicher befindliche Matrix- Struktur verwenden. An dieser Stelle soll aber noch kurz auf eine Technik eingegangen werden, die in der Literatur ebenfalls oft als weiterer Verarbeitungsschritt genannt wird: Dimensionsreduktion beziehungsweise smoothing der Matrix. Eine sehr einflussreiche Arbeit auf diesem Gebiet stammt von Landauer und Dumais (1997), die ein Verfahren namens Latent Semantic Analysis etabliert haben. Bei diesem Verfahren kommt die dünn besetzte Wort-Dokument-Matrix zum Einsatz, die mit Hilfe des Verfahrens der Singulärwertzerlegung nachverarbeitet wird. Die Idee dabei ist, dass die sehr hochdimensionale Ausgangsmatrix von drei Matrizen niedrigeren Ranges approximiert wird. Wenn also die Ursprungsmatrix X ist, dann sucht man ein ˆX so, dass die Frobenius-Norm der Differenz von X und ˆX minimiert wird. Dabei soll ˆX als Produkt von drei Matrizen ˆX = UΣK gebildet wird. Σ ist dabei eine Diagonalmatrix mit den Singulärwerten. Will man die Dimension reduzieren, wählt man aus dieser Matrix nur die obersten k Singulärwerte aus. Turney et al. (2010) beschreiben dies unter anderem als Rauschverminderung. Die höheren 48 Man könnte natürlich in der Diagonalen auch die tatsächlichen Werte dafür eintragen, wie oft ein Wort in einem Kontext auf sich selbst gestoßen ist. Da man per Definition aber annehmen kann, dass ein Wort zu sich selbst die maximale semantische Ähnlichkeit hat, betrachtet man diesen Fall im Allgemeinen nicht. 79

88 Kapitel 2. Semantik und semantische Ähnlichkeit Singulärwerte beschreiben dabei die Komponenten der Matrix, die für die größte Varianz, also das Signal, verantwortlich sind. Landauer und Dumais haben das Verfahren eher über die Aufdeckung von versteckter (latent) Bedeutung motiviert. Eine größere Dimensionsreduktion sorgt dafür, dass ähnliche Begriffe und Kontexte sich stärker annähern müssen, da die Ausdrucksstärke der niedrigdimensionaleren Matrixform ja geringer ist. Das Ergebnis ist eine dicht besetzte Approximation, die mit den gleichen vektor-basierten Methoden für die Ähnlichkeitsmessung bearbeitet werden kann. Die Autoren haben in ihrer Arbeit gezeigt, dass abhängig von der Anzahl der behaltenen Dimensionen hochsignifikante Unterschiede bei einem Test, namentlich dem TOEFL-Test (vgl ), auftreten. Mit einem Corpus von etwa Dokumenten, die als Kontexte aufgefasst wurden, und einem berücksichtigten Vokabular von etwa Worten konnten für niedrigere Dimensionen bessere Ergebnisse bis zu einem Maximum von etwa 64,4% korrekter Antworten bei etwa 300 beibehaltenen Dimensionen der Singulärwertmatrix erreicht werden. Interessanterweise wurde das Verfahren bei weniger und deutlich mehr erhaltenen Dimensionen deutlich schlechter, was vermutlich auf der einen Seite auch an der für die Messung von Synonymie ungünstig großen Kontext-Definition liegt, auf der anderen Seite an einer zu starken Kompression der Ursprungsdaten. Die Arbeit hat eine Reihe von Folgearbeiten beeinflusst, die sich ebenfalls mit algebraischen Operationen auf den zugrundeliegenden Matrix-Strukturen auseinandergesetzt haben. Turney et al. (2010) geben hierzu eine Reihe von Literaturhinweisen, auf die an dieser Stelle nicht weiter eingegangen werden soll. Auch wenn mit Hilfe dieser Technik Verbesserungen bei der Berechnung semantischer Ähnlichkeit erreicht werden konnten, hat ein solches Verfahren verschiedene Nachteile (Sahlgren, 2005). Zunächst ist die Singulärwertzerlegung bezüglich ihrer Berechnungskomplexität sehr aufwändig, wozu kommt, dass neue Daten nicht inkrementell hinzugefügt werden können. Nachdem die initiale Ausgangsmatrix aufgestellt wurde, wird die Zerlegung einmal durchgeführt und muss nach jeder Änderung an den Ursprungsdaten komplett wiederholt werden. Außerdem klingt dabei schon der dritte und vermutlich größte Nachteil an: Wenn das Verfahren tatsächlich mit der Motivation der Dimensionsreduktion genutzt werden soll, so erfordert es trotzdem die initiale Erfassung der gesamten Matrix und bringt damit keinen Vor-, sondern lediglich die oben genannten Nachteile. Die Verbesserungen in der Performance auf Basis der Ergebnisse bleiben davon natürlich unberührt. Eine Alternative, die von Sahlgren (2005) vorgeschlagen wurde, ist das so genannte Random Indexing. Die Idee dabei ist, ebenfalls die große Ausgangsmatrix durch eine niedrigdimensionalere Version zu approximieren. Anstatt wie oben beschrieben jedes Dokument als einen zu jedem anderen Dokument orthogonalen Vektor darzustellen, also einen Vektor, der genau so viele Dimensionen hat wie es Dokumente gibt und genau an einer Position eine 1 hat, sonst Nullen, wird jedes Dokument durch einen nahezu orthogonalen Vektor deutlich geringer Dimension beschrieben. Dieser neue Index-Vektor ist ebenfalls hochdimensional, aber deutlich niedrigdimensionaler als die ursprünglichen. Die Dimension wird vorher festgelegt und für jedes Dokument beziehungsweise jeden Kontext wird ein Vektor generiert, der ebenfalls fast überall 0 ist, jedoch an wenigen zufällig gewählten Positionen 1 oder -1. Danach geht man genauso vor wie sonst und addiert für jedes Vorkommen eines Begriffs den entsprechenden Index-Vektor auf den bereits vorhandenen Zeilenvektor des Wortes. Auf diese Weise entsteht ebenfalls eine Matrixapproximation bei der die Zeilenvektoren mit den gleichen Mitteln miteinander verglichen werden können, jedoch nun mit deutlich niedriger Dimension. Karlgren und Sahlgren (2001) haben das 80

89 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Verfahren ebenfalls auf den TOEFL-Test angewandt und vergleichbare Ergebnisse zu denen von Turney et al. erreicht. Durch Variation der Kontext-Definition und linguistisches Preprocessing sogar bis zu 72% korrekte Antworten Messung von Assoziationsstärke und Kontextähnlichkeit Wie oben bereits mehrfach betont wurde, ist es wichtig zu unterscheiden ob direkt Assoziationsstärke als Maß für semantische Ähnlichkeit gemessen werden soll oder ob semantische Ähnlichkeit über die Ähnlichkeit der Kontexte von Begriffen definiert wird. Da letzters lediglich ein Aufsatz auf ersteres ist, gehört zu jedem Ähnlichkeitsmaß eine Maß für die Assoziationsstärke. In der Literatur tauchen hierzu verschiedene Möglichkeiten auf, von denen an dieser Stelle einige besprochen werden sollen. Eine Veröffentlichung, die im Rahmen dieser Arbeit erschienen ist, Neubauer et al. (2013a), behandelt ebenfalls einige der vorgestellten Maße. Grundsätzlich könnte man, wie im Beispiel des vorherigen Abschnitts suggeriert wird, auch einfach die rohen gemeinsamen Häufigkeitsfrequenzen miteinander vergleichen, dabei fallen aber schnell zwei gewichtige Probleme auf. Das kleinere ist die Abhängigkeit der Corpus-Größe, die entsteht wenn die tatsächlichen Häufigkeiten betrachtet werden. Da die Maße aber wünschenswerterweise unabhängig davon sein sollten, wie groß der betrachtete Corpus war, muss mindestens eine Form von Normalisierung stattfinden. Das wichtigere Problem entsteht durch die Verteilung von Worthäufigkeiten in natürlicher Sprache. Offenbar tritt der Begriff the deutlich häufiger tatsächlich ist dies sogar der häufigste Begriff in der englischen Sprache auf, als etwa das Wort car. Dieses Verhalten wird oft als Zipf s Law (Zipf, 1935) bezeichnet, der Aussage, dass die Auftretenswahrscheinlichkeit eines Wortes umgekehrt proportional zu seiner Rangfolge bezogen auf seine Gesamthäufigkeit ist. Kurz: Das häufigste Wort einer Sprache tritt etwa doppelt so häufig auf wie das zweithäufigste und so weiter. Generell basieren die meisten Maße für Assoziationsstärke auf den Werten, die sich aus der folgenden Kontingenz-Tabelle ableiten lassen. A Ā Gesamt B A B Ā B n(b) B A B Ā B n( B) Gesamt n(a) n(ā) n Nimmt man an, dass a und b zwei Begriffe sind, dann kann die Tabelle mit den Häufigkeiten des einzelnen oder gemeinsamen Auftretens gefüllt werden. Analog zur Betrachtung von zwei Begriffen kann man natürlich auch die nicht zusammengefasste Variante von Begriffe und Kontexten heranziehen, für die Verfahren spielt das aber keine Rolle. Zum besseren Verständnis wird im Folgenden immer von einer term-term-matrix ausgegangen, also das gemeinsame Auftreten von Begriffen in einem Kontextfenster gezählt. Im Folgenden ist die Tabelle einmal mit tatsächlich ermittelten Werten einer Erhebung auf Basis der Kombination des ukwac mit WaCkypedia_EN gegeben, wobei ein Kontext-Fenster von nur einem Begriff nach links und rechts gewählt wurde. 81

90 Kapitel 2. Semantik und semantische Ähnlichkeit car nicht car Gesamt driver nicht driver Gesamt Das sehr kleine Kontext-Fenster erklärt damit zum Teil auch die geringe Frequenz für das Auftreten der beiden hier betrachteten Begriffe car und driver. Auf den hier aufgetragenen Werten basieren die Maße zur Assoziationsstärke, von denen einige im Folgenden beschrieben werden sollen. Anstatt also im Zeilenvektor der term-term-matrix, der den Begriff car beschreibt, in der Spalte, die zu driver gehört, den Wert 2830 zu betrachten, wird dieser letztlich durch einen von einem Assoziationsstärke-Maß ermittelten ersetzt, etwa der Wahrscheinlichkeit, dass beide Begriffe in einem Kontext auftreten, der ja , entsprechen würde Bedingte Wahrscheinlichkeit Wenig geeignet für ein reines Maß der Assoziationsstärke, aber dafür umso gebräuchlicher beim Vergleich von Kontexten sind einfache bedingte Wahrscheinlichkeiten. Dabei wird, ähnlich wie im vorherigen Abschnitt bereits angesprochen wurde, jede Zelle des Zeilenvektors eines Wortes durch die bedingte Wahrscheinlichkeit, dass das betreffende andere Wort auftritt, wenn das Wort der Zeile bereits im Kontext aufgetreten ist, ersetzt. v i = p(w i w) = n(w i, w) Σ wi n(w i, w) Offenbar ist dies nichts anderes als die ermittelte Frequenz des gemeinsamen Auftretens dividiert durch eine Konstante, der Summe der gemeinsamen Auftretenshäufigkeiten über alle Worte. Hiermit die Assoziationsstärke zu ermitteln wird also wenig helfen, da die reine Auftretenshäufigkeit dividiert durch eine Konstante die Rangordnung der Begriffe nicht ändert, somit bleibt der Effekt von Zipf s Law und jedes Wort wird für sich genommen, also nach Stufe 2 der Kriterien zur Messung semantischer Ähnlichkeit aus Abschnitt 2.1, vermutlich die größte Assoziation mit the oder einem anderen Funktionswort aufweisen. Dennoch hat man erreicht, dass nun die Summe aller Vektorelemente 1 ergibt, was für eine bessere Vergleichbarkeit der entstehenden Zeilenvektoren sorgt, also die Kontexte vergleichbar macht Pointwise Mutual Information Eines der ersten Ähnlichkeitsmaße, das nicht (direkt) auf bedingten Wahrscheinlichkeiten basiert, ist das von Hindle (1990). Seine Intention war es zwar ebenfalls Kontexte zu vergleichen, aber um dies zu tun verwendete er das Maß der Pointwise Mutual Information. Die Idee dieses Maßes 82

91 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken von Assoziationsstärke zweier Begriffe ist es zu vergleichen, wie die Häufigkeit des gemeinsamen Auftretens die erwartete Häufigkeit über- oder unterschreitet. Die Definition lautet wie folgt: P MI(x, y) = log 2 p(x, y) p(x) p(y) log 2 n(x) N n(x,y) N p(x) ist hierbei die Wahrscheinlichkeit, dass ein Begriff x in einem Kontext auftritt, berechnet sich also quasi als Quotient aus der generellen Auftretenshäufigkeit n(x) und der Anzahl der betrachteten Kontexte N. Sind die Auftretenswahrscheinlichkeiten von x und y unabhängig voneinander, so wäre der Zähler gleich dem Nenner, da die gemeinsame Wahrscheinlichkeit dann p(x) p(y) entsprechen würde. Treten sie seltener als erwartet gemeinsam auf, wird der Bruch also kleiner 1, treten sie häufiger auf, größer. Durch den Logarithmus wird P MI also Werte kleiner 0 für unerwartet schwache Assoziationen und größer 0 für unerwartet starke Assoziationen liefern. Hindle bezeichnet dieses Verfahren als Normalisierung der Frequenzen anhand der Erwartung. Generell liefert das Verfahren also höhere Werte für Begriffe, die stärker miteinander assoziiert sind und umgeht durch die Normierung anhand der Erwartung, in die ja die generelle Auftretenswahrscheinlichkeit eines Begriffs einfließt, auch das Problem, das durch Zipf s Law entstanden ist. Hindle hat sich in seiner Arbeit mit der Messung der Ähnlichkeit von Substantiven beschäftigt, aber da er die Ähnlichkeit der Kontexte gemessen hat, wird sein Verfahren in Abschnitt beschrieben. Eine weitere sehr bekannte Arbeit stammt von Turney (2001), der PMI tatsächlich als Maß für Assoziationsstärke verwendet hat. In seiner Arbeit verwendet er allerdings keinen vorhandenen Text-Corpus, sondern nutzt eine Suchmaschine, um zu ermitteln in wie vielen Dokumenten zwei Begriffe gemeinsam oder alleine auftreten. Dabei untersucht er zusätzlich, welchen Einfluss die Kontext-Größe und die Berücksichtigung von Negation anhand des Partikels not auf das Ergebnis haben. Im Vergleich mit seiner früheren Arbeit auf Basis von Latent Semantic Analysis, das allerdings auf dem Vergleich von Kontexten beruht, erreicht er mit einem sehr großen Kontext, nämlich einer kompletten Webseite, mit 62,5% korrekter Antworten beim TOEFL-Testset (vgl. Abschnitt 2.2.6) ein ähnliches Ergebnis. Bei einem kleiner gewählten Kontext mit einem Wortfenster der Größe 10 kann er das Ergebnis auf 72,5% deutlich verbessern. Die Berücksichtigung von Negation bringt lediglich eine weitere korrekte Antwort und damit 1,25-Prozentpunkte mehr. Bedauerlicherweise ist das verwendete Testset, wie im zugehörigen Abschnitt beschrieben, eigentlich ungeeignet, um konkrete Aussagen zur Qualität des Maßes zu treffen, dennoch stellen die Ergebnisse eine gewisse Plausibilität der Anwendungsberechtigung sicher. Überraschend ist, dass das Maß, das Assoziationsstärke misst, dem, das Kontexte vergleicht, in einem Test wie TOEFL, das lediglich Synonymie-Beziehungen betrachtet, überlegen ist. Eine Vielzahl von Arbeiten basiert auf dem PMI-Maß, wodurch es als Standardverfahren oder Baseline-Maß betrachtet werden sollte. Auch Baroni und Lenci (2011) haben eine Variante hier- n(y) N. 83

92 Kapitel 2. Semantik und semantische Ähnlichkeit von herangezogen, um ihr BLESS-Datenset initial auszuwerten (vgl. Abschnitt 2.2.5). Ein oft genanntes Problem von PMI ist die Tatsache, dass es dazu neigt, generell sehr selten auftretende Begriffe stark überzubewerten und unzuverlässig bei der Berechnung von negativen Werten zu sein (Turney et al., 2010). Baroni und Lenci haben um dies zu umgehen etwa den berechneten PMI-Wert lediglich als Gewichtungsfaktor auf die vorhandenen Häufigkeitsfrequenzen angewandt. Eine andere Alternative ist es, nur positive PMI-Werte zu betrachten, wobei ersteres Problem natürlich nicht umgangen wird. Andere Autoren schlagen Smoothing-Techniken oder andere Gewichtungsfaktoren vor, Turney et al. (2010) beispielsweise liefern hierzu Vorschläge Normalized Similarity Score Ein Maß, das explizit entwickelt wurde, um semantische Assoziationsstärke zu messen, wurde von Cilibrasi und Vitanyi (2007) vorgestellt. Ihre Arbeit beschreiben sie als einen Weg, Assoziationen zwischen Begriffen aufzudecken, die wahrscheinlich auf eine (semantische) Beziehung zwischen ihnen schließen lässt. Das Maß geht, genau wie PMI, auf die Anzahl der Dokumente (oder Kontexte) zurück, in denen zwei Begriffe gemeinsam oder einzeln auftreten. Die entstandene Formel für das Ähnlichkeitsmaß beziehungsweise dessen Motivation führen die Autoren auf die Kolmogorov-Komplexität und Informations-Distanz zurück. Für die theoretische Herleitung sei auf die oben genannte Veröffentlichung verwiesen. Letztlich ergibt sich als Distanz-Maß: NGD(x, y) = max {log f(x), log f(y)} log f(x, y). log M min {log f(x), log f(t)} Das Maß nennen die Autoren Normalized Google Distance, da sie für f(x) beziehungsweise f(x, y) nicht die Häufigkeitsfrequenzen in einem Corpus betrachten, sondern die Anzahl der gelieferten Dokumente, die eine Google-Suche für die entsprechenden Terme zurückliefert. Auch wenn zwischen verschiedenen Autoren hier offenbar keine Einigkeit herrscht Agirre et al. (2009) sind etwa der Meinung, dass die gerundeten Trefferzahlen einer Suche weniger aussagekräftig als die aus einem großen Corpus stammenden seien, geben die Autoren an, dass Linguisten der Meinung seien, dass die Genauigkeit der Ergebnisse ausreichend sind. Für die Betrachtung des Maßes an sich spielt das letztlich keine Rolle, denn, die über die Funktion f ermittelten Häufigkeitswerte können aus einer beliebigen Quelle entnommen werden also insbesondere auch einem Corpus. Warum es sich hierbei um ein sehr gut funktionierendes Maß für Assoziationsstärke handelt, ist beim Betrachten der Formel nicht sofort eingängig. Offenbar ist es jedoch so, dass der Zähler gegen 0 geht, wenn für den häufiger überhaupt auftretenden Begriff der beiden, dieser quasi immer gemeinsam mit dem anderen auftritt. Der Nenner wird größer, wenn der seltenere der beiden Begriffe insgesamt häufiger im Corpus auftritt. Dieses Verhalten entspricht in etwa der Idee, die viele der WordNet-basierten Maße (vgl. Abschnitt 2.3.3) vertreten. Nimmt man zwei Begriffspaare (x, y) und (a, b) an, wobei die Frequenz von x etwa der von y entspricht, sowie a der von b, insgesamt a und b aber deutlich seltener sind, als x und y, dann wird bei gleichen Verhalten in der gemeinsamen Häufigkeit je Paar das seltenere von beiden, also (a, b), den höheren Ähnlichkeitswert erhalten. Bei den WordNet-basierten Maßen entspricht dies etwa der Intuition, spezielleren Konzepten, die sich tiefer in der Hierarchie befinden, höhere Ähnlichkeitswerte zuzuweisen als 84

93 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken allgemeineren Konzepten. Zu bedenken gilt es, dass es sich um ein Distanz-Maß handelt, deshalb wird oft der so genannte Normalized Similarity Score als Ähnlichkeitsmaß herangezogen: NSS(x, y) = 1 NGD(x, y). Cilibrasi und Vitanyi haben die Ergebnisse ihres Maßes in verschiedenen Anwendungsszenarien getestet, bedauerlicherweise nicht mit einem standardisierten Testset. Dennoch sprechen die einzelnen Auswertungen und Ergebnisse dafür, dass das Maß sehr gut für das Ermitteln von Assoziationsstärke und damit semantischer Ähnlichkeit eingesetzt werden kann. Lindsey et al. (2007) haben in ihrer Arbeit das oben beschriebene PMI-Maß mit NSS auf verschiedenen Corpora getestet, wobei sie ebenfalls Google verwendet haben, die zu durchsuchenden Seiten jedoch mit Hilfe der Google-eigenen Query-Syntax eingeschränkt. Dabei liefert NSS in fast allen Fällen deutlich bessere Ergebnisse als PMI. Als Datenset kamen die Free Association Norms (vgl. Abschnitt 2.2.4) zum Einsatz, wobei PMI etwa eine Diskriminations-Genauigkeit von 60,9% auf dem Wikipedia-Corpus erreicht, NSS im Vergleich 65,4% Bidirectional Co-occurrence Measure Im Rahmen dieser Forschungsarbeit wurden ebenfalls eigene Experimente mit gemeinsamen Häufigkeitsfrequenzen durchgeführt. Die im Folgenden dargestellten Ergebnisse dieser Arbeit sind auch in Neubauer et al. (2013a) veröffentlicht 49. Grundlage des Maßes, das ebenfalls darauf abzielt, Assoziationsstärke zwischen Begriffen und nicht Kontexten zu messen, sind die gemessenen Häufigkeitsfrequenzen, die mit einem Standardgewichtungsverfahren und Normalisierung kombiniert werden. Die Intuition, der die folgende Definition folgt, ist die, für zwei Begriffe zu betrachten wie wichtig sie in ihrem gegenseitigen Kontext sind. Dazu betrachten wir zuerst eine Art gerichtetes Maß: d(a, b) = f(a, b) idf(b). f(a, b) ist dabei die ermittelte Anzahl von gemeinsamem Auftreten der Begriffe a und b in einem Kontext. Genau wie oben bereits beschrieben besteht für die reine gemeinsame Häufigkeit für einen festen Begriff a weiterhin der Effekt von Zipf s Law für die Häufigkeitsverteilung der zugehörigen Begriffe. Die idf-funktion steht für Inverse Document Frequency und ist ein Standard- Gewicht bei der Informations-Extraktion. Die ursprüngliche Idee dieser geht auf Jones (1972) zurück und folgt der Intuition, dass ein unerwartet häufiges Auftreten im Vergleich zur Auftretenshäufigkeit über alle Dokumente oder Kontexte eines Corpus mehr Informationsgehalt hat, als ein erwartetes Verhalten. Die Inverse Document Frequency modelliert dabei die Häufigkeit oder Seltenheit eines Begriffs über alle Kontexte: 49 Die Ergebnisse wurden auf der zugehörigen Konferenz Language and Technology Conference unter dem Vorsitz von Zygmunt Vetulani, Adam Mickiewicz Universität, und Hans Uszkoreit, DFKI, im Dezember 2013 in Polen einem internationalen Fachpublikum vorgestellt. 85

94 Kapitel 2. Semantik und semantische Ähnlichkeit idf(a) = log N f(a). f(a) ist hier die Anzahl der Kontexte, in denen der Begriff a aufgetreten ist, N ist die Gesamtzahl der betrachteten Kontexte. Der Quotient geht für sehr häufige Begriffe gegen 1 und bringt damit den Logarithmus dichter gegen 0. Auf diese Weise wird der Partner b für ein festes a in d(a, b) gedämpft oder verstärkt, je nachdem wie groß die erwartete Häufigkeit laut idf ist. Damit ist d n (a, b) ein Maß dafür, wie wichtig b im Kontext von a ist. Zunächst unwichtig, aber für den nächsten Verarbeitungsschritt relevant ist letztlich die Normierung: d n (a, b) = d(a, b) max t T d(a, t). Wobei einfach ausgehend von allen Worten t der Menge T aller im Corpus vorkommenden Worte, dasjenige mit dem maximalen Wert im Kontext von a gewählt wird, so dass d n nun im Intervall von [0, 1] liegt. Tabelle 2.8 zeigt die errechneten Beispielwerte für drei Begriffe und ihre paarweise ermittelte Ähnlichkeit oder besser Wichtigkeit in ihrem gegenseitigen Kontext. a/b rain weather the rain weather the Tabelle 2.8: Beispielwerte für d n (a, b). Offenbar ist das entstandene Maß nicht symmetrisch und weiterhin ist zu erkennen, dass trotz der Gewichtung mit idf im Kontext von rain und weather immernoch the das als am wichtigsten betrachtete Wort ist. Da die Intuition des eigentlichen Maßes aber die war, zu betrachten wie wichtig zwei Begriffe gegenseitig in ihrem jeweiligen Kontext sind, lässt sich leicht die Tatsache ausnutzen, dass im Kontext von the also von der anderen Richtung aus betrachtet die Worte rain und weather relativ unwichtig sind, beide zueinander aber relativ wichtig. bcm(a, b) = d n (a, b) d n (b, a) Wir definieren also letztlich bcm als Maß der Assoziationsstärke von zwei Begriffen a, b als das Produkt ihrer Wichtigkeit im gegenseitigen Kontext. Hier wird nun auch deutlich, dass die Normierung eine wichtige Rolle gespielt hat, denn so erreicht man die Werte aus Tabelle 2.9, die nun das wünschenswerte Ergebnis zeigen, dass rain und weather gegenseitig stark assoziiert sind, während the für beide einen viermal niedrigeren Wert erreicht. Insgesamt liegen die Werte immer noch im Intervall von [0, 1], allerdings ist die Verteilung der Ähnlichkeitswerte jetzt deutlich steiler abfallend, da zwei normierte Werte miteinander multipliziert werden und die Verteilung der unverarbeiteten Worthäufigkeiten, selbst mit idf gewichtet immer einer eher exponentiellen 86

95 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Ordnung folgen. Für die Rangordnung spielt dies natürlich keine Rolle, allerdings muss diese Tatsache beachtet werden, wenn etwa Kontextvektoren, die mit BCM-Werten gefüllt werden, verglichen werden sollen, oder wenn versucht werden soll, die höheren Stufen der Kriterien zur Messung semantischer Ähnlichkeit aus Abschnitt 2.1 lineare Korrelation zu bedienen. a/b rain weather the rain weather the Tabelle 2.9: Beispielwerte für bcm(a, b). Insgesamt handelt es sich bei BCM also um ein symmetrisches Ähnlichkeitsmaß, das auf einer relativ intuitiven Idee basiert, für jeden der beiden Begriffe den jeweils anderen im entsprechenden Kontext zu betrachten. Hierzu kommen lediglich Standard-Verfahren der Literatur zum Einsatz, die das Maß zudem nachvollziehbar und eingängig machen. Evaluation Um zu ermitteln, wie gut die Ergebnisse, die BCM als Ähnlichkeitsmaß liefert, im Vergleich zu etablierten Methoden ist, wurden verschiedene Datensets (vgl. Abschnitt 2.2) herangezogen. Um eine Vergleichbarkeit der Ergebnisse sicherzustellen, wurde für die sonst gleichen Parameter außerdem jeweils PMI und NSS berechnet, mit denen das neu definierte Maß verglichen werden soll. Die verwendeten Parameter für die folgenden Ergebnisse waren für die Wahl des Corpus eine nicht vorverarbeitete Version der englischen Wikipedia aus dem Jahr Als Kontext wurde ein sich verschiebendes Textfenster von 3 Sätzen gewählt, so dass ein gemeinsames Auftreten zweier Worte genau dann gezählt wurde, wenn für ein Wort das jeweils andere entweder im gleichen oder eben im folgenden oder vorherigen Satz auftauchte. Auf eine linguistische Verarbeitung wurde verzichtet, die reinen Wortvorkommen wurden erfasst. Zunächst wurde das WordSim-353-Datenset (vgl. Abschnitt 2.2.3) herangezogen. Mit diesem lässt sich die Übereinstimmung mit der Ähnlichkeitswahrnehmung von Menschen direkt vergleichen, da bewertete Wortpaare vorliegen. Natürlich sollte man trotzdem die negativen Eigenschaften und damit einhergehenden Einschränkungen für die Ergebnisse im Hinterkopf behalten. Grob dem Experiment-Design von Finkelstein et al. (2001) folgend, wurden zwei Tests durchgeführt. Im ersten Test wurden einfach für jedes Begriffspaar die Ähnlichkeitswerte für die drei Maße berechnet und anschließend die Rangkorrelation dieser mit den Bewertungen der Menschen verglichen. Diese Auswertung entspricht Stufe 4 der Kriterien zur Messung semantischer Ähnlichkeit aus Abschnitt 2.2. Außerdem wurde ein Test auf Basis der zweiten Stufe durchgeführt, dabei wurden Gruppen von Wortpaaren gebildet, wobei immer ein Begriff der Gruppe für jedes darin enthaltene Wortpaar gleich sein musste. Auch hier wurde die Rangkorrelation ermittelt, allerdings für jede Gruppe separat. Die erreichten Werte wurde dann mit der Größe der Gruppe gewichtet und der Durchschnitt errechnet. Tabelle 2.10 und 2.11 zeigen die erreichten Ergebnisse. Diese zeigen, dass alle Maße hinreichend 87

96 Kapitel 2. Semantik und semantische Ähnlichkeit Maß Korrelation Maß Korrelation PMI NSS BCM Tabelle 2.10: Korrelation ohne Gruppierung. PMI NSS BCM Tabelle 2.11: Durchschnittliche Korrelation über alle Gruppen. gut in der Lage sind, die menschliche Ähnlichkeitswahrnehmung zu approximieren. NSS erreicht im ungruppierten Test die besten Ergebnisse, jedoch sind die Differenzen der Werte für n = 353 nicht signifikant unterschiedlich 50. Bei der Gruppierung sind insgesamt 202 Gruppen entstanden, die mindestens 2 Wortpaare enthalten haben. Wegen der hohen Anzahl der Gruppen im Vergleich zur Gesamtgröße des Datensets hatte jede Gruppe im Mittel nur etwa 2,55 Wortpaare, meist musste das Maß also lediglich zwei Wortpaare in die richtige also von den Testsubjekten definierte Ordnung bringen. Hier schneidet BCM am besten ab und für PMI zeigt sich ein deutlich schlechterer Wert als für die beiden anderen Maße. Betrachtet man die Menge der ermittelten Durchschnittswerte mit einem Tukey-Test sind die Unterschiede nun auf dem Niveau α = 0,05 auch signifikant. Als weiteres Testset wurde das Testset der Free Association Norms (vgl. Abschnitt 2.2.4) verwendet. Auch hier sollten die Nachteile des Datensets, wie im obigen Abschnitt besprochen, bei der Ergebnisauswertung bedacht werden. Der große Vorteil des Sets ist es aber sicherlich, dass es so enorm groß und vielfältig ist. Für die dargestellten Ergebnisse wurde der gleiche Versuchsaufbau wie von Lindsey et al. (2007) vorgeschlagen verwendet. Für jeweils einen festen cue-begriff wird eine Gruppe von Wortpaaren gebildet, die diesmal deutlich größer ausfallen. Insgesamt können 5018 Gruppen gebildet werden, die jeweils im Mittel 28,8 Wortpaare enthalten. Für jedes dieser n Wortpaare, das als echt semantisch ähnlich gilt, wird aus der übrigen Menge der im Testset vorhanden Worte die gleiche Menge n an Worten zufällig gewählt, die zusammen mit dem cue-begriff als falsches Wortpaar in die Menge eingefügt wird. Die 2n Wortpaare werden anschließend durch die drei Ähnlichkeitsmaße bewertet und nach ihrer Bewertung sortiert. Gemessen wird nun wie viele der n am ähnlichsten bewerteten Wortpaare echte waren. Ein ratender Algorithmus würde also eine Baseline von 50% erreichen. Maß Genauigkeit gewichte Genauigkeit PMI 0,773 0,767 NSS 0,780 0,774 BCM 0,796 0,791 Tabelle 2.12: Genauigkeit bei Messung der Diskriminationsfähigkeit. 50 Zum Test der Signifikanz wurden die Koeffizienten Fischer-z-transformiert und die entstandenen Werte verglichen (vgl. Bosch (1998)). 88

97 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Tabelle 2.12 zeigt die Ergebnisse des Tests, der der ersten Stufe der Kriterien zur Messung semantischer Ähnlichkeit entspricht. Wieder liegen die Ergebnisse der Maße relativ dicht beieinander, wobei BCM erneut das beste Ergebnis verbuchen kann. In der mittleren Spalte ist das Ergebnis bei einfacher Durchschnittsbildung aufgetragen, in der rechten wurde jede Gruppe noch mit ihrer Größe gewichtet. Alle Maße verlieren hier etwas an Genauigkeit, was vermutlich daran liegt, dass in größeren Gruppen die Tendenz zu Fehlern naturgemäß ebenfalls größer ist. Die Ergebnisse sind ebenfalls auf α = 0,05 Niveau signifikant, was allerdings sicherlich auch an der enormen Größe des Datensatzes liegt. Ein weiteres Experiment, das von Maki et al. (2004) durchgeführt wurde, basiert ebenfalls auf der Messung der Korrelation der Bewertungen der Probanden mit den Ergebnissen der Maße. Da die Testpersonen im vorliegenden Datenset nicht die Ähnlichkeit von Wortpaaren bewerten sollten, sondern lediglich einen Begriff assoziieren, nutzen die Autoren die so genannte forward strength. Gemessen wird also die Rangkorrelation zwischen der Anzahl der Personen, die für einen gegebenen cue-begriff einen konkreten anderen Begriff assoziiert haben. Die Anzahl wird dann in Relation zur Gesamtanzahl der Probanden gesetzt, denen der cue-begriff gezeigt wurde. Kurz, haben 143 Personen den cue-begriff ability gesehen und von diesen 8 damit skill assoziiert, liegt die forward strength bei ,056. Maß Korrelation PMI 0,220 NSS 0,243 BCM 0,283 Tabelle 2.13: Rangkorrelation der Maße mit der forward strength der Free Assocation Norms. Die Ergebnisse des Tests sind in Tabelle 2.13 dargestellt. Die erreichten Korrelationen sind deutlich kleiner als etwa beim WordSim-353-Datenset, was allerdings nicht verwunderlich ist, da die forward strength selbst ja keine Ähnlichkeitsbewertung ist, sondern lediglich ein Maß, das vermutlich mit der Ähnlichkeitsbewertung korreliert ist. BCM zeigt auch hier den besten Wert, der auch im Vergleich mit den anderen Maßen erneut wegen der sehr großen Stichprobengröße von knapp sogar auf α = 0,01 Niveau signifikant besser ist. Maki et al. hatten mit einem Ansatz auf Basis von Latent Semantic Analysis (vgl. Abschnitt 2.4.4) eine Korrelation von 0,267 errechnet, die ebenfalls von BCM übertroffen wird. Ein Datenset, das sich für den Test eines Assoziationsstärke-Maßes eher nicht anbietet ist der TOEFL-Test (vgl. Abschnitt 2.2.6). Die einzige Art semantischer Beziehung, die hier betrachtet wird sind Synonyme und mit dem Assoziationsstärke-Maß wird ja grob gesagt ermittelt, wie oft zwei Begriffe im gleichen Kontext vorkommen. Für Synonyme ist es eher ungewöhnlich im gleichen Kontext vorzukommen, da diese sich ja ersetzen sollen. Es liegt also eigentlich auf der Hand, dass hier ein Vergleich der Kontexte bessere Ergebnisse liefern sollte. Trotzdem wurde der Test durchgeführt, der mit 62,5% korrekter Antworten, also 50 von 80, im Bereich des menschlichen Vergleichswerts für Nicht-Muttersprachler bei College-Bewerbern in den USA, 64,5%, liegt (vgl. Landauer und Dumais). Alle drei getesteten Maße erreichen hier das gleiche Ergebnis. 89

98 Kapitel 2. Semantik und semantische Ähnlichkeit Ein letztes Standard-Datenset, für das Ergebnisse ermittelt wurden, ist das BLESS-Set (vgl. Abschnitt 2.2.5). Da die Kritik der Autoren Baroni und Lenci (2011) gerade darauf abzielte, die Maße auf ein einzelnes Qualitätskriterium zu reduzieren, basiert das vorgeschlagene Experiment- Design auf illustrativen Box-Plots. Für alle knapp Wortpaare wurde die semantische Ähnlichkeit anhand der drei hier betrachteten Maße ermittelt. Anschließend wurde für jeden cue-term, also jedes Ausgangssubstantiv, eine Gruppe gebildet und in jeder Gruppe für jede Art der semantischen Beziehung, von denen ja acht verschiedene vertreten sind, dasjenige mit der größten semantischen Ähnlichkeit gewählt. Auf diese Weise entstehen pro Ausgangssubstantiv acht Werte, die anschließend z-transformiert werden. Die transformierten Werte werden dann neu nach Art der semantischen Beziehung gruppiert, und deren Verteilung in einem Standard- Box-Plot visualisiert. Abbildung 2.12 zeigt die Ergebnisse der Auswertung 51. Die dickere Linie der einzelnen Boxen ist der Median, die Kästen umfassen jeweils ein Quartil, also insgesamt 50% aller Datenpunkte. Die Whiskers enden entweder beim Mini- beziehungsweise Maximum oder beim 1,5-fachen Interquartilsabstand vom Median. Die weiter außerhalb liegenden Punkte werden als Ausreißer betrachtet. Interessanterweise zeigen PMI und NSS eine extrem ähnliche, aber nicht identische Auswertung. Beide Baseline-Verfahren sind gut in der Lage, die zufälligen von den echten semantischen Beziehungen zu unterscheiden, die Differenzen sind nach einem Tukey-Test auf α = 0,05 Niveau unterschiedlich. Allerdings sind auch die einzelnen drei Gruppen der zufälligen Paare (signifikant) voneinander zu unterscheiden, was dafür spricht, dass die Maße eine generelle Präferenz gegenüber Wortarten haben. Substantive werden höher bewertet als Verben, genau wie Verben höher als Adjektive. Dies lässt sich auch bei den echten semantischen Beziehungen nachvollziehen. BCM zeigt im Vergleich zu den Standard-Verfahren eine stärkere Streuung der Werte bei den echten Beziehungen, dafür sind die zufälligen deutlich dichter gepackt und auch statistisch nicht zu unterscheiden. Die übrigen Beziehungen das gilt auch für NSS und PMI sind alle signifikant unterscheidbar, allerdings nicht Verben (Events) von Hypernymen. Zudem muss man sagen, dass die Mediane außer bei den Co-Hypernymen, wo BCM den höchsten Wert verzeichnet, bei den Baseline-Verfahren höher liegen. Insgesamt zeigen die Ergebnisse, dass alle Maße eine starke Präferenz gegenüber dem semantischen Beziehungstyp von Co-Hypernymen haben. Diese Erkenntnisse sind insbesondere dann interessant, wenn man die Ergebnisse mit den Präferenzen von Menschen vergleicht, was in Abschnitt 2.5 näher beschrieben wird. Auch wenn sich anhand der Ergebnisse des BLESS-Datensets nicht festmachen lässt, welches Maß die besseren Ergebnisse liefert, lässt sich das Datenset trotzdem für ein weiteres Experiment nach dem gleichen Verfahren wie für die Free Association Norms nutzen. Hierbei wird erneut gemessen, wie gut ein Maß zwischen den echten semantischen Beziehungen und den Wortpaaren der kontrollierten Zufallsgruppe unterscheiden kann. Tabelle 2.14 zeigt, was sich bereits beim Betrachten der Boxplots vermuten lässt: Da die Differenzen der Mediane der Zufallsgruppen und der echten Gruppen bei den Baseline-Verfahren höher ausfällt, liegt nahe, dass diese Maße hier etwas bessere Ergebnisse liefern. Vergleicht man allerdings die Verteilungen der Genauigkeit über alle Gruppen, ist die Differenz nicht signifikant. 51 Die Plots wurden mit den Standard-Einstellungen des freien Statistik-Programms R erzeugt, wie auch in der Arbeit von Baroni und Lenci (2011). 90

99 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V (a) Boxplot der PMI-Ergebnisse. COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V (b) Boxplot of der NSS-Ergebnisse. COORD HYPER MERO ATTRI EVENT RAN.N RAN.J RAN.V (c) Boxplot der BCM-Ergebnisse. Abbildung 2.12: Ergebnisse der Evaluation des BLESS-Datensets. Dargestellt sind die Verteilungen der z-transformierten Ähnlichkeitswerte pro semantischer Beziehungsart. Betrachtet man die obigen Ergebnisse, lässt sich zusammenfassen, dass das Bidirectional Cooccurrence Measure je nach Testverfahren statistisch bessere oder nicht signifikant schlechtere Ergebnisse liefert als die beiden Standard-Verfahren der Normalized Google Distance und der Pointwise Mututal Information. Das Experimentieren mit verschiedenen Gewichtungstechniken, der Normalisierung und der Betrachtung von zwei Begriffen, die sich in der Formulierung in einer gerichteten Beziehung gegenüberstehen, hat also ein Maß hervorgebracht, das eine intuitiv nachvollziehbare Definition hat und somit eine empfehlenswerte Alternative zu den übrigen Verfahren der Literatur darstellt. 91

100 Kapitel 2. Semantik und semantische Ähnlichkeit Maß Genauigkeit PMI NSS BCM 0.77 Tabelle 2.14: Diskriminationsfähigkeit auf dem BLESS-Datenset Vektorielle Distanz und Ähnlichkeitsmaße von Kontexten Wie in der Einführung dieses Abschnitts bereits beschrieben wurde, gibt es verschiedene Möglichkeiten, Maße semantischer Ähnlichkeit auf Basis von gemeinsamen Auftretenshäufigkeiten zu definieren. In den vorherigen Abschnitten wurden Maße der Assoziationsstärke betrachtet, also solche, die nach Grefenstette (1994) first-order affinities sind. Begriffe sind sich dann ähnlich, wenn sie in einem Kontext gemeinsam auftreten. Hierauf aufbauen lässt sich nun die Idee der second-order affinites. Dabei sind sich Begriffe dann ähnlich, wenn sich ihre first-order affinities ähnlich sind. Im Allgemeinen werden hierzu die ermittelten Ähnlichkeiten erster Ordnung in einem Vektor zusammengefasst, so dass die Zeilenvektoren einer term-context-matrix gerade eine solche Repräsentation bilden. Anstatt jedoch die reinen Häufigkeitsfrequenzen zu betrachten, können auch direkt die ermittelten Zahlwerte der Assoziationswerte als Gewichte oder direkt als Werte der Zeilenvektoren gelten. Für das Vergleichen der Vektoren und deren wertmäßigen Inhalte gibt es in der Literatur verschiedene Verfahren und Kombinationen, von denen im Folgenden einige beschrieben werden sollen. Eine recht umfangreiche Übersicht bieten auch Mohammad und Hirst (2012). Standard Metriken: Cosinus, L 1 - und L 2 -Norm Die vermutlich am häufigsten genutzte Art (Turney et al., 2010), die Ähnlichkeit zweier solcher Vektoren zu vergleichen, ist die so genannte Cosinus-Distanz. Wenn x und y Kontext-Vektoren für die Begriffe ˆx und ŷ sind, dann ist der Cosinus des Winkels zwischen x und y gegeben als: x = x 1, x 2,..., x n y = y 1, y 2,..., y n cos(x, y) = x y x y = n i=1 x i y i n i=1 x2 i n. i=1 y2 i Die Idee dabei ist, dass letztlich das innere Produkt der Vektoren gebildet wird, nachdem diese auf eine Einheitslänge gebracht wurden. Das scheint sinnvoll, denn ein sehr häufig auftretendes 92

101 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Wort wird einen längeren Vektor haben, als ein sehr seltenes. Das Produkt sorgt dafür, dass Begriffe, die sehr häufig mit denselben Begriffen auftreten, größere Werte im Zähler erzeugen, so dass der Cosinus gegen 1 geht, der Winkel zwischen den Vektoren also sehr klein ist. Letztlich wird ein Wert aus [0, 1] berechnet, der direkt als Maß der Ähnlichkeit betrachtet werden kann. Beachten sollte man noch, dass Techniken wie LSA auch dazu führen können, dass negative Elemente in den Kontext-Vektoren auftreten. In diesem Fall kann der Cosinus auch negative Werte annehmen, was allerdings die Art der Distanz-Messung nicht beeinträchtigt. Bullinaria und Levy (2007) konnten bei einer experimentellen Evaluation zeigen, dass in vielen Fällen, zum Beispiel auch beim TOEFL-Test, das Cosinus-Maß auf Vektoren aus den Häufigkeitsfrequenzen, die mit PMI gewichtet wurden, die besten Ergebnisse liefert. Weeds et al. (2004) haben untersucht, inwiefern bestimmte Maße Begriffe bevorzugen also ihnen höhere Werte zuweisen wenn diese eine bestimmte Häufigkeit haben. Das Cosinus-Maß, dessen Vektorelemente in diesem Fall bedingte Wahrscheinlichkeiten waren, gehört demnach zu denen, die generell Begriffe höherer Gesamtfrequenz auch höher bewerten. Zwei weitere geometrisch motivierte Distanz-Maße sind die L 1 - oder auch Manhattan- beziehungsweise City-Block-Norm oder die euklidische, also L 2 -Norm: n L 1 (x, y) = x i y i i=1 L 2 (x, y) = n (x i y i ) 2. i=1 Bei beiden Maßen handelt es sich um Distanz-Funktionen, je größer also das Ergebnis, desto geringer die Ähnlichkeit. Etwas problematischer bei diesen Maßen ist die Tatsache, dass jede Vektor-Dimension direkten Einfluss auf das Ergebnis nimmt. Insbesondere dann, wenn ein x mit einem Begriff sehr stark assoziiert ist, y aber etwa gar nicht, fällt die Differenz hier sehr stark ins Gewicht. Dazu kommt, dass die Berechnung bei großen n aufwändiger ist, als beim Cosinus- Maß, da dort nur die Schnittmenge aller von 0 verschiedenen k i betrachtet werden muss, bei den obigen Maßen aber alle Dimensionen. Abbildung 2.13 (aus Weeds (2003)) veranschaulicht die Ähnlichkeitsmaße für die beiden Begriffe dog und bus, die als Vektoren im Raum der first-order affinities get und see aufgetragen sind. Maße auf Basis gemeinsamer Informationen Im Abschnitt , der PMI als Maß der Assoziationsstärke beschreibt, wurde bereits die Arbeit von Hindle (1990) erwähnt. Allerdings wurde von ihm PMI nicht allein verwendet, sondern (eine Variante davon) als Vektor- Komponenten genutzt, um Kontexte von Worten zu vergleichen. Seine Kontext-Definition war dabei von semantischen Beziehungen abgeleitet. Für jedes Substantiv hat er diejenigen Verben betrachtet, die in einer Objekt- oder Subjekt-Beziehung zu diesem in einem gegeben Corpus standen. 93

102 not shared by the two nouns and, as noted by Kaufman and Rousseeuw (1990) it is extremely sensitive to the effect of one or more outliers. In other words, a large difference in one dimension will have a strong influence on the overall score since the differences in each dimension are squared. Further increases in n lead to further increases of this effect, until L is reached, which is defined as the maximal distance between the points in any single dimension: Kapiteldist 2. L Semantik (n 1,n 2 )=max und v P(v n semantische 1 ) P(v n 2 ) Ähnlichkeit (3.6) Chapter 3. Existing Measures of Distributional Similarity The Cosine Measure bus bus 0.6 ydist 0.6 get 0.4 dog get 0.4 dog 0.2 xdist 0.2 θ o see (a) Differenzbetrachtung Figure 3.2: Geometricbei distance L 1 - und metrics L 2 -Norm see (b) Ähnlichkeitsbetrachtung Figure 3.3: The cosine measure mit Cosinus. Abbildung 2.13: Visualisierung der konzeptuellen Idee der vektoriellen Ähnlichkeitsmessung mit geometrischen Maßen. Aus Weeds (2003). the probabilities of the verbs given the noun, the Minkowski The Distance cosinebetween measuretwo returns nouns, thencosine 1 and of the angle between the vectors (see Figure 3.3) and is n 2 can be written as: calculated as the dot product of the vectors: r dist mink (n 1,n 2 )= n P(v n 1 ) P(v n 2 ) n cos(n 1,n(3.2) 2 )= v P(v n 1 ).P(v n 2 ) p (3.7) v v P(v n 1 ) 2 v P(v n 2 ) 2 min(pmi where n is a positive integer. The use of n = 1 leads to the familiar The syn angle (v L 1 Norm: i between, n j ), pmi vectors syn (v representing i, n k )) identical wenn distributions is zero and so the maximum value of the cosine measure is 1. A cosine value pmi of zero syn (v indicates i, n j ) > complete 0 undlack of similarity since dist L1 (n 1,n 2 )= P(v n 1 vectors ) P(v n of 2 words ) with no shared co-occurrences (3.3) pmi will syn be(v orthogonal. i, n k ) > 0 v SIM syn (v i, n j, n k ) = max(pmi This measure syn (v i, is n j very ), pmi popular syn (v as i, anvector k )) similarity wenn measure (Salton & McGill, 1983; Schütze, The L 1 Norm is also known as the Manhattan Distance, the taxi-cab distance, the city-block 1998; Manning & Schütze, 1999; Caraballo, distance and the absolute value distance, since it represents the distance travelled between the two pmi 1999; Padó & Lapata, 2003; Wu & Zhou, 2003), syn (v i, n j ) < 0 und but was shown by Lee (1999) to be less effective than other measures as a lexical distributional points if you can only travel in orthogonal directions (a common restriction in many US cities). In pmi syn (v i, n k ) < 0 similarity measure since it incorporates information about non-shared co-occurrences. our 2-d example, see Figure 3.2, the value of the L 1 Norm 0 is xdist +ydist. The L 1 Norm, although sonst simple, has been shown to be as effective as more complicated similarity Other Vector measures Based (Lee, Techniques 1999) and is widely used indas clustering Assoziationsstärke-Maß, (Kaufman & Rousseeuw, das 1990; In our auf Cutting discussion PMIet beruht, al., so1992; far, funktioniert we Schütze, have not 1993; considered nun so, the dass number für zwei of dimensions zu betrachtende TheSubstantive L 1 Norm can be n computed efficiently context space. since itfollowing can be rewritten (Lin, 1998a; (DaganLee, 1999), we consider every verb co-occurrence with j und n k jedes Verb v i genutzt werden kann, um über dieses die beiden in our semantic or Dagan et al., 1999). et al., 1999) as: Substantive zu vergleichen. Je our nachdem target nouns ob pmi and therefore für beide every Substantive verb (in the mit corpus) demis averb possible überdurchschnittlich groß, also größer 0 to ist, reduce oder theunterdurchschnittlich dimensionality by considering, klein, say, also onlykleiner the n most 0frequent ist, wird co-occurrence das types as dimension. It is possible distminimum L1 (n 1,n 2 )=2oder der Betrag P(v n 1 des )+P(v n dimensions Maximums 2 ) P(v n (Padó 1 der )& Lapata, P(v n negativen 2 ) 2003) or Werte (3.4) by using gewählt. a mathematical Taucht technique ein Verb such as mit singular value decomposition (SVD) oft(deerwester und mit et dem al., 1990; anderen Schütze, unterdurchschnittlich 1992b, 1992a, 1998). In oft SVD (see Forsyte, v2v (n 1 ) T V (n 2 ) einem der Substantive überdurchschnittlich where v 2 V (n) iff auf, P(v n) wird > 0. der It follows Wert from 0 zugeteilt. the triangle Soinequality generiert thatdas 0 apple LMaß 1 (n 1,nimmer 2 ) apple 2, with positive Werte. Das Subskript syn equality to 0 if and steht onlyfür if P(v n die 1 betrachtete )=P(v n 2 ) forbeziehung, all v, and equality in der to 2das if andverb only if zuthere denaresubstantiven no stehen muss, also entweder both P(v n die 1 Subjekt- ) > 0 and P(v n oder 2 ) > die 0. Objekt-Beziehung. Zum Vergleich der Kontexte zweier Substantive verbs v for which The other widely wirdused nunparameter einfachsetting die Summe in the Minkowski über alle Distance Verben is n = gebildet: 2. This gives us the L 2 Norm (also known as the Euclidean Distance): r dist L2 (n 1,n 2 )= (P(v n 1 ) P(v n N 2 )) 2 (3.5) SIM(nv 1, n 2 ) = SIM obj (v i, n 1, n 2 ) + SIM subj (v i, n 1, n 2 ). In our 2-d example (Figure 3.2), the computation of L 2 isi=0 the equivalent of performing Pythagoras theorem on xdist and ydist and yields the crow flies distance between the points. Although this metric captures Grundsätzlich our intuitions about könnte space man and dieses is widelymaß used natürlich (Kaufman & auch Rousseeuw, generalisieren 1990; und auf die Betrachtung der 94

103 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Substantiv-Verb-Beziehungen verzichten oder diese erweitern. Mit der gegebenen Definition lassen sich nur Ähnlichkeiten zwischen Substantiven berechnen, was die Anwendungsmöglichkeiten des Maßes etwas einschränkt. Die Arbeit von Lin (1998), aus der bereits ein Maß auf Basis von WordNet in Abschnitt beschrieben wurde, bringt auch ein Beispiel für ein Ähnlichkeitsmaß bei dem die theoretischen Grundlagen, die der Autor nach dem Informationsgehalt modelliert, Anwendung finden. Anders als Hindle nutzt er dabei nicht nur die syntaktische Beziehung zwischen Substantiven und Verben, sondern eine deutlich weiter gefasste Menge von Beziehungen, die in Satzstrukturen auftreten können. Dabei extrahiert er aus einem Corpus Tripel der Form (w 1, s, w 2 ), also beispielsweise (duty, adj mod, punitive). w 2 steht also in der syntaktischen Beziehung r zu w 1. Das Maß basiert genau wie das auf Basis von WordNet auf dem Informationsgehalt der gemeinsamen Features zweier Worte w 1, w 2 im Verhältnis zu ihrer Gesamtinformation: sim(w 1, w 2 ) = 2 I(F (w 1) F (w 2 )) I(F (w1)) + I(F (w 2 )). Die Menge F ist dabei die Menge der Tupel (r, w 2 ), die für ein gegebenes w 1 gefunden wurden. Der Informationsgehalt, der durch die Funktion I ermittelt wird, ist dann die Summe aller Informationsgehalte über alle Elemente der Menge: I(S) = f S log P (f). P (f) ist die Auftretenswahrscheinlichkeit von f. Für obiges Beispiel würde man also zählen, wie oft das Tupel (adj mod, punitive) im Corpus zusammen mit einem Substantiv aufgetreten ist und durch die Gesamtzahl der Substantive, so schlägt Lin vor, teilen. Im Zähler obiger Gleichung summiert man also den Informationsgehalt gemeinsamer Eigenschaften und teilt dann durch die Summe der einzelnen Eigenschaften, wodurch ein Wert zwischen 1 und 0 generiert wird, der wiederum als Ähnlichkeitsmaß auf Basis der Kontexte, in denen die beiden Worte auftauchen, gilt. Informationstheoretische und andere Kontext-Vergleichs-Maße Bullinaria und Levy (2007) untersuchen in ihrer Arbeit verschiedene Kontext-Vergleichsmaße und regen an, informationstheoretische Distanzfunktionen einzusetzen quasi um die Wahrscheinlichkeitsverteilungen zu betrachten, wenn die einzelnen Vektorkomponenten bedingte Wahrscheinlichkeiten sind. Vorgeschlagen wird zunächst die Hellinger-Distanz: H(p, q) = i ( p i q i ) 2. In einer älteren Arbeit hatten Levy und Bullinaria (2001) dieses Maß genutzt, um semantische Ähnlichkeit anhand zweier Testszenarien, von denen eines das TOEFL-Datenset war, zu ermitteln. Dabei konnten gute Ergebnisse für TOEFL knapp 75% erreicht werden, was dafür spricht, dass Maße dieser Art ebenfalls geeignet sein könnten. Eine zur gleichen Familie gehörende Alternative (Cha, 2007), die von Bullinaria und Levy ebenfalls untersucht wurde, ist die Bhattacharyya-Distanz: 95

104 Kapitel 2. Semantik und semantische Ähnlichkeit ( ) B(p, q) = log ( p i q i ) 2. Schließlich motivieren Turney et al. (2010) die Gruppe der Maße, die auf der Idee der Messung von Entropie basieren. Grundlage dafür ist die Frage wie groß der Informationsverlust wäre, würde man eine Wahrscheinlichkeitsfunktion durch eine andere approximieren. D(p q) = x X i p(x) log p(x) q(x) D wird nach dieser Formulierung auch als relative Entropie oder Kullback-Leibler-Divergenz beziehungsweise -Distanz bezeichnet. Übertragen auf das Problem semantischer Ähnlichkeit müssen also zwei Wahrscheinlichkeitsfunktionen gefunden werden, die miteinander verglichen werden. Turney et al. schlagen dazu vor, die Wahrscheinlichkeiten, dass ein fester Begriff w mit einem anderen Begriff w i im gleichen Kontext auftritt, zu nutzen. Die aus den gemeinsamen Häufigkeitsfrequenzen ermittelten Wahrscheinlichkeiten P (w i w) können dann zusammen als Wahrscheinlichkeitsverteilung betrachtet werden, die wiederum über ihre Entropie verglichen werden können. KLD(w 1, w 2 ) = D(d 1 d 2 ) = w C(w 1 ) C(w 2 ) P (w w 1 ) log P (w w 1) P (w w 2 ) = i x i log x i y i Wenn also w 1 und w 2 zu vergleichende Worte sind und C die Menge aller Worte im Kontext eines Wortes ist, dann werden auf diese Weise alle bedingten Wahrscheinlichkeiten miteinander verglichen. Die letzte Gleichung gilt natürlich nur, wenn x beziehungsweise y die zu w 1 und w 2 zugehörigen Kontext-Vektoren sind, deren Werte die bedingten Wahrscheinlichkeiten repräsentieren. Es gilt zu beachten, dass es sich bei diesem Maß um ein asymmetrisches handelt, was jedoch (vgl. Tversky (1977)) keinen Nachteil darstellt. Außerdem müssen Fälle gesondert betrachtet werden, für die P (w w 2 ) = 0 ist, denn dann ist die Kullback-Leibler-Divergenz nicht definiert. Dieses Problem könnte man beispielsweise durch Smoothing, also einen additiven Term bei der Berechnung der Wahrscheinlichkeiten, umgehen. Turney et al. schlagen außerdem zwei Varianten dieses Maßes vor. Ersteres ist die so genannte α-skew-divergenz: 96

105 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken ASD(w 1, w 2 ) = w C(w 1 ) C(w 2 ) P (w w 1 ) log P (w w 1 ) αp (w w 2 ) + (1 α)p (w w 1 ). Hierbei wird der Nenner so modifiziert, dass auf jeden Fall sichergestellt ist, dass der Nenner nicht 0 und damit das Maß undefiniert wird. Lee (2001) hat zum Beispiel untersucht, welchen Einfluss die Wahl von α auf die Performance eines Ähnlichkeitsmaßes hat. Generell führen höhere Werte für α zu besseren Ergebnissen, aber kleinere müssen nicht unbedingt zu schlechten Ergebnissen führen. Für weitergehende Informationen sei auf die entsprechende Arbeit verwiesen. Die zweite Variante, die das Maß zudem zu einem symmetrischen macht, ist die so genannte Jensen-Shannon-Divergenz, die die Summe aus den beiden Kullback-Leibler-Divergenzen zwischen den beiden Wahrscheinlichkeitsfunktionen und dem Durchschnitt der beiden Funktionen betrachtet: ( JSD(w 1, w 2 ) = D d 1 d ) ( 2 + d 1 + D d 2 d ) 1 + d Im Grunde ist die Idee sogar derer des hier vorgestellten Maßes Bidirectional Co-occurrence Measure gar nicht so unähnlich, denn auch dort wird die Ähnlichkeit in die eine mit der Ähnlichkeit in die andere Richtung verglichen, allerdings auf einer ganz anderen Ebene. Das Maß wird auch als Information Radius bezeichnet und umgeht neben der Asymmetrie auch die Notwendigkeit eines Smoothings, da der Nenner 1 2 (P (w w 1) + P (w w 2 )) und damit immer größer 0 sein wird. Prinzipiell könnte man diese Liste fast beliebig fortführen, da in der Literatur eine extrem große Vielfalt an Kontext-Vergleichsmaßen für semantische Ähnlichkeit herrscht. Eine Übersicht über allein 45 verschiedene Maße zum Vergleich von Wahrscheinlichkeitsverteilungen bietet etwa Cha (2007) und in von Turney et al. (2010) wird ebenfalls eine ausführliche Liste von Maßen mit ihren Eigenschaften zusammengetragen. Letztere Arbeit liefert zudem auch weitere Einstiegspunkte in zugehörige weiterführende Literatur Hybride Ansätze mit Nutzung von Experten-Ressourcen Zu Beginn von Abschnitt 2.3 wurde darauf hingewiesen, dass die in den vorherigen Abschnitten vorgestellten Ähnlichkeitsmaße grob in zwei Kategorien trennbar sind. Diejenigen, die ihr Wissen aus einer strukturierten Ontologie, Taxonomie, kurz einer von Experten erstellten Wissensbasis ziehen und diejenigen, die mit Hilfe von statistischen Methoden Wissen aus unstrukturierten Text-Corpora extrahieren. Manchmal lassen sich Maße jedoch nicht eindeutig einer dieser beiden Klassen zuordnen und verschiedene Autoren haben die Ideen, die beiden Klassen zugrunde liegen, kombiniert. In diesem Abschnitt sollen, wie bereits in angekündigt, also einige Arbeiten vorgestellt werden, die dieser Mischform entsprechen. 97

106 Kapitel 2. Semantik und semantische Ähnlichkeit Eine Arbeit in diesem Gebiet stammt von Finkelstein et al., die bereits mehrfach wegen Ihres Datensets WordSim-353 (vgl. Abschnitt 2.2.3) Erwähnung gefunden haben. In ihrer Arbeit haben sie ein Ähnlichkeitsmaß definiert, das in einer einfachen Linearkombination die Ähnlichkeitswerte eines Maßes auf Basis eines Corpus und eines auf Basis von WordNet verbindet: sim(w 1, w 2 ) = α sim V B (w 1, w 2 ) + β sim W N (w 1, w 2 ) Da die Autoren das Ähnlichkeitsmaß im Hinblick auf ein Informationsextraktions-Szenario definieren, war ihre Idee, für jedes Wort seine Häufigkeit in verschiedenen Domänen zu betrachten. Im Grunde entsteht dabei eine term-domain-matrix, wobei jeder Zeilenvektor ein Wort repräsentiert und im Falle der vorliegenden Arbeit in 27 Dimensionen (also Domänen) seine Vorkommenshäufigkeit notiert. Das eigentliche Maß sim V B basiert dann auf der Korrelation, die zwei Worte miteinander bezüglich ihrer Frequenz in den Domänen haben. Kombiniert wird dieses schließlich mit sim W N, einem Maß auf Basis von WordNet mit einer Ähnlichkeitsmessung, die wie die von Resnik (1995) (vgl. auch Abschnitt ) arbeitet. α und β wurden schließlich durch eine Kreuzvalidierung experimentell optimiert. Bedauerlicherweise erreichen die Autoren auf ihrem eigenen Testset mit optimierten Werten lediglich eine Korrelation von 55%. Trotzdem scheint der Ansatz sinnvoll zu sein, denn das Vektor-basierte Maß alleine erreicht lediglich 41%, das Maß auf Basis von WordNet 39%. Der Sprung auf 55% ist durchaus bemerkenswert, wenn dieser lediglich durch einfache Linearkombination der beiden Ähnlichkeitswerte erreicht werden kann. Einem ähnlichen Ansatz folgen Agirre et al. (2009) in ihrer Arbeit: Die Kombination zweier Maße mit verschiedenen Wissensgrundlagen. Dabei definieren sie zunächst ein Maß auf Grundlage von WordNet. Sie interpretieren das semantische Netzwerk als Graph und berechnen für jedes Wort im Graphen einen Personalized PageRank (nach Haveliwala (2002)). Die Idee dahinter folgt im Grunde dem PageRank-Algorithmus (Page et al., 1999). Kurz dargestellt: Jedes Wort beziehungsweise Synset stellt einen Knoten im Graphen dar, der über Kanten mit anderen Knoten verbunden ist. PageRank würde nun approximieren, wie wahrscheinlich es ist, dass bei einem Random-Walk durch den Graphen ein bestimmter Knoten erreicht wird. Der Algorithmus ist ursprünglich Grundlage für das Ranking von Webseite in Google gewesen. Letztlich beginnt jeder Knoten mit einer Grundwahrscheinlichkeit von 1 N bei N Knoten im Netzwerk. Daraufhin verteilt jeder Knoten seinen aktuellen PageRank auf alle Knoten, mit denen er eine Kante hat, jedoch relativ zur Anzahl der ausgehenden Kanten. Anschließend hat jeder Knoten einen neuen PageRank und das Verfahren wird iterativ wiederholt. Ein weiterer Aspekt, der für den Personalized PageRank ausgenutzt wird, ist der so genannte Dämpfungsfaktor. Er kann so interpretiert werden, dass mit einer gewissen Wahrscheinlichkeit unabhängig von den vorhanden Kanten auf einen beliebigen Knoten gesprungen wird, dies verhindert unter anderem ein Übergewicht von Sackgassen, also Knoten, denen Gewicht zufließt, die es aber nicht mehr weitergeben im Fall von WordNet wären dies etwa die Blätter. In jeder Iteration wird also jedem Knoten nicht nur das zugeteilte Gewicht der Nachbarknoten aufaddiert, sondern auch, eben mit dem Dämpfungsfaktor gewichtet, ein Anteil, der jedem Knoten gleichermaßen zuteil wird. Beim Personalized PageRank bekommt jedoch nicht jeder Knoten den gleichen Anteil an Grundgewicht, stattdessen wird dieses ungleich auf bestimmte Knoten, die von vornherein wichtiger sein sollen, verteilt. Anstatt also jeden Knoten in jeder Iteration etwa mit 15% (also dem Dämpfungsfaktor d = 0,85) 98

107 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken der Grundwahrscheinlichkeit 1 N aufzuwerten, berechnen Agirre et al. für jedes Wort eine eigne PageRank-Verteilung im Graphen, bei dem nur das Zielwort nicht das Gewicht 1 N, sondern 1 mit dem entsprechenden Dämpfungsfaktor zugeteilt wird. Für den Weg im Graphen lässt sich dies also so interpretieren: Mit einer Wahrscheinlichkeit von 15% landet man in jeder Iteration wieder bei dem Ausgangswort und mit einer Wahrscheinlichkeit von 100% 15% = 85% folgt man einem vorhanden Pfad im Graphen, anhand seiner Struktur. Mit Hilfe dieser Definition wird offenbar ein deutlich stärkeres Gewicht auf den Zielknoten gelegt und ausgehend davon auch auf die direkten oder zumindest im Graph nahen Nachbarn. Die entstehenden Werte für alle Knoten kann man dann als ein Maß der Assoziationsstärke im semantischen Netzwerk für einen Ausgangsbegriff verstehen. Hiervon ausgehend nutzen die Autoren dann die gleiche Idee wie oben beschrieben. In einer term-term-matrix entspricht ein Zeilenvektor der Verteilung der Assoziationsstärke auf alle anderen Worte. Die einzelnen Zeilen lassen sich dann mit Hilfe der beschriebenen Maße vergleichen, wobei die Autoren hier ebenfalls das beliebte Cosinus-Maß genutzt haben, um letztlich die Ähnlichkeit zwischen zwei Vektoren, resprektive Begriffen, zu messen. Auf der anderen Seite verwenden die Autoren ein Maß auf Basis der Wortfrequenzen in einem Corpus, wobei eine eigene Sammlung von etwa 4 Milliarden Webseiten zum Einsatz kommt. Auch hier werden Kontexte miteinander verglichen, also Vektorrepräsentation von Wortkontexten ermittelt. Als Maß der Assoziationsstärke werden die Häufigkeiten mit einem χ 2 -Wert gewichtet. Der Wert misst in diesem Zusammenhang etwa, wie sehr die Information über die gemeinsame Auftretenshäufigkeit mit einem bestimmten Wort, dieses von allen anderen Worten diskriminiert, oder anders ausgedrückt, wie stark sich die gemeinsame Häufigkeit mit einem bestimmten Wort von der Häufigkeit in der Grundgesamtheit unterscheidet. Bei der Definition eines Kontexts wurden verschiedene Varianten in Betracht gezogen. Bei einer wurde ganz klassisch ermittelt, welche Worte sich in einem bestimmten Kontext-Fenster um einen anderen Begriff befinden, außerdem wurden Kontexte als geordnete Wortlisten aufgefasst, gezählt und schließlich wurden auch syntaktische Abhängigkeiten untersucht. Letztlich wird auch hier jeweils zwischen den entstandenen Vektoren das Cosinus-Maß als Ähnlichkeitsmaß verwendet. Getestet haben Agirre et al. beide Ansätze auf dem Datenset von Rubenstein und Goodenough (1965) und dem WordSim-353-Datensatz. Das beste Ergebnis auf ersterem erreicht der Ansatz auf Basis des Corpus mit einer Spearman-Korrelation von 0,89 beim Vergleich von Kontexten als geordnete Wortlisten. Bei WordSim-353 liefert der WordNet-basierte Ansatz mit einer Korrelation von 0,69 die beste Qualität. Wo diese Ergebnisse bereits hervorragend sind, haben die Autoren sich schließlich damit auseinandergesetzt, wie sich beide Maße kombinieren lassen. Hierzu wurde eine Support-Vektor-Maschine (SVM) als maschinelles Lernverfahren gewählt (siehe auch Abschnitt ). Gelernt werden sollte hierbei, ob für zwei Wort-Paare das erste semantisch ähnlicher zu bewerten ist, als das zweite, also eine etwas andere Aufgabe als bisher. Eingabeparameter waren jeweils die Ähnlichkeitsbewertungen von 4 Ähnlichkeitsmaßen für beide Wortpaare, also das WordNet-Maß und die drei Maße auf Basis der Häufigkeiten mit verschiedenen Kontext-Definitionen. Bei einer 10-fachen Kreuzvalidierung, bei der alle Wortpaare der Testsets gegeneinander bewertet und damit neu sortiert wurden, konnte die Spearman-Korrelation im Datenset von Rubenstein und Goodenough (1965) auf 0,96 und in WordSim-353 auf 0,78 deutlich, in erstem Fall sogar signifikant, erhöht werden. 99

108 Kapitel 2. Semantik und semantische Ähnlichkeit Ein Maß, das nicht versucht mehrere Ansätze zu kombinieren, aber dennoch zwischen den beiden Klassen schwimmt, ist in der sehr bekannten Arbeit von Gabrilovich und Markovitch (2007) beschrieben. Explicit Semantic Analysis haben die Autoren ihr Maß getauft, das auch auf als Vektoren dargestellten Kontext-Repräsentationen basiert, jedoch nicht ausschließlich auf dem unstrukturierten Text eines Corpus, sondern auf der wohlstrukturieren Artikel-Struktur von Wikipedia. Jeder Wikipedia-Artikel wird hier als eine Art Konzept aufgefasst und jeder Begriff wird als Vektor beschrieben, der so viele Dimensionen hat, wie es Wikipedia-Artikel gibt. Die Komponenten des Vektors beschreiben dann wiederum die Assoziationsstärke eines Wortes zu diesem speziellen Artikel. Detaillierte Implementationsdetails geben die Autoren in dieser Arbeit nicht an, allerdings basiert das Assoziationsstärke-Maß auf dem term-frequency inversedocument-frequency-schema, das zum Beispiel auch als Gewichtungsschema im in dieser Arbeit vorgestellten Bidrectional Co-occurrence Measure (vgl. Abschnitt ) zur Anwendung kommt. Für ein Wort oder Text-Fragment wird also über alle relevanten Wikipedia-Artikel iteriert und mit Hilfe eines Text-Klassifikators für jeden ein nach Relevanz gewichteter Assoziationskoeffizient ermittelt. Zwei Begriffe werden dann wie schon zuvor mit Hilfe der gängigen Vektor-Vergleichsmaße auf Ähnlichkeit hin untersucht. Die Autoren schlagen hier ebenfalls das Cosinus-Maß vor. Interessant ist an diesem Ansatz vor allem, dass nicht nur Worte, sondern auch ganze Texte miteinander verglichen werden können, wenn erstmal jeder auf seine Repräsentation als Wikipedia-Konzept-Vektor abgebildet wurde. Beachtlich ist zudem die Tatsache, dass die Autoren mit ihrem Ansatz eine Korrelation von 0,75 für das WordSim-353-Datenset erreichen, ohne eine Kombination verschiedener Maße genutzt zu haben. Ebenfalls auf Wikipedia basiert die Untersuchung von Zesch et al. (2008). Nach dem gleichen Ansatz wie von Gabrilovich und Markovitch (2007) haben die Autoren eine term-concept-matrix aufgebaut, wobei jede Zeile einen Begriff repräsentiert und die Spalten einzelnen Konzepten entsprechen. Eine Quelle für die Definition von Konzepten war dabei Wikipedia. Die Assoziationsstärke, also der Wert der Matrix-Zelle, wurde ebenfalls über das term-frequency inversedocument-frequency-maß berechnet, also die idf -gewichtete Häufigkeit mit der das betrachtete Wort in dem jeweiligen Artikel vorkommt. Einmal haben die Autoren dabei den kompletten Wikipedia-Artikel genutzt, einmal nur den ersten Absatz, in dem oft eine kurze Definition des jeweiligen Konzepts zu finden ist und weniger weiterführende Informationen, die meist im weiteren Verlauf eines Artikels zu finden sind. Neben Wikipedia wurden noch weitere strukturierte Ressourcen herangezogen, nämlich Wictionary und WordNet. Um für diese beiden Ressourcen ebenfalls Vorkommenshäufigkeiten zu ermitteln, wurde die Glossen aus WordNet genutzt, die zu jedem Synset in einem kurzen Satz das jeweilige Konzept erklären oder ein Beispiel für dessen Vorkommen in natürlicher Sprache liefern. Da Wictionary nicht für jedes Konzept eine Glosse bereitstellt, haben die Autoren hier so genannte Pseudo-Glossen erstellt. Dabei wurden einfach die direkt verknüpften Begriffe, also Synonyme, Meronyme, Hypernyme, und so weiter, aneinander gehängt und als Text interpretiert. Evaluiert wurden die Ergebnisse auf den Datensets von Miller und Charles (1991), Rubenstein und Goodenough (1965) und WordSim-353. Interessanterweise liefert die besten Ergebnisse das Verfahren auf Basis der Pseudo-Glossen von Wictionary. Hier werden Rang-Korrelationen von 0,84, 0,84 und 0,64 52 erreicht. Den zweiten Platz der Rangfolge 52 Zesch et al. haben das WordSim-353-Datenset in zwei distinkten Teilen betrachtet, der angegebene Wert ist zur Vergleichbarkeit das gewichtete Mittel. 100

109 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken erreicht WordNet mit 0,78, 0,82 und 0,58 im Fall von Wikipedia liefert der Ansatz bei der Nutzung nur des ersten Absatzes mit 0,68, 0,76 und 0,57 eher mäßige, aber noch die besseren Werte. Die Autoren geben auch an, das Verfahren von Gabrilovich und Markovitch (2007) implementiert zu haben, erreichen dabei aber für WordSim im Vergleich zu den sehr guten 0,75 nur 0,44. Eventuell ist diese doch sehr große Differenz auf ein anderes Gewichtungsverfahren in der ursprünglichen Arbeit zurückzuführen. Einen ähnlichen Ansatz auf Basis der Glossen von WordNet, findet sich bei Patwardhan und Pedersen (2006). Die Autoren verwenden ebenfalls die Glossen aus WordNet als Corpus und extrahieren hieraus eine term-term-matrix mit gemeinsamen Häufigkeiten. Anstatt nun aber direkt die Zeilenvektoren der Worte miteinander zu vergleichen, wird für einen konkreten Begriff die zugehörige WordNet-Glosse ermittelt. Für jedes der darin vorkommenden Worte wird dann der Zeilenvektor der Matrix ermittelt und aus allen Vektoren gemeinsam ein so genannter Gloss-Vektor errechnet, die genaue Berechnung wird leider nicht erwähnt, die Darstellungen legen aber eine einfache Summenbildung und anschließende Normierung nahe. Was entstanden ist, entspricht einer Art Kontext-sensitiven semantischen Repräsentation. Die Autoren geben auch an, nicht nur die Glosse zu einem betrachteten Begriff selbst, sondern auch die der Synsets, die direkt mit dem betrachteten Konzept verbunden sind, genutzt zu haben. Außerdem sei es wichtig, dass der Begriffsraum von niedrig-frequenten und sehr hoch-frequenten Begriffen bereinigt würde. Bedauerlicherweise lassen die Autoren viele Implementationsdetails, wie auch das Vektor-Vergleichsmaß, das letztlich genutzt wurde, im Dunkeln. Dennoch geben sie an, eine hervorragende Rang-Korrelation von 0,91 beziehungsweise 0,90 auf den Datensets von Miller und Charles (1991) respektive Rubenstein und Goodenough (1965) erreicht zu haben. Schließlich soll noch eine spätere Arbeit von Zesch und Gurevych (2010) Erwähnung finden. Analog zu ihrer Arbeit von 2008 haben die Autoren darin eine ganze Reihe von Ähnlichkeitsmaßen betrachtet, die zum Teil komplett auf der WordNet-Taxonomie basieren, teilweise statistische Methoden heranziehen oder Vektor-Repräsentationen von Begriffen aufbauen oder von den Autoren auf Wikipedia als Wissensbasis übertragen wurden. Die Arbeit heißt Wisdom of the crowds versus wisdom of the linguists und ein Teilergebnis der Studie ist in Abbildung 2.14 dargestellt. Letztlich kommen die Autoren nämlich zu einem Schluss, der in der Zusammenfassung dieses Abschnitts aufgegriffen wird: Weder das eine noch das andere Vorgehen ist grundsätzlich besser, vielmehr sollte man sich mit der Frage beschäftigen, wie sich eventuell dem Beispiel von Agirre et al. folgend semantische Ähnlichkeitsmaße verbessern lassen, indem mehrere Wissensbasen und Methoden geeignet kombiniert werden Variationen der Parameter In Abschnitt wurden ein Überblick über die Bestandteile eines Ähnlichkeitsmaßes gegeben. Offenbar lässt sich nicht nur jede der Komponenten, wie in den vorherigen Abschnitten erläutert wurde, durch die verschiedensten Verfahren oder Datenquellen austauschen, auch jedes Verfahren für sich erlaubt die Anpassung verschiedener Parameter, die nicht unerheblichen Einfluss auf die Gesamtqualität des Ähnlichkeitsmaßes nehmen. Bullinaria und Levy haben sich in ihren Arbeiten von 2007 und 2012 mit der Untersuchung verschiedener dieser Parameter beschäftigt. 101

110 Kapitel 2. Semantik und semantische Ähnlichkeit 48 T. Zesch and I. Gurevych Fig. 7. Wisdom of linguists versus wisdom of crowds on English datasets. The dashed Abbildung 2.14: Vergleich der besten ermittelten Korrelationsergebnisse in Zesch und Gurevych (2010) line indicates the approximate level of human performance (the InterAA) on the particular für Verfahren auf der Wissensbasis WordNet gegen die Wikipedia bei verschiedenen Datensets. Die gestrichelte dataset. Linie We deutet show eine the theoretische measure with Obergrenze, the highest etwa Spearman durch correlation ein inter-annotator on a dataset. agreement ermittelt, an. Grundlage ihrer Arbeit sind vier Testverfahren, der TOEFL-Test (vgl. Abschnitt 2.2.6), ein Distanz-Vergleichs-Test, bei dem für 200 ausgewählte Begriffe jeweils ein semantisch zugehöriger Begriff mit 10 zufälligen verglichen werden muss. Dieser Test arbeitet also in etwa wie die Verfahren auf Basis der Free Assocation Norms (vgl. Abschnitt 2.2.4) und ermittelt damit die Fähigkeit nach Stufe 1 der Kriterien zur Messung semantischer Ähnlichkeit aus Abschnitt 2.1. Außerdem wurden zwei Kategorisierungs-Tests genutzt, wobei in einem gemessen wird, wie gut eine semantische Repräsentation zu einer vorgegebenen semantischen Kategorie passt und ein Test, bei dem das gleiche jedoch für eine syntaktische Kategorie gemessen wurde. Generell haben Bullinaria und Levy die Ähnlichkeit von Kontexten gemessen und nicht die Assoziationsstärke, jedoch bestand direkt ihre erste Untersuchung darin, zu ermitteln, wie gut bestimmte Maße der Assoziationsstärke mit verschiedenen Vektor-Vergleichsmaßen zusammenarbeiten. Abbildung 2.15 zeigt einen Auszug der Ergebnisse. Für die drei semantischen Test-Fälle liefert das Cosinus-Vektor-Vergleichsmaß die besten Ergebnisse, wenn die Vektoren mit den positiven PMI- Werten Fig. gefüllt 8. Wisdom sind, also of linguists PMI, wobei versus die wisdom negativen of crowds Komponentenon German einfach datasets. auf The 0 gesetzt dashedwerden (sieheline auch indicates Abschnitt the approximate ). Als level Assoziationsmaße of human performance wurden(the außerdem InterAA) die oneinfachen the particular bedingten Wahrscheinlichkeiten dataset. We show the untersucht measure with sowie the unter highest dem Spearman Namen correlation ratios unlogarithmierte on a dataset. PMI-Werte. Natürlich ist die Untersuchung nicht erschöpfend, zeigt jedoch gut, dass extreme Unterschiede in der(wordnet, Qualität der English MaßeWikipedia, erreicht werden, GermaNet, nur wenn andzwei German Elemente Wikipedia). des Maßes 14 The ausgetauscht concept oder ungünstig vectorbeziehungsweise based measuresgünstig GM07kombiniert and ZG07werden. consistently In Abbildung display superior 2.15 ist weiterhin performance zu sehen, welche compared Auswirkungen to other die measure Wahl dertypes. Kontext-Größe Just in a nach few cases sich zieht. they Hier showkommen nonsignificant die Autoren zu dem differences. Ergebnis, Using dass die Wikipedia beste semantische as a knowledge Repräsentation source, the (beimconcept Vergleich vector von based Kontexten) erreicht measures wird, wenn outperform ein Kontext-Fenster the other measure der Größe types by 1 nach a wide links margin und on rechts most eines datasets Zielwortes (Figures 10 and 12) Wikipedia as an encyclopedia encodes much implicit knowledge 14 For this analysis, we aggregated all measures 102 of a certain type, and only show the best results for each measure type.

111 ferences are even clearer in the plots of the distance ratios shown in the graphs on the right. Control/Related ratios greater than one correspond to a successful semantic relatedness distinction and good performance on our semantic tasks. Same/Related ratios of less than one indicate good statistical reliability of the vectors. From a statistical point of view, one would expect the vector quality to be better for large corpus sizes and for high frequency words. We can see both these effects clearly in Figure 2. The upper graphs correspond to two 44.8 million word halves of the full BNC corpus. The lower two graphs correspond to two 4.6 million word subcorpora, which correspond to the corpus size in the Landauer & Dumais (1997) study. On the left, the best fit lines for the 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken TOEFL size becomes too small. clustering), sometimes far worse than the others (TOEFL We can conclude that and our syntactic vectors do clustering), show reasonable and the optimal window size is statistical reliability, and different exhibit the for expected each task. effects of semantic relatedness, word frequency The change and in corpus performance size. It also as one varies the window appears that the performance size can degrades be understood gracefully as a consequence as the of the trade-off of corpus size is reduced toward the increased that of typical context human information, experience, but we shall need to better look statistical that in more reliability detail for later. larger windows, against the higher word counts and increased likelihood of irrelevant and misleading context Varying the Context Window information being included in the counts. It is not surprising The plots in Figure 2 then, were that based the on trade-off the simplest and optimal cooccurrence counts possible, depends namely on the a window vector component of a single type and distance measure window type and size word on each side of the employed, target word. and The we shall most see obvious later that it is also affected by variation is to extend this the window number to of include vector W components words on used and the size of the each side (a rectangular corpus. window). It is It interesting is also natural that to here con- using Positive PMI Cosine we achieve the best performance levels for all tasks using minimal window sizes, whereas in previous work with less Positive PMI Cosine Distance TOEFL have implications for theories of the implem algorithms in psychological or neural mo minimal buffer size or working memory s pear to be necessary to extract useful infor The Number of Vector Components A reasonable sized corpus, such as word BNC corpus, will contain of the o different words types which will each component for each of our vectors. If we in order of frequency of occurrence in the the familiar Zipf s law plots seen in Figur log of each word s frequency falls almost log of its position in the frequency ordere reflects a common feature of natural lan there are very few very high frequency 100 Percent Percent Pos PMI Cosine Pos PMI Cosine Ratios Cosine Ratios Cosine Hellinger City Block Bhattacharya Hellinger City Block Ratios Euclidean Pos PMI Euclidean Pos PMI Euclidean Kullback-Leibler (a) Ergebnisse im TOEFL-Test Sem. Cluster bei der Vergleichsuntersuchung verschiedener Maße. 70 Bhattacharya Ratios City Block Ratios City Block Pos PMI City Block Pos PMI City Block Cosine Cosine Euclidean Kullback-Leibler Ratios Euclidean Euclidean PMI City Block PMI City Block PMI Euclidean PMI Euclidean Percent Percent Pos PMI Cosine Ratios Cosine Rectangular gewählt wird. Es wird also letztlich eine term-term-matrix genutzt, die die Vergleichsvektoren Triangular Offset rect. bereitstellt. Für den Parameter des Corpus und die Anzahl 30 der Vektor-Dimensionen gelangen die Autoren zu dem Schluss, dass hier die Regel, je mehr Daten, desto Window Size besser, gilt. Für die Ratios Cosine Kullback-Leibler Kullback-Leibler Hellinger City Block Pos PMI Cosine Hellinger Bhattacharya Percent Bhattacharya PMI Euclidean Pos PMI City Block City Block Cosine Ratios Euclidean Pos PMI Euclidean PMI City Block Figure 3. Performance on the four tasks as a function of window size and shape for two representative vector measures. Figure 1. The best performance obtained on the four tasks for each of the vector types and distance measures. PMI City Block Pos PMI Euclidean Euclidean Ratios City Block Ratios City Block Cosine PMI Euclidean Euclidean Ratios Euclidean Rectangular Triangular Offset rect. 10 Window Size Pos PMI City Block 100 Percent (b) 90Ergebnisse 100 Synt. im Cluster TOEFL-Test bei Positive PMI Cosine Sem. Cluster Percent Probability Euclidean der Vergleichsuntersuchung verschiedener Kontextgrößen-Definitionen. Abbildung 2.15: Einfluss verschiedener Parameter-Variationen aus Bullinaria und Levy (2007). Probability Euclidean Größe des Corpus wird sogar gezeigt, dass sich selbst bei der Verwendung des kompletten BNC noch kein Plateau in der Ergebnis-Qualität einstellt. Allerdings liegt es auf der Hand, dass mehr Daten nicht unbedingt immer besser sind, da mehr Daten geringerer Qualität auch für mehr Rauschen sorgen. Hierzu wird der qualitativ hochwertige BNC als Corpus mit einer gleich großen Textsammlung aus Newsgroups verglichen. Letzterer liefert bei ansonsten konstanten Parametern signifikant schlechtere Ergebnisse. Weiterhin zeigen die Autoren, dass eine Stop-Word-Liste, also das Weglassen von extrem hochfrequenten Funktionsworten eher schadhaft ist und ein Verfahren, bei dem ausschließlich diese Worte als Vektor-Komponenten verwendet werden, bereits etwa 65% korrekte Antworten im TOEFL-Test erreicht. Interessanterweise relativieren die Autoren in ihrer späteren Arbeit von 2012 diese Aussage wieder, wobei zwar das ursprüngliche Ergebnis bestehen bleibt, aber die Untersuchung zeigt, dass das Entfernen der 201 häufigsten Wörter, oder die Verwendung einer vorgefertigten Liste, keinen signifikanten Einfluss auf das Ergebnis hat, jedoch die Größe des Corpus etwa halbiert und damit eventuell Vorteile bei der Verarbeitungskomplexität bringt. Für das Preprocessing wird in der späteren Arbeit auch der Schritt der Lemmatisierung und des Stemming untersucht, wobei auch dies keine signifikanten Verbesserungen oder Verschlechterungen der Ergebnisse mit sich bringt hier jedoch zusätzliche Berechnungen notwendig macht. Der größte Teil der Arbeit handelt jedoch von der Untersuchung der Matrix-Dimensionsreduktion als weiterer Preprocessing-Schritt. Vorbild ist dabei das LSA-Verfahren (vgl. Abschnitt 2.4.3) nach Landauer und Dumais (1997). Anstatt das Verfahren jedoch auf eine term-document-matrix anzuwenden, untersuchen Bullinaria und Levy das Verhalten bei Anwendung auf ihre term-term-matrix. Um das Verfahren mit dem herkömmlichen Vorgehen zu vergleichen, untersuchen sie, wie sich die Reduktion der Vektor-Dimension auf die Qualität eines Maßes auswirkt. Für den Nicht-LSA-Fall werden da- Percent Positive PMI Cosine Probability Euclidean Positive PMI Cosine Probability Euclidean Rectangular Triangular Offset rect. 10 Window Size Rectangular Triangular Offset rect. 10 Window Size 103

112 Kapitel 2. Semantik und semantische Ähnlichkeit zu die Vektor-Dimensionen nach ihrer Frequenz sortiert und etwa im Fall der Größe 100 eben nur die 100 häufigsten Begriffe genutzt. Bei der Anwendung der Singulärwertzerlegung werden entsprechend die 100 größten Singulärwerte genutzt. Das Ergebnis zeigt relativ unspektakuläres Verhalten, wie in Abbildung 2.16 dargestellt ist. Für kleine Vektordimensionen ist die Zerlegung deutlich besser geeignet als relativ willkürlich nur die hochfrequentesten Worte zu verwenden. Für hohe Dimensionen unterscheiden sich beide Verfahren nicht. Deutlich interessanter sind die Ergebnisse, die erreicht werden, wenn die Singulärwerte unterschiedlich gewichtet werden. Hierbei können die Autoren zeigen, dass ein niedrigeres Gewicht bis hin zum vollständigen Wegfall der größten n Singulärwerte signifikant bessere Ergebnisse in allen Tests bringen. Dies geht sogar soweit, dass 100% korrekte Antworten im TOEFL-Test erreicht werden, auch wenn die Autoren selbst sagen, dass die Parameter, die dabei zum Einsatz kommen in den übrigen Tests schlechtere Ergebnisse liefern und deshalb kein generell gutes Parameter-Set für ein Maß darstellen. Behav Res (2012) 44: L 100 Distance 95 Percent Standard PCs (50k) PCs (25k) PCs (12k) 90 Standard PCs (50k) PCs (25k) PCs (12k) Dimensions Dimensions Categ. Abbildung 2.16: Der Effekt 90 der Dimensionsreduktion, wenn statt der hochfrequentesten (Standard) Purity zuerst die Dimensionen, zu denen die kleinsten Singulärwerte gehören (PCs, mit verschiedenen Ausgangsmatrizengrößen), entfernt werden. Aus Bullinaria und Levy (2012) Dimensions darstellt und dies wird 60 vermutlich auch nicht geklärt werden, denn die Qualität eines solchen Standard Standard Maßes hängt PCs (50k) das schreiben auch die Autoren selbst davon PCs ab, (50k) welche Aufgabe genau mit PCs (25k) PCs (25k) Hilfe dieses gelöst werden soll. PCs (12k) PCs (12k) Percent 75 Insgesamt liefern beide Arbeiten wichtige Erkenntnisse über den Einfluss verschiedener Parameter bei der Definition eines semantischen Ähnlichkeitsmaßes. Trotzdem ist nicht endgültig geklärt, welche Kombination die beste Repräsentation der Semantik eines Wortes, Konzepts oder Begriffs Dimensions Exkurs: Die verteilte Berechnung der Assoziationswerte mit MapReduce nce using the standard corpus on the four semantic the principal component (PC) vectors with three different starting n of vector dimensionality for the standard frequencypointwise mutual information In den vectors vorherigen (Standard) and Abschnitten wurden verschiedene Maße semantischer Ähnlichkeit vorgestellt. matrix sizes (PCs 50k, PCs 25k, PCs 12k) Insbesondere diejenigen, die als Wissensbasis einen möglichst großen Text-Corpus benötigen since S is diagonal, the undcolumns nicht auf of Xeiner are still bereits most gegebenen by aspects other Struktur than lexical wie der semantics WordNet-Taxonomie and that, consequently, if those contributions are reduced or deleted, the basieren, ziehen ihr en, P > 1 gives more emphasis to the initial f X (corresponding to large SVs), and P <1 vectors that remain are better representations of semantics. emphasis to the later components One natural conjecture would be that it is the function to small SVs). This idea can easily be appproach of this article, and Fig. 6 shows the beneficial to exclude. However, word dimensions that account for the variance that proves 104 a remarkably similar pattern n the four semantic tasks for P (P 0 of results is found for the PCs obtained using the corpus that ared with the standard P 0 1 (PCs 1+) and the has had all those words removed in the manner described ctors (Standard), each starting with the 50k above. That also provides evidence of the robustness of the ear that the smaller value of P does result in effect with respect to the size and content of the corpus used. ormance for all four tasks. The optimal value of P for the Caron (2001) approach or ive and more straightforward way to reduce the optimal number of initial PC dimensions to remove and on of the initial PCs would be to simply the optimal number of dimensions used are found to depend

113 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Wissen aus der Analyse gemeinsamer Worthäufigkeiten. Die Implementierung für die Forschungsarbeiten, die in Abschnitt vorgestellt wurden, grenzt an Trivialität. Die is-a-taxonomie aus WordNet ist selbst in einem relativ ineffizienten Datenformat wie JSON kaum 20 Megabyte groß und kann in wenigen Sekunden als Objektgraph in den Speicher deserialisiert werden. Dadurch, dass alle Daten im Speicher vorliegen, sind die eigentlichen Berechnungen, die oft auf einer (Teil-)Traversierung des Graphen basieren, ebenfalls so schnell durchzuführen, dass sich eine Vorberechnung aller paarweisen Ähnlichkeiten kaum lohnt. Für Produktiv-Anwendungen kann eine Vorberechnung sicherlich dennoch sinnvoll sein, für die Evaluation der Testsets in dieser Arbeit lohnte sich der Aufwand allerdings nicht. Ganz anders sieht es den Maßen mit unstrukturierten Wissensbasen aus. Hier liegt der Corpus als für reinen Text gigantische Datensammlung von mehreren Gigabyte einfacher Textdaten vor, aus der je nach Maß nun die Häufigkeitsfrequenzen ermittelt werden müssen. Lädt man beispielsweise die Corpora der The Web-As-Corpus Kool Yinitiative (siehe Abschnitt 2.4.2) herunter, also den vorverarbeiteten ukwac und die genauso vorverarbeitete Version von Wikipedia (WaCypedia_EN ) landet man bei 73 Gigabyte Daten. Man muss das etwas relativieren, da diese ja nicht nur den reinen Text, sondern auch die part of speech-tags beinhalten, syntaktische Informationen, Lemmata und so weiter. Dennoch ist dies die Datenbasis, die es zu verarbeiten gilt. Da die Verarbeitung auf einem Einzelrechner je nach Effizienz der Implementierung eher im Zeitrahmen von Wochen anzugeben wäre, lohnt es sich hier gerade wenn man mit verschiedenen Maßen experimentieren möchte sich nach alternativen Verarbeitungsmethoden umzusehen, die die Rechenlast auf mehrere Computer verteilen. Eine Möglichkeit dies zu tun, ist das so genannte MapReduce Verfahren, das von Dean und Ghemawat (2008) angeregt wurde. Die Arbeit stammt von zwei Google-Mitarbeitern, die darin beschreiben, wie viele Datenverarbeitungsschritte bei Google mit Hilfe dieses Programmier-Paradigmas umgesetzt wurden. Die Menge der Daten, die Google verarbeiten muss, ist natürlich ungleich größer und bei der Angabe, dass allein im September 2007 rund 400 Terabyte an Daten bei Google mit MapReduce verarbeitet wurden und das war vor mehr als 5 Jahren, verschwindet die Aufgabe der Corpus-Verarbeitung fast ins Lächerliche. Natürlich muss man dazu sagen, dass Google mit die größten Rechenzentren der Welt betreibt, was einer Forschungseinrichtung wie der Universität Osnabrück leider nicht vergönnt ist. Trotz allem zeigen die Statistiken, dass sich das Verfahren bestens eignet, um große Datenmengen parallelisiert und verteilt zu verarbeiten, wenn eine einzelne Maschine damit aus Zeit- und oder Speichergründen überfordert wäre. Agirre et al. (2009) beispielsweise geben in ihrer Arbeit ebenfalls an, eine MapReduce-Infrastruktur für die Berechnung der semantischen Ähnlichkeiten verwendet zu haben. Da diese Arbeit in einer Arbeitsgruppe angewandter Informatik verfasst wurde, scheint es sinnvoll sich neben den theoretischen Grundlagen und Evaluationsergebnissen, die in den vorherigen Abschnitten ausführlich dargelegt wurden, auch mit dem Software-System auseinander zusetzen, das für das Erarbeiten der Ergebnisse genutzt wurde. In den folgenden Abschnitten soll daher ein Überblick über das grundlegende Vorgehen bei MapReduce, einige eingesetzte Techniken, den Aufbau der Verarbeitungspipeline sowie konkrete Implementationsbeispiele gegeben werden. 105

114 Kapitel 2. Semantik und semantische Ähnlichkeit Das MapReduce-Modell Das Programmiermodell hinter MapReduce ist eigentlich nicht neu, denn viele funktionale Sprachen, wie etwa Lisp, das schreiben auch die Autoren der Arbeit, verfügen über ähnliche Funktionalität. Die Motivation der Autoren, ein konsistentes Verfahren zur Verarbeitung großer Datenmengen zu etablieren, war im Fall von Google die Tatsache, dass viele Programmierer viele kleine Eigenentwicklungen etabliert hatten, die eine bestimmte Aufgabe lösen sollten. Immer wieder auftretende Probleme wie das Regeln von Parallelisierung, die zugehörige Balancierung der Rechenlast, Fehlertoleranz oder die Verteilung der Daten mussten so ständig neu gelöst werden. Mit ihrer Implementierung von MapReduce sollte ein Interface beziehungsweise letztlich eine Bibliothek geschaffen werden, die die immer gleichen Problemelemente versteckt und nur an wenigen wohldefinierten Stellen das Einfügen der eigentlichen Operationen, die auf den Daten ausgeführt werden sollen, verlangt. Kurz zusammengefasst besteht das Programmiermodell aus zwei Funktionen, die vom Programmierer definiert werden müssen: map und reduce. Die Idee ist dabei, dass jeder zu verarbeitende Datensatz einmal Eingabeparameter der map-funktion ist, alle Aufrufe von map sind daher unabhängig von allen anderen Datensätzen und können so nahezu beliebig parallelisiert werden. Die Funktion kann die Daten nun beliebig verarbeiten, muss aber einen oder mehrere Ausgaben der Form (Schluessel, W ert) erzeugen, also key-value-paare. Diese werden als Zwischenergebnisse aufgefasst. Nachdem alle map-funktionen beendet sind, werden die Ergebnisse nach ihren Schlüsseln sortiert und anschließend wird für jeden eindeutigen Schlüssel eine reduce-funktion aufgerufen, dessen Eingabeparameter der Schlüssel ist und eine Liste oder ein Iterator für alle Werte, die von map unter diesem Schlüssel abgelegt wurden. Reduce ist dann wiederum frei, die Liste der Daten zu verarbeiten und einen oder mehrere Ausgabedatensätze zu erzeugen. Im Grunde können die Funktionen ziemlich wortwörtlich aufgefasst werden. Map ist eine Abbildung des Datensatzraumes auf Tupel, von denen solche mit gleichem Schlüssel von Reduce zusammengefasst oder aggregiert werden. In Abbildung 2.17 ist ein Beispiel visualisiert. Jemand der aus dem Gebiet relationaler Datenbank- Systeme kommt, wird schnell einsehen, dass sich das MapReduce-Schema sehr gut für die klassischen Aggregations-Funktionen aus SQL eignet. Nehmen wir an, es läge eine Datenbank (oder wie immer geartete Datenstruktur) mit Datensätze zu Personen mit ihren Berufen vor. Ein Datensatz soll aus dem Namen, dem Alter, der Berufsgruppe und dem Einkommen bestehen. Wäre man nun daran interessiert, wie hoch das durchschnittliche Einkommen pro Berufsgruppe ist, würde man in SQL etwa ein Statement wie SELECT Berufsgruppe, AVG(Einkommen) FROM Personeninformationen GROUP BY Berufsgruppe formulieren. Im Grunde entsprechen die einzelnen SQL-Schlüsselworte hier den Elementen von MapReduce. SELECT nimmt eine Abbildung vor, GROUP BY fasst die Daten mit einem gleichen Merkmal zusammen und AVG reduziert und aggregiert die Daten einer Gruppe auf einen Datensatz. Der obere Bereich des Schaubilds ist zweigeteilt, um darzustellen, dass die map-phase auch auf physisch getrennten Systemen parallelisiert werden kann. Auf der linken Seite stellen wir uns einen Rechner vor, der die drei dargestellten Datensätze lokal hält, auf der rechten Seite einen zweiten Rechner, dem die zwei übrigen Datensätze vorliegen. Wird nun der gleiche Datenverarbeitungs-Mechanismus auf MapReduce abgebildet, würde zunächst jeder Datensatz einmal die map-funktion passieren. Diese 106

115 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken [Meier, 31, Unternehmensberater, ] [Müller, 46, Unternehmensberater, ] [Kunze, 29, Lehrer, ] [Schmidt, 41, Lehrer, ] [Huber, 36, Makler, ] map map map map map [Unternehmensberater, ] [Unternehmensberater, ] [Lehrer, ] [Lehrer, ] [Makler, ] sort [Unternehmensberater, ] [Unternehmensberater, ] [Lehrer, ] [Lehrer, ] [Makler, ] reduce reduce reduce [Unternehmensberater, ] [Lehrer, ] [Makler, ] Abbildung 2.17: Der konzeptuelle Ablauf eines MapReduce-Zyklus bei dem aus Berufsinformationen Durchschnittsgehälter nach Berufsgruppe ermittelt werden sollen. würde jedes Datum auf ein Schlüssel-Wert-Paar abbilden, wobei im späteren Verlauf gleiche Schlüssel der gleichen reduce-funktion zugeführt werden. Offenbar muss der Schlüssel also die Berufsgruppe sein, damit später in genau einer reduce-funktion alle Einkommen der gleichen Berufsgruppe zur Verfügung stehen. Der Wert ist dann das jeweilige Einkommen, der komplette Datensatz wird also auf einen kleineren mit neuem Schlüssel abgebildet. Sind alle map-aufrufe beendet, werden die Datensätze sortiert und gegebenenfalls von mehreren Ausgangscomputern auf einen oder mehrere umverteilt, so dass alle Datensätze, die den gleichen Schlüssel haben, für genau eine reduce-funktion abrufbar sind. Es entstehen im Beispiel offenbar drei Gruppen mit jeweils gleichen Schlüsseln, die nun reduce zugeführt werden. Die Funktion würde dann für die Durchschnittsberechnung einfach über alle Werte iterieren, summieren und schließlich durch die 107

116 Kapitel 2. Semantik und semantische Ähnlichkeit Anzahl der Datensätze teilen. Mehrere Datensätze werden also auf ein Aggregat reduziert. Im Beispiel also die Berufgruppe zusammen mit dem ermittelten Durchschnittseinkommen. Ob die Berechnungen beziehungsweise Operationen auf den Daten tatsächlich verteilt werden oder auf ein und derselben Maschine erfolgen, spielt natürlich für das grundsätzliche Konzept keine Rolle. Wichtig ist, dass durch Einhaltung dieses Schemas von dieser Aufgabe abstrahiert werden kann. In der Arbeit von Dean und Ghemawat wird noch auf einige andere Konzepte eingegangen, die bei der Entwicklung dieses Datenverarbeitungsschemas eine Rolle gespielt haben. Zunächst wäre da das der Datenlokalität. Gerade wenn ein wichtiger Aspekt der Entwicklung von MapReduce die Verteilung und Paralellisierung der Datenverarbeitung war, lohnt es sich über den Aspekt der Kosten für die Datenübertragung nachzudenken. Ein Grundprinzip, dem die meisten MapReduce-Implementierungen folgen, ist das der Datenlokalität, das heißt, dass anders als bei konventionellen Datenverarbeitungsmechanismen die zu vearbeitenden Daten nicht auf die Maschine, die sie verarbeiten soll, übertragen werden, sondern die map- beziehungsweise reduce-funktionen, deren Quell- oder Binärform ja viel, viel kleiner als die Daten sind, dorthin übertragen werden wo letztere liegen. Auf diese Weise lassen sich enorme Einsparungen bei der Netzwerkauslastung erreichen. Nach map ist es natürlich unerlässlich, das die Zwischenprodukte zusammengefasst, also auch übertragen werden, aber auch hier kann darauf geachtet werden, dass beispielsweise Daten im gleichen Subnetzwerk auch auf einem Rechner in diesem weiterverarbeitet werden. Ein weiteres Konzept, das ebenfalls für Einsparungen bei der Netzwerk-Auslastung sorgen soll, ist die Einführung eines weiteren Verarbeitungsschritts, der combine-phase. Im Beispiel in Abbildung 2.17 liegen beispielsweise nach map bereits zwei Datensätze mit dem gleichen Schlüssel auf dem gleichen physischen Rechner. Die Idee von combine ist nun, eine weitere Funktion einzuführen, die diese Datensätze zu einem oder zu weniger Datensätzen zusammenfasst. Im Grunde stellt sie damit eine Variante der reduce-funktion da, jedoch ist bei combine nicht garantiert, dass bereits alle Werte zu einem Schlüssel vorliegen. Gerade im Beispiel der Durchschnittsberechnung ist es etwas schwieriger die beiden Datensätze zu einem zusammenzufassen, wenn noch nicht klar ist, ob es sich dabei um alle Werte handelt. Man könnte hier etwa die beiden Datensätze zu einem Tupel (Unternehmensberater, [2, ]) zusammenfassen. Der Schlüssel wäre also gleich und der Wert besteht wiederum aus einem Tupel, wobei das zweite Element der Durchschnitt der Elemente ist, die zusammengefasst wurden und der erste Wert gibt an, wie viele Werte an diesem Durchschnitt beteiligt waren. Reduce würde dann später einen gewichteten Durchschnitt über alle von combine berechneten Zwischenergebnisse ermitteln. In vielen Fällen, bietet sich ein vorzeitiges Kombinieren von Datensätzen ohne Wissen über die Gesamtheit allerdings nicht an, so dass die combine-phase in MapReduce optional ist. Ein letzter wichtiger Punkt hängt ebenfalls mit der Parallelisierung zusammen, denn wenn Berechnungen auf viele Maschinen verteilt werden, muss man damit rechnen, dass eine oder mehrere dieser bei der Berechnung ausfallen oder vom Netzwerk getrennt werden. Je nach Implementierung kann man mit solchen Szenarien unterschiedlich umgehen. Die Arbeit von Dean und Ghemawat nennt dabei den Vorteil, dass die map- und reduce-funktionen völlig unabhängig voneinander durchgeführt werden können. Ein zentraler Master-Rechner, der den einzelnen Worker-Rechnern die Arbeiten aufträgt, registriert wenn map- und reduce-funktionen beendet sind sollten einige 108

117 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken zu lange brauchen oder Netzwerkfehler auftreten, die dafür sorgen, dass Ergebnisse nicht mehr gelesen werden können, wird die Verarbeitung einfach an einen anderen Rechner übertragen. Das funktioniert natürlich insbesondere im Falle von map nur dann, wenn die Quelldaten redundant gespeichert sind und für diese Fehlertoleranz muss eventuell ein wenig Datenlokalität aufgegeben werden dafür kann auch dieses komplexe Problem der Fehlerbehandlung vom Entwickler der eigentlichen Datenverarbeitung versteckt werden. So geschickt die Spezifikation des MapReduce-Schemas auch sein mag, so soll an dieser Stelle auch kurz auf die Nachteile eingegangen werden. Der vermutlich größte Nachteil liegt einfach darin, dass viele Operationen auf Daten nicht gut auf das zweiphasige MapReduce-Schema abgebildet werden können. Das ist beispielsweise dann der Fall, wenn die Ausführung von reduce sehr viele Daten im Speicher halten muss. Im Hinblick auf das SQL-Beispiel ist das insbesondere dann der Fall, wenn Joins notwendig werden. Ein einfacher Algorithmus würde die Daten der beiden zu verbindenden Tabelle in map zuführen, dort würde die Spalte mit dem Join-Schlüssel als neuer Schlüssel gewählt werden und in der Ausgabe müsste vermerkt werden, ob das ausgegebene Tupel aus der linken oder rechten Tabelle stammt. Reduce bekommt dann alle Tupel der beiden Tabellen, die den gleichen Join-Key haben, hat aber nun das Problem, dass das Kreuzprodukt aller Eingangstupel gebildet werden muss. Um das zu tun, müssen zunächst alle Daten gelesen sein, damit für jedes Tupel der linken Tabelle dieses einmal mit jedem Tupel der rechten Tabelle ausgegeben werden kann. In ungünstigen Fällen ist der notwendige Speicherplatz hierzu so groß, dass die Verarbeitung nicht mehr im Arbeitsspeicher stattfinden kann. Blanas et al. (2010) beispielsweise untersuchen in ihrer Arbeit verschiedene Strategien, die genau dieses Join-Szenario auf MapReduce umsetzen. Ein zweites Problem schließt sich direkt an. Unter der Annahme, dass für zwei Tabellen ein Join erfolgreich durchgeführt wurde, ist die Datenverarbeitung ja noch längst nicht fertig. Selten möchte man einfach nur Daten zusammenfügen, das Produkt soll dann erst verarbeitet werden. Der andere Nachteil an MapReduce ist also, dass es meist in einem Durchlauf nicht möglich ist, alle Berechnungen durchzuführen, was bedeutet, dass man mehrere MapReduce-Zyklen hintereinander durchführen muss, bis das entsprechende Endergebnis erreicht ist. Ein Beispiel für eine mehrphasige Verarbeitung ist in Abschnitt dargestellt, denn auch für die Berechnung der Assoziationswerte reicht ein Zyklus nicht aus. Ob letztlich die enormen Vorteile, allein die Möglichkeit extrem große Datenmengen überhaupt strukturiert verarbeiten zu können, überwiegen oder der Aufwand, notwendige Datenoperationen auf das MapReduce-Schema abzubilden, zu hoch ist, hängt stark von der Menge und Struktur der Daten und natürlich der Verarbeitungsoperationen ab. Im Fall der Berechnung der semantischen Ähnlichkeitswerte haben für diese Arbeit die Vorteile überwogen Eingesetzte Implementierungen und Technologien In den folgenden Absätzen soll kurz auf die genutzten Technologien und speziellen Implementierungen bei der Verarbeitung der Text-Corpora eingegangen werden, bevor im nächsten Abschnitt ein konkretes Beispiel für den Ablauf der Ermittlung der Ähnlichkeitswerte wie in Abschnitt vorgestellt wird. 109

118 Kapitel 2. Semantik und semantische Ähnlichkeit Hadoop Der Arbeit von Dean und Ghemawat (2008) zum Thema MapReduce folgend gab es verschiedene Initiativen, die von Google nicht offengelegte Bibliothek für das MapReduce- Verfahren nachzuimplementieren. Der bekannteste und weitverbreitetste Ansatz ist unter dem Namen Hadoop 53 bekannt und wird im Rahmen der Apache Foundation gepflegt und weiterentwickelt. Es handelt sich um ein Projekt, das quelloffen ist und unter der freien Apache-Lizenz steht. Es ist zudem, da es auf der Programmiersprache Java basiert, plattformunabhängig. Oft versteht man unter dem Begriff Hadoop direkt das, was eigentlich mit MapReduce gemeint ist. Das Projekt umfasst aber durchaus mehr. Insbesondere zu nennen ist dabei das verteilte Dateisystem HDFS, Hadoop Distributed File System. Dieses geht ebenfalls auf eine Arbeit, die bei Google entwickelt wurde, zurück und implementiert die Vorschläge von Ghemawat et al. (2003). Die grundlegende Idee ist dabei, ein Dateisystem zu schaffen, das über viele Rechner nahezu beliebig skalieren kann, dabei aber insbesondere fehlertolerant ist und einen möglichst großen Datendurchsatz beim Lesen erreicht. Nutzt man die verschiedenen Komponenten von Hadoop, kann man auf einem oder beliebig vielen Rechnern einen so genannten Hadoop-Cluster aufsetzen. Dieser spannt dann über alle verbundenen Maschinen das verteilte Dateisystem auf, auf dem etwa die Quelldaten für MapReduce-Prozesse abgelegt werden können. Neben Komponenten, die es erlauben dieses System so zu verwalten, dass relativ einfach einzelne Maschinen aus dem Cluster entfernt oder neue hinzugefügt werden können, wird natürlich außerdem eine Implementierung der MapReduce-Bibliothek zur Verfügung gestellt. Da Hadoop selbst in Java geschrieben ist, werden auch die map- sowie die reduce-funktion als Java-Methoden beziehungsweise Klassen formuliert. Diese werden dann in eine.jar-datei verpackt, die der Bibliothek zusammen mit einer Vielzahl an möglichen Konfigurationsoptionen übergeben wird. Die Bibliothek sorgt dann dafür, dass die Klassen an die zuständigen Maschinen im Cluster verteilt und dort nach Möglichkeit dem Prinzip der Datenlokalität folgend ausgeführt werden. Abbildung 2.18 zeigt beispielhaft die beiden Ebenen von Dateisystem und MapReduce-Bibliothek, wie das Hadoop-Projekt dies vorsieht. Im Cluster ist eine (oder je nach Distribution auch mehrere) Master-Node enthalten. Diese verwalten die Meta-Daten des Dateisystems und sind dafür verantwortlich, die MapReduce-Jobs auf die zugehörigen Arbeits- bzw. Datenmaschinen zu übertragen und anzustoßen. Letztere nennt man auch Slaves. Auf Ebene des Dateisystems heißt der Dienst beziehungsweise der Master-Rechner auch Name-Node, auf Ebene der MapReduce- Bibliothek Job-Tracker. Die Slaves werden entsprechend Data-Nodes beziehungsweise Task-Tracker genannt. Für Details zur Implementierung von Hadoop sei auf die umfassende Dokumentation des Projekts verwiesen 54. MapR Obwohl das Hadoop-Projekt ebenfalls eine komplett nutzbare Distribution der entwickelten Bibliotheken bereitstellt, stellen verschiedene Firmen eigene Distributionen auf Basis der Original-Version bereit. Eine nicht vollständige Übersicht, ist auch auf der Webseite von Hadoop selbst zu finden 55. Ganz im Sinne des Open-Source-Vertriebsmodells ist die jeweilige Software 53 abgerufen am Die Dokumentation ist unter abgerufen am , zu finden. 55 abgerufen am

119 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Abbildung 2.18: Visualisierung eines Hadoop-Clusters auf Ebene des Dateisystems und der MapReduce- Bibliothek. Von abgerufen am meist kostenlos, die Firmen bieten basierend darauf aber Services wie Installation, Bereitstellung von Hardware und Support kostenpflichtig an. Eine dieser Distributionen ist MapR, deren zugehörige Firma von einem ehemaligen Google-Mitarbeiter gegründet wurde. Im Rahmen dieser Arbeit wurden verschiedene Distributionen verglichen und schließlich wurde MapR gewählt, da das Unternehmen für seine MapReduce- und Dateisystem-Implementierung verschiedene Vorteile gegenüber der Standard-Bibliothek nennt, die für das Deployment auf der gegebenen Hardware vorteilhaft scheint. In einem Whitepaper des Unternehmens (map, 2011) sind einige dieser Vorteile erläutert. Die wesentlichen Argumente für die Nutzung einer Nicht-Standard-Distribution waren im Falle dieser Arbeit vor allem eine Sparsamkeit bezüglich vorhandener Maschinenressourcen. Da für die vorgestellten Forschungsarbeiten kein neuer Rechen-Cluster angeschafft werden sollte, war die Hauptanforderung an die Distribution, auf relativ schwach bestückter Standard-Desktop- Hardware laufen zu können, ähnlich wie auch Google seinen Rechencluster betreibt (Dean und Ghemawat, 2008). Insgesamt konnten zwar 13 Rechner zur Verfügung gestellt werden, die Ausstattung belief sich aber meist auf 4 Gigabyte Arbeitsspeicher, einen Intel Core 2 Duo-Prozessor und eine oder mehrere Festplatten im Speicherbereich von 100 Gigabyte. Über den Verlauf des Projekts konnten einige der Rechner erfreulicherweise zwar aufgerüstet werden, aber initial musste jeder unnötige Speicher- und Performance-Overhead vermieden werden. Für MapR haben sich hier drei wesentliche Vorteile ergeben: Auf Ebene des Festplattenspeichers implementiert MapR eine transparente Kompressions-Technologie, die insbesondere für Textdaten sinnvoll ist, da sich hier viele Begriffe extrem häufig wiederholen. Auf diese Weise konnte der verfügbare Speicherplatz effizienter genutzt werden. Das größere Argument war aber die Tatsache, dass MapR die tieferen Schichten des Systems nicht in Java sondern C beziehungsweise C++ implementiert hat 111

120 Kapitel 2. Semantik und semantische Ähnlichkeit und daraus insbesondere einen geringeren Speicherbedarf ableitet. In diesem Rahmen wird als Vorteil auch die daraus resultierenden niedrigeren Hardware-Anforderungen sowie ein genereller Performance-Vorteil genannt. Ob letztlich nicht auch die Standard-Bibliothek ausgereicht hätte, ist schwer zu sagen. Tatsächlich mussten jedoch viele Optimierungen bei den MapReduce-Jobs vorgenommen werden, da der Speicherbedarf oftmals zu groß wurde, so dass Jobs häufig abgestürzt sind und komplette MapReduce-Zyklen oftmals nach mehrtägiger Berechnung nicht vervollständigt werden konnten. Abbildung 2.19: Screenshot der MapR-Verwaltungsoberfläche mit der genutzten Cluster-Konfiguration. Drei Rechner waren für die Verwaltung zuständig, 10 Rechner standen für das verteilte Dateisystem und die Verarbeitung mit MapReduce zur Verfügung. In Abbildung 2.19 ist ein Screenshot der Administrationsoberfläche von MapR zu sehen. Über diese komfortable Sicht kann nicht nur der Gesamtzustand des Clusters, also etwa die derzeitige Rechenlast eines jeden Rechners, seine Festplattenbelegung und so weiter kontrolliert werden, das Interface bietet auch Zugang zur Verwaltung laufender und eingereihter MapReduce-Jobs sowie Informationen über ihren Zustand (vgl. auch Abbildung 2.20). BigTable, HBase und Hypertable Nachdem nun klar ist, dass die Daten nach dem MapReduce- Schema verarbeitet werden sollen und hierzu MapR als besondere Hadoop-Distribution die Implementierung bereitstellt, ist noch ungeklärt in welcher Form die Daten gespeichert werden sollen. Generell benötigt ein Vorgehen nach MapReduce keine klassische Datenbank. Es reicht aus, wenn die Daten im verteilten Dateisystem vorliegen und dort auch wieder hingeschrieben werden können. Das Format kann dabei eine einfache Textdatei sein, die Zeilenweise verarbeitet wird. Jede Zeile würde in diesem Fall einen neuen Aufruf von map erzeugen und letztlich würde reduce Zieldaten wiederum zum Beispiel in eine oder mehrere Textdateien schreiben. Für die Eingabedaten, also letztlich den Corpus, spielt es keine große Rolle, ob die Textdaten vorstrukturiert werden, aber für die Ausgabe soll ja etwas wie eine Matrix, in unserem Beispiel eine term-term-matrix, produziert werden. Schließlich ist es letztlich wünschenswert und bei 112

121 2.4. Maße auf Grundlage von Häufigkeits- und Verteilungsstatistiken Abbildung 2.20: Zustand eines MapReduce Jobs in der Weboberfläche. Hier ein Job der die gemeinsamen Häufigkeiten im Text-Corpus ermittelt. Dafür wurden 41 parallele map-prozesse gestartet, die zum betrachteten Zeitpunkt Wikipedia-Artikel verarbeitet und dabei fast fünf Milliarden gemeinsame Häufigkeiten ermittelt haben. der Größe der Matrix auch notwendig effizienten Zugriff auf die einzelnen Matrix-Zellen zu erlangen. Dazu kommt, dass es durch die mehreren MapReduce-Zyklen, die durchlaufen werden müssen, notwendig ist, eine gewisse Datenstruktur zu pflegen. Aus diesem Grund bietet es sich an, die Zieldaten in ein Datenbanksystem zu speichern. Dabei lohnt sich aus verschiedenen Gründen eine Datenbank nach Googles Bigtable-Design (Chang et al., 2008). Bigtable basiert direkt auf den verteilten Technologien, wie dem Google-Filesystem und der Idee hinter MapReduce und wird von den Autoren als sparse, distributed, persistent multidiminsional sorted map bezeichnet. Passenderweise entspricht dies in jedem Aspekt genau der Datenstruktur, die idealerweise die entstehende term-term-matrix repräsentiert. Diese ist ebenfalls relativ dünn besetzt, sie ist zweidimensional, wie wir sehen werden unter Umständen auch mehrdimensional und die persistente, verteilte Speicherung sorgt dafür, dass MapReduce zur Verarbeitung genutzt werden kann. Wenn man das Datenmodell, das hinter Bigtable steht, genauer betrachtet, so kann man es grob mit einem relationalen, also auf Tabellen basierenden, System vergleichen. 113

122 Kapitel 2. Semantik und semantische Ähnlichkeit Abbildung 2.21: Eine Beispieltabelle nach relationalem Vorbild für Früchte- beziehungsweise Gemüselieferungen. Von abgerufen am Abbildung 2.21 zeigt eine einfache Beispieltabelle, wie man sie auch in einem relationalen Datenbanksystem vorfinden könnte. Sie besteht aus Zeilen und Spalten, wobei jede Zeile durch einen Primärschlüssel ausgezeichnet ist, der hier der Spalte Item entsprechen soll. Die einzelnen Attribute sind in den übrigen Spalten gespeichert und können eindeutig über den Schlüssel abgerufen werden. Bigtable ist nun in gewisser Weise spaltenorientiert und erlaubt es damit ein Datenbankschema durch Hinzufügen von Spalten beliebig breit zu machen. Dadurch entsteht unter Umständen die bereits angesprochene sparseness, die auch in der Abbildung durch die vielen durch \N notierten NULL-Werte visualisiert werden soll. Das Problem wird dadurch umgangen, dass diese Tabelle in eine einfach Abbildung von (Schluessel, Spalte) W ert überführt wird das, was Google als Map bezeichnet. Abbildung 2.22: Überführung der Tabelle aus Abbildung 2.21 in eine Key-Value-Map. In Abbildung 2.22 ist das Ergebnis dargestellt. Im Grunde kann man sich das Ergebnis als dreispaltige Tabelle vorstellen, wobei die Tatsache, dass der eigentliche Name der Spalte in der Ursprungstabelle nun ein Wert der Überführungstabelle ist, dafür sorgt, dass beliebig viele Spal- 114

Befragung und empirische Einschätzung der Praxisrelevanz

Befragung und empirische Einschätzung der Praxisrelevanz Befragung und empirische Einschätzung der Praxisrelevanz eines Vorgehensmodells zur Auswahl von CRM-Systemen D I P L O M A R B E I T zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser Gliederung Einleitung Problemstellungen Ansätze & Herangehensweisen Anwendungsbeispiele Zusammenfassung 2 Gliederung

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1.

Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Lösungsvorschlag für das Übungsblatt 1. Aufgabe 1. Zusammengefasst aus Ihren Beiträgen Wie bewerten sie das System ingesamt? Das Watson System verdeutlicht den Fortschritt der Künstlichen Intelligenz Forschung/Computerlinguistik/Informatik

Mehr

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit IT-basierte Erstellung von Nachhaltigkeitsberichten Diplomarbeit zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen Fakultät der Leibniz Universität Hannover vorgelegt von

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

ZUR BEDEUTUNG VON TRENDS IM INNOVATIONSMANAGEMENT

ZUR BEDEUTUNG VON TRENDS IM INNOVATIONSMANAGEMENT April 2013 ZUR BEDEUTUNG VON TRENDS IM INNOVATIONSMANAGEMENT von Maren Weiß & Prof. Dr. Michael Durst Welche Rolle spielen Trends in den Frühen Phasen im Innovationsmanagement? Wie setzen Unternehmen Trends

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

1. Einleitung. 1.1. Ausgangssituation

1. Einleitung. 1.1. Ausgangssituation 1. Einleitung In der vorliegenden Arbeit wird untersucht, welche Faktoren den erfolgreichen Ausgang eines Supply-Chain-Projektes zwischen zwei Projektpartnern beeinflussen. Dazu werden zum einen mögliche

Mehr

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Exposé zur Diplomarbeit Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II Institut

Mehr

Erläuterung des Begriffs Plagiat

Erläuterung des Begriffs Plagiat Erläuterung des Begriffs Plagiat 1 Definition Plagiat Unter einem Plagiat versteht man allgemein die Wiedergabe eines Textteils ohne Herkunftsangabe. Besonders zu beachten ist, dass es unerheblich ist,

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Ausarbeitung zum Thema Approximationsalgorithmen im Rahmen des Fachseminars 24. Juli 2009 Robert Bahmann robert.bahmann@gmail.com FH Wiesbaden Erstellt von: Robert Bahmann Zuletzt berarbeitet von: Robert

Mehr

Data Mining-Projekte

Data Mining-Projekte Data Mining-Projekte Data Mining-Projekte Data Mining stellt normalerweise kein ei nmaliges Projekt dar, welches Erkenntnisse liefert, die dann nur einmal verwendet werden, sondern es soll gewöhnlich ein

Mehr

Formulierungshilfen für das wissenschaftliche Schreiben

Formulierungshilfen für das wissenschaftliche Schreiben Formulierungshilfen für das wissenschaftliche Schreiben 1. Einleitendes Kapitel 1.1.1 Einen Text einleiten und zum Thema hinführen In der vorliegenden Arbeit geht es um... Schwerpunkt dieser Arbeit ist...

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Eine empirische Studie unter (ehemaligen) Zivildienstleistenden des Österreichischen Roten Kreuzes.

Eine empirische Studie unter (ehemaligen) Zivildienstleistenden des Österreichischen Roten Kreuzes. Zivildienst als wichtige Sozialisationsinstanz oder Erziehung zur Menschlichkeit Eine empirische Studie unter (ehemaligen) Zivildienstleistenden des Österreichischen Roten Kreuzes. Mag. Gerald Czech Das

Mehr

Einführung in die Wissensverarbeitung und Data Mining

Einführung in die Wissensverarbeitung und Data Mining Einführung in die Wissensverarbeitung und Data Mining Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik!" $# Vorlesung Wintersemester 2001/02 1. Einführung Vorbemerkungen 1 Einführung Vorbemerkungen

Mehr

Design, Durchführung und Präsentation von Experimenten in der Softwaretechnik

Design, Durchführung und Präsentation von Experimenten in der Softwaretechnik Design, Durchführung und Präsentation von Experimenten in der Softwaretechnik Inhalt 1. Zusammenfassung der Papers 2. Fehler in Design, Durchführung und Präsentation 3. Richtlinien für saubere Experimente

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Conversion Attribution

Conversion Attribution Conversion Attribution Eines der Trendthemen über das zurzeit jeder spricht ist Attribution. Das heißt allerdings nicht, dass auch jeder weiß was genau Attribution ist, was man damit machen kann und für

Mehr

Die Duration von Standard-Anleihen. - Berechnungsverfahren und Einflussgrößen -

Die Duration von Standard-Anleihen. - Berechnungsverfahren und Einflussgrößen - Die Duration von Standard-Anleihen - Berechnungsverfahren und Einflussgrößen - Gliederung Einleitendes Herleitung einer Berechnungsvorschrift Berechnungsvorschriften für Standardfälle Einflussgrößen und

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Ziele und Herausforderungen

Ziele und Herausforderungen Ziele und Herausforderungen Text soll automatisch aus einer Quellsprache in eine Zielsprache übertragen werden Dabei soll die Funktion des Textes erhalten bleiben Es werden sowohl computerlinguistische

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Scheinaufgabe im Fach Web Engineering

Scheinaufgabe im Fach Web Engineering Otto-von-Guericke-Universität Magdeburg Fakultät für Informatik Institut für Verteilte Systeme Scheinaufgabe im Fach Web Engineering Thomas Thüm 07. August 2006 Matrikel: 171046 Lehrveranstaltung: Web

Mehr

Qualitative Aspekte Enterprise Search Volltextsuche & Text Mining. Franz Kögl Vorstand IntraFind Software AG

Qualitative Aspekte Enterprise Search Volltextsuche & Text Mining. Franz Kögl Vorstand IntraFind Software AG Qualitative Aspekte Enterprise Search Volltextsuche & Text Mining Franz Kögl Vorstand IntraFind Software AG Vorstellung IntraFind AG Qualitative Sucherweiterung: Search+ Wildcardsuche Einbindung von Synonymen

Mehr

1 Einleitung. Software Engineering. Vorgehensweisen

1 Einleitung. Software Engineering. Vorgehensweisen 1 Noch ein Buch über Software Engineering? Warum nicht! Wir folgen einem Prinzip, das zur Lösungsfindung in den verschiedensten Domänen Einzug gehalten hat: die Betrachtung aus verschiedenen Blickwinkeln.

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

Qualität 1. 1 Qualität

Qualität 1. 1 Qualität Qualität 1 1 Qualität Nach dem Durcharbeiten dieses Kapitels sollten Sie die Qualität für ein Softwaresystem definieren können, typische Qualitätskriterien kennen, Qualitätskriterien messbar festlegen

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector

7.4 Analyse anhand der SQL-Trace. 7.3.5 Vorabanalyse mit dem Code Inspector 7.4 Analyse anhand der SQL-Trace 337 7.3.5 Vorabanalyse mit dem Code Inspector Der Code Inspector (SCI) wurde in den vorangegangenen Kapiteln immer wieder erwähnt. Er stellt ein paar nützliche Prüfungen

Mehr

Was ist DITA und was bringt es? www.ditaworks.com

Was ist DITA und was bringt es? www.ditaworks.com www.ditaworks.com Wir leben im Informationszeitalter und sind einem exponentiellen Anstieg neuer Daten und Informationen ausgesetzt. Nach neusten Studien können wir davon ausgehen, dass 90% aller verfügbaren

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

Business Intelligence mit Microsoft SQL Server 2005

Business Intelligence mit Microsoft SQL Server 2005 Business Intelligence mit Microsoft SQL Server 2005 Holger Schrödl ISBN 3-446-40463-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/3-446-40463-5 sowie im Buchhandel 4.6

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr

Grundbegriffe (1) Grundbegriffe (2)

Grundbegriffe (1) Grundbegriffe (2) Grundbegriffe (1) S.1 Äquivalenzklasse Unter einer Äquivalenzklasse versteht man eine Klasse von Objekten, die man hinsichtlich bestimmter Merkmalsausprägungen als gleich (äquivalent) betrachtet. (z.b.

Mehr

Gibt es verschiedene Arten unendlich? Dieter Wolke

Gibt es verschiedene Arten unendlich? Dieter Wolke Gibt es verschiedene Arten unendlich? Dieter Wolke 1 Zuerst zum Gebrauch des Wortes unendlich Es wird in der Mathematik in zwei unterschiedlichen Bedeutungen benutzt Erstens im Zusammenhang mit Funktionen

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Projektbezogenes Social Media Monitoring

Projektbezogenes Social Media Monitoring Projektbezogenes Social Media Monitoring Überblick über unser Angebot Der ESEMOS MediaMiner ist ein Stimmungsbarometer und Monitoring-Werkzeug für soziale Netzwerke. MediaMiner zeichnet sich insbesondere

Mehr

ANALYSE DES FREMDSPRACHENBEDARFS. Benutzerhandbuch

ANALYSE DES FREMDSPRACHENBEDARFS. Benutzerhandbuch ANALYSE DES FREMDSPRACHENBEDARFS Benutzerhandbuch Version: 1.1 Datum: 31 März 2013 Autor: Mike Hammersley Das CELAN Netzwerk Projekt wurde mit Unterstützung der Europäischen Kommission finanziert, (LLP

Mehr

USABILITY-CHECKLISTE FÜR SOFTW ARE- ANWENDENDE UNTERNEHMEN

USABILITY-CHECKLISTE FÜR SOFTW ARE- ANWENDENDE UNTERNEHMEN USABILITY-CHECKLISTE FÜR SOFTW ARE- ANWENDENDE UNTERNEHMEN 1 EINLEITUNG Auch Unternehmen, die Software-Produkte einkaufen, stehen vor der Herausforderung, eine geeignete Auswahl treffen zu müssen. Neben

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

VERÖFFENTLICHT VON: ag-pictures Andreas Grzesiak Espenweg 5 86971 Peiting. 2015 Andreas Grzesiak Alle Rechte vorbehalten. www.ag-pictures.

VERÖFFENTLICHT VON: ag-pictures Andreas Grzesiak Espenweg 5 86971 Peiting. 2015 Andreas Grzesiak Alle Rechte vorbehalten. www.ag-pictures. VERÖFFENTLICHT VON: ag-pictures Andreas Grzesiak Espenweg 5 86971 Peiting 2015 Andreas Grzesiak Alle Rechte vorbehalten. www.ag-pictures.com Über Andreas Grzesiak: Andreas Grzesiak hat sich schon in jungen

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Data-Mining: Ausgewählte Verfahren und Werkzeuge Fakultät Informatik Institut für Angewandte Informatik Lehrstuhl Technische Informationssysteme Data-Mining: Ausgewählte Verfahren und Vortragender: Jia Mu Betreuer: Dipl.-Inf. Denis Stein Dresden, den

Mehr

AdWords Professional Kurs. by netpulse AG

AdWords Professional Kurs. by netpulse AG AdWords Professional Kurs by netpulse AG Inhaltsverzeichnis Einleitung... 3 Kursaufbau... 3 Google zertifizierter AdWords-Spezialist... 3 Modul 1 Wie AdWords wirklich funktioniert... 4 Modul 2 Die bessere

Mehr

Die folgenden Features gelten für alle isquare Spider Versionen:

Die folgenden Features gelten für alle isquare Spider Versionen: isquare Spider Die folgenden s gelten für alle isquare Spider Versionen: webbasiertes Management (Administratoren) Monitoring Sichten aller gefundenen Beiträge eines Forums Statusüberprüfung Informationen

Mehr

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen. Lucene Hilfe Begriffe Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen. Ein einzelner Begriff ist ein einzelnes

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung Ermittlung von Assoziationsregeln aus großen Datenmengen Zielsetzung Entscheidungsträger verwenden heutzutage immer häufiger moderne Technologien zur Lösung betriebswirtschaftlicher Problemstellungen.

Mehr

Peter Meier. Die Umsetzung von Risikomanagement nach ISO 31000. - Leseprobe -

Peter Meier. Die Umsetzung von Risikomanagement nach ISO 31000. - Leseprobe - Peter Meier Die Umsetzung von Risikomanagement nach ISO 31000 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen

Mehr

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz Mit KI gegen SPAM Proseminar Künstliche Intelligenz SS 2006 Florian Laib Ausblick Was ist SPAM? Warum SPAM-Filter? Naive Bayes-Verfahren Fallbasiertes Schließen Fallbasierte Filter TiMBL Vergleich der

Mehr

Vorlesung. Funktionen/Abbildungen 1

Vorlesung. Funktionen/Abbildungen 1 Vorlesung Funktionen/Abbildungen 1 1 Grundlagen Hinweis: In dieser Vorlesung werden Funktionen und Abbildungen synonym verwendet. In der Schule wird eine Funktion häufig als eindeutige Zuordnung definiert.

Mehr

Institut für angewandte Informationstechnologie (InIT)

Institut für angewandte Informationstechnologie (InIT) School of Engineering Institut für angewandte Informationstechnologie (InIT) We ride the information wave Zürcher Fachhochschule www.init.zhaw.ch Forschung & Entwicklung Institut für angewandte Informationstechnologie

Mehr

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern

Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Integration geometrischer und fotogrammetrischer Information zum Wiederfinden von Bildern Björn Burow SE Mustererkennung in Bildern und 3D-Daten Lehrstuhl Graphische Systeme BTU Cottbus Inhaltsübersicht

Mehr

Wissen und seine Rolle im und vor dem Übersetzungsprozess. Arbeit mit Hilfstexten

Wissen und seine Rolle im und vor dem Übersetzungsprozess. Arbeit mit Hilfstexten Michal Dvorecký Wissen und seine Rolle im und vor dem Übersetzungsprozess. Arbeit mit Hilfstexten Aufgabe 1 Wissen und seine Rolle im und vor dem Übersetzungsprozess. Aufgabe zur Bewusstmachung der unterschiedlichen

Mehr

Technische Dokumentation: wenn Englisch zur Herausforderung wird

Technische Dokumentation: wenn Englisch zur Herausforderung wird Praxis Technische Dokumentation: wenn Englisch zur Herausforderung wird Anforderungsspezifikation, Requirements-Engineering, Requirements-Management, Terminologieverwaltung www.sophist.de Über Englischkenntnisse

Mehr

IT-Infrastruktur und Auswirkungen in der Wohnungswirtschaft im Kontext des technikunterstützten Leben

IT-Infrastruktur und Auswirkungen in der Wohnungswirtschaft im Kontext des technikunterstützten Leben IT-Infrastruktur und Auswirkungen in der Wohnungswirtschaft im Kontext des technikunterstützten Leben Befragung im Rahmen des Verbundprojektes Standards für wohnungsbegleitende Dienstleistungen im Kontext

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

A1.7: Entropie natürlicher Texte

A1.7: Entropie natürlicher Texte A1.7: Entropie natürlicher Texte Anfang der 1950er Jahre hat Claude E. Shannon die Entropie H der englischen Sprache mit einem bit pro Zeichen abgeschätzt. Kurz darauf kam Karl Küpfmüller bei einer empirischen

Mehr

Enterprise Social Networking: Ein Framework und ein Fachkonzept für ein Industrieunternehmen

Enterprise Social Networking: Ein Framework und ein Fachkonzept für ein Industrieunternehmen Enterprise Social Networking: Ein Framework und ein Fachkonzept für ein Industrieunternehmen Bachelorarbeit zur Erlangung des akademischen Grades Bachelor auf Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 1 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNG UND ENTSCHEIDUNGSTHEORIE

Mehr

3 Social Recruiting Kritik und Erwiderungen

3 Social Recruiting Kritik und Erwiderungen 3 Social Recruiting Kritik und Erwiderungen Das Wichtigste in Kürze Das Verständnis von Social (Media) Recruiting als soziale Aktivität der Mitarbeiter stößt häufig auf Skepsis. Berechtigterweise wird

Mehr

RSA Verfahren. Kapitel 7 p. 103

RSA Verfahren. Kapitel 7 p. 103 RSA Verfahren RSA benannt nach den Erfindern Ron Rivest, Adi Shamir und Leonard Adleman war das erste Public-Key Verschlüsselungsverfahren. Sicherheit hängt eng mit der Schwierigkeit zusammen, große Zahlen

Mehr

Projektimbiss. Intelligente Software verbessert den Stil. BusinessPM Unser Beitrag zu Ihrem Projekterfolg. von Ingrid Alms

Projektimbiss. Intelligente Software verbessert den Stil. BusinessPM Unser Beitrag zu Ihrem Projekterfolg. von Ingrid Alms Ausgabe 2012 Seite 1/10 Intelligente Software verbessert den Stil von Ingrid Alms Die Dokumentation ist wesentlicher Teil eines Projekts. Dennoch schreiben Menschen in Projekten selten gut. Ihre Dokumente

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

AGM Project & Education GmbH

AGM Project & Education GmbH AGM Project & Education GmbH Leipzig Datenschutzkonferenz dtb Kassel November 2011 20.11.2011 Detlev.Sachse@agm-onside.com 1 Zur Person 20.11.2011 Detlev.Sachse@agm-onside.com 2 Thema Data-Mining am Beispiel

Mehr

Neuerungen Analysis Services

Neuerungen Analysis Services Neuerungen Analysis Services Neuerungen Analysis Services Analysis Services ermöglicht Ihnen das Entwerfen, Erstellen und Visualisieren von Data Mining-Modellen. Diese Mining-Modelle können aus anderen

Mehr

Von der UML nach C++

Von der UML nach C++ 22 Von der UML nach C++ Dieses Kapitel behandelt die folgenden Themen: Vererbung Interfaces Assoziationen Multiplizität Aggregation Komposition Die Unified Modeling Language (UML) ist eine weit verbreitete

Mehr

Fallbasierte Bewertung von Internet-Domainnamen. Von Sebastian Dieterle

Fallbasierte Bewertung von Internet-Domainnamen. Von Sebastian Dieterle Fallbasierte Bewertung von Internet-Domainnamen Von Sebastian Dieterle Einleitung Einleitung Grundlagen Ansatz Evaluierung Schlussfolgerungen 2 Entstehung eines interdisziplinären Ansatzes 2002-: Unternehmensgründung

Mehr

Universität Passau. Betriebswirtschaftslehre mit Schwerpunkt Internationales Management Prof. Dr. Carola Jungwirth. Masterarbeit

Universität Passau. Betriebswirtschaftslehre mit Schwerpunkt Internationales Management Prof. Dr. Carola Jungwirth. Masterarbeit Universität Passau Betriebswirtschaftslehre mit Schwerpunkt Internationales Management Prof. Dr. Carola Jungwirth Masterarbeit "Identifikation von Erfolgsfaktoren für eine Facebook- Recruiting-Strategie"

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

3. Zusammenhang. 22 Andreas Gathmann

3. Zusammenhang. 22 Andreas Gathmann 22 Andreas Gathmann 3. Zusammenhang Eine der anschaulichsten Eigenschaften eines topologischen Raumes ist wahrscheinlich, ob er zusammenhängend ist oder aus mehreren Teilen besteht. Wir wollen dieses Konzept

Mehr

Wie schreibt man eine Ausarbeitung?

Wie schreibt man eine Ausarbeitung? Wie schreibt man eine Ausarbeitung? Holger Karl Holger.karl@upb.de Computer Networks Group Universität Paderborn Übersicht Ziel einer Ausarbeitung Struktur Sprache Korrektes Zitieren Weitere Informationen

Mehr

Informationssystemanalyse Personal Software Process 8 1

Informationssystemanalyse Personal Software Process 8 1 Informationssystemanalyse Personal Software Process 8 1 Personal Software Process Sehr eng mit dem CMM hängt der PSP (Personal Software Process) zusammen. Der PSP ergänzt das organisationsweite CMM um

Mehr

Wie Suchmaschinen von Social Software profitieren

Wie Suchmaschinen von Social Software profitieren Wie Suchmaschinen von Social Software profitieren Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg Fakultät DMI, Department Information Berliner Tor 5, 20249 Hamburg dirk.lewandowski@haw-hamburg.de

Mehr

- K u r z a u s w e r t u n g - Besucherservice auf Messeplätzen

- K u r z a u s w e r t u n g - Besucherservice auf Messeplätzen - K u r z a u s w e r t u n g - Ein Benchmark der Unternehmensberatung PartnerConsultingo Mai 2009 Inhaltsverzeichnis Ausgangssituation 3 Rahmendaten und Entwicklung 4 Individualauswertung 4 Auszug aus

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

Adaptive Choice-Based-Conjoint: Neue Möglichkeiten in der Marktforschung

Adaptive Choice-Based-Conjoint: Neue Möglichkeiten in der Marktforschung Adaptive Choice-Based-Conjoint: Neue Möglichkeiten in der Marktforschung MAIX Market Research & Consulting GmbH Kackertstr. 20 52072 Aachen 0241 8879 0 www.maix.de Inhalt Einleitung Grundlagen zur Conjoint

Mehr

Kirstin Hübner Armin Burgmeier Gruppe 15 10. Dezember 2007

Kirstin Hübner Armin Burgmeier Gruppe 15 10. Dezember 2007 Protokoll zum Versuch Transistorschaltungen Kirstin Hübner Armin Burgmeier Gruppe 15 10. Dezember 2007 1 Transistor-Kennlinien 1.1 Eingangskennlinie Nachdem wir die Schaltung wie in Bild 13 aufgebaut hatten,

Mehr

HTS-Berichte des ZTD - 01/2002 Vergleichsuntersuchung WILDE-Intelligenz-Test - Daten BFW Leipzig Bearbeiterin: A. Bettinville

HTS-Berichte des ZTD - 01/2002 Vergleichsuntersuchung WILDE-Intelligenz-Test - Daten BFW Leipzig Bearbeiterin: A. Bettinville UNIVERSITÉ DE FRIBOURG SUISSE UNIVERSITÄT FREIBURG SCHWEIZ ZENTRUM FÜR TESTENTWICKLUNG UND DIAGNOSTIK AM DEPARTEMENT FÜR PSYCHOLOGIE CENTRE POUR LE DEVELOPPEMENT DE TESTS ET LE DIAGNOSTIC AU DEPARTEMENT

Mehr

Über dieses Buch. Kapitel 1. 1.1 Einleitung

Über dieses Buch. Kapitel 1. 1.1 Einleitung Kapitel 1 Über dieses Buch 1.1 Einleitung Dieses Buch behandelt das Vorgehensmodell Kanban und seinen Einsatz in Softwareentwicklungsprojekten. Kanban ist ein Vorgehensmodell der schlanken Softwareentwicklung

Mehr

Agenda ITIL v3 Framework

Agenda ITIL v3 Framework Agenda ITIL v3 Framework Overview & Allgemeines ITIL Service Lifecycle Service Strategies Service Design Service Transition Service Operation Continual Service Improvement ITIL V3 Continual Service Improvement

Mehr

Hollanders Theorie über Konformität, Status und Idiosynkrasie-Kredit. Referat von Varinia Bernau

Hollanders Theorie über Konformität, Status und Idiosynkrasie-Kredit. Referat von Varinia Bernau Hollanders Theorie über Konformität, Status und Idiosynkrasie-Kredit Referat von Varinia Bernau Gliederung I. Einleitung II. III. IV. Hollanders Theorie über Konformität, Status und Idiosynkrasie-Kredit

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Entwicklung eines Scheduling-Verfahrens zur Optimierung der Reihenfolge von Prototypentests. Masterarbeit

Entwicklung eines Scheduling-Verfahrens zur Optimierung der Reihenfolge von Prototypentests. Masterarbeit Entwicklung eines Scheduling-Verfahrens zur Optimierung der Reihenfolge von Prototypentests Masterarbeit zur Erlangung des akademischen Grades Master of Science (M.Sc.) im Masterstudiengang Wirtschaftswissenschaft

Mehr

Grundlagen und die größten Irrtümer.

Grundlagen und die größten Irrtümer. Nr. SEO für jedermann. Grundlagen und die größten Irrtümer. Suchmaschinenoptimierung (SEO) und Suchmaschinenmarketing (SEM) werden immer wieder verwechselt: Doch SEO beschäftigt sich mit der Optimierung

Mehr