SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren

Transkript

1 SemGen: Methoden zur Erstellung von eindeutigen Wortvektoren Spinfo-internes Paper Claes Neuefeind Mai 2003 Im Rahmen des SemGen Projektes sollen sprachliche Daten in verschiedenen Verarbeitungsstufen algorithmisch verarbeitet werden. Einige der Algorithmen (u.a. SOM, LSI) verlangen eine vektorielle Repräsentation. Damit die verschiedenen Vektoren nicht korrelieren, benötigt man für jede Wortform einen eindeutigen Vektor. Wünschenswert ist dabei, bereits vorliegende Informationen für die Repräsentation zu verwenden, damit diese auch in weiteren Verarbeitungsschritten erhalten bleiben. Wesentlich für das Projekt ist dabei der Fokus auf die Semantik: Es soll nur der Inhalt der Wörter verglichen werden, dennoch muss die symbolische Repräsentation für die Lesbarkeit der Ausgaben in die Kodierung mit einfließen 1. Dass bereits die Beschaffenheit der Daten und somit auch die Wahl der Repräsentation Einfluss auf die Ergebnisse hat, ist dabei ein erwarteter Befund. Ist das Gewicht des symbolischen Teils sehr hoch, gruppieren sich die Daten nach ihrer Form - um eine inhaltlich Klassifizierung zu erhalten, muss somit der Kontext stärker ins Gewicht fallen. Dieses Paper versucht, diesen Umstand ein wenig zu beleuchten: Was sind die Kriterien, nach denen eine Repräsentation erstellt werden kann? Was eigentlich ist der Kontext in diesem Zusammenhang und wie kann dieser eingebunden werden? Welche weiteren Faktoren spielen bei der Erstellung eine Rolle? Darüber hinaus werden einige mit Wahl der Repräsentation verbundenen Konsequenzen für die Verarbeitung angesprochen. 1. Zufallsvektoren Eine erste Intuition ist die Verwendung von Zufallsvektoren. Ihr wesentlicher Vorteil ist die leichte Erstellung (einfach Länge festlegen und Zufallszahlen vergeben). Der Nachteil ist, dass die Zuordnung des Vektors zur Wortform ebenso arbiträr ist, wie die zwischen Wortform und Inhalt (man hätte ebenso gut die Ascii-Werte summieren und dann Quersummen bilden können...) Die Erklärung ist recht einfach: Zufallsvektoren enthalten keinerlei Informationen, sie sind nichts weiter als eine weitere Repräsentationsebene. Semantisch 1 Z.B. für die Auszeichnung der durch SOMs abgebildeten Daten bei der Visualisierung.

2 eindeutig werden die Vektoren erst, wenn Ihnen Kontextinformation zugefügt wird. Um dies unter Verwendung von Zufallsvektoren zu erreichen, muss man alle Vektoren innerhalb der gewählten Kontextbreite 'sammeln' und daraus eine Signatur (einen Durchschnitt) errechnen was je nach Länge der Vektoren einen erheblichen Rechenaufwand mit sich bringt. Hinzu kommt als weiterer Nachteil die Schwierigkeit einer nachträglichen Einbindung weiterer Vektoren, welche nur möglich ist, wenn man Buch führt über die bereits vergebenen Zufallszahlen. 2. Vector Space Model (VSM) nach Manning/Schütze (1999: 539ff). Es gibt andere Wege, um eindeutige Vektoren zu erstellen, die bereits bei der ersten Berechnung kontextuelle Informationen nutzen, um die Wortform zu beschreiben. Dies hat den Vorteil, dass bereits vorliegende Informationen in der Repräsentation des Wortes enthalten sind und in weiteren Verarbeitungsschritten auch erhalten bleiben. Im VSM werden Wörter als Vektoren in hochdimensionierten Räumen dargestellt. Dazu wird zunächst ein Vektorraum (= eine Matrix) mit je einer Dimension je Wort definiert. Wörter sind hier beispielsweise Vektoren in einem Dokumentenraum, oder aus anderer Perspektive - Elemente von Dokumentvektoren, die zusätzlich gewichtet werden können (s.u.). Die Eindeutigkeit der Vektoren wird hier erst durch die Beschreibung erzielt. Im Folgenden seien Beispiele solcher Vektorräume aufgeführt: 2.1 document space Auftreten von Wörtern innerhalb verschiedener Dokumente. Wörter werden hier thematisch klassifiziert, die Kontextbreite ist abhängig von der Größe der Dokumente. Die Wahl von Dokumenten als Einheit entstammt dem Information Retrieval, was neben einer verarbeitungstechnischen Motivation auch den Grund hat, dass Dokumente in der Regel in sich geschlossene thematische Einheiten sind. Aus der Perspektive der Terme (t1-3) sind die Dokumente (d1-3), in denen sie auftreten, der Kontext die Zeilen der Matrix sind die Wortvektoren: d1 d2 d3 t t t

3 2.2 word space 'Kookkurenzmatrix' 2 : Auftreten von Wörtern zusammen mit anderen Wörtern innerhalb eines festgelegten 'Fensters' dies können die direkten Nachbarn sein oder gleich 10 oder gar 100 Wörter. Auch Einheiten wie Satz, Absatz oder Phrase sind möglich. Die Wahl der Kontextbreite hat erheblichen Einfluss auf die Ähnlichkeitsverteilung. Hier sind Zeilen und Spalten identische Wortvektoren: t1 t2 t3 t t t grammatischer Raum, z.b. modifier space Auftreten eines Kopfes N mit Adjektiven. Der Raum wird definiert durch die Adjektive, die nominalen Köpfe sind Vektoren in diesem Raum. Derartige Matrizen können für jeden Phrasentyp erstellt werden, sofern entsprechende syntaktische Information zugänglich ist. Anhand der Beispiele lässt sich folgendes festhalten: Zum einen ist die Art des Kontextes (thematisch, grammatisch,...) entscheidend, zum anderen ist die Kontextbreite eine veränderliche Größe hier gilt es, ein sinnvolles Maß zu finden (n-gram; Satz;...). Durch die Wahl des Vektorraums werden jeweils andere Informationen verwendet und dadurch verschiedene Eigenschaften betont. Der Raum hat entscheidenden Einfluss auf die Interpretation der Ergebnisse, er determiniert die Art der semantischen Ähnlichkeit. Die Verwendung eines linguistisch ausgezeichneten Kontextes liefert andere Ergebnisse als ein numerisch festgelegter; der modifier space reflektiert eher die gleiche oder ähnliche Verwendung verschiedener Wörter, wohingegen im document space nur die Verwendung innerhalb eines gleichen Diskurses/Themas zum Ausdruck kommt. Durch die Einbindung grammatischen Wissens kann man Generalisierungen über die Verwendung unbekannter Wörter treffen durch Kookkurenzmodelle hingegen lassen sich thematische Ähnlichkeiten finden. Dies ist eher für Nomina denn für Verben interessant, da 2 Kookkurenz bezeichnet die Annahme, dass Wörter, die gemeinsam auftreten, semantisch verwandt im Sinne eines gemeinsamen Themenbereichs sind. Erfasst wird unter dieser Bezeichnung das gemeinsame Auftreten zweier oder mehrerer Terme innerhalb eines festgelegten Kontextfensters, sobald es häufiger als im Durchschnitt (der ermittelt werden muss) geschieht und daher nicht mehr als zufällig gewertet werden kann.

4 letztere nicht so sehr an einen Diskurs gebunden sind (das Verb 'laufen' etwa, welches als Bewegungsverb oder als kinetische Metapher verwendet wird "wie läuft es" "ich laufe..."). Es ist demnach bei der Erstellung von Vektoren wesentlich, ob man sich für ein Kookkurenzmodell (sog. 'bag of words') entscheidet, oder auch relationale Informationen einbezieht (Subjekt-Objekt-Beziehungen u.ä.), ob man grammatischen oder statistischen Informationen den Vorzug gibt, oder ob man mehrere Modelle kombiniert was im Rahmen des SemGen Projektes wohl am vielversprechendsten ist. 2.4 Beispielfall: SOMs Mit dem SOM-Algorithmus können ohne vorherige Kenntnis der möglichen Klasseneinteilungen latente Strukturen aus den Daten herausgearbeitet werden. Die Kriterien, nach denen die SOM klassifiziert, hängen dabei unmittelbar vom Format der Eingabedaten ab. Bei der Kodierung wird festgelegt, welche Merkmale der Datensätze verglichen werden sollen. In der Literatur zur Anwendung des SOM-Algorithmus auf sprachliche Daten wird der Kontext jedoch in aller Regel mit dem direkten Wortkontext gleichgesetzt. Hier gibt es also noch einigen Spielraum, etwa die Erstellung mehrerer Karten für verschiedene grammatische Kategorien unter Verwendung verschiedener Vektorformate u.ä. 3. Vektorformat Nicht unerheblich ist neben der Wahl von Vektorraum und Kontextbreite auch das interne Format der Vektoren. Die Art, wie die zu verwendende Information kodiert wird, hat weiteren Einfluss auf die Ergebnisse der gewählten Perspektive. 3.1 Binäre Vektoren Die einfachste Beschreibung erfolgt durch binäre Vektoren i.e. durch alle Felder eines binären Vektors, die nicht Null sind. Hierfür gibt es eine Reihe von Ähnlichkeitsmaßen (cf. Manning/Schütze 1999: 299), von denen nur der cosinus auch bei nichtbinären Vektoren anwendbar ist.

5 3.2 Vektoren mit Zählerwerten Nichtbinäre Vektoren 3 scheinen sinnvoller für die Sprachverarbeitung, da so mehr Information je Einheit verfügbar ist neben der reinen Tatsache eines gemeinsamen Auftretens ist auch die Häufigkeit der Ereignisses eine Informationsquelle. Vektoren sind Spalten bzw. Zeilen einer Matrix Vektorraum ist Euklidisch (Operationen auf Matrizen) Ähnlichkeit wird berechnet durch den cosinus zweier Vektoren: cos 0 = 1.0 cos 90 = 0.0 cos 180 = -1.0 Um Vergleichsoperationen zu erleichtern, sollten die Vektoren normalisiert 4 sein. Dann erhält man den cosinus, indem man die einheitlichen Vektoren einfach miteinander multipliziert. cos (x,y) = x*y Der cosinus-wert von normalisierten Vektoren ist zudem gleichzeitig die sog. 'euclidean distance', die Entfernung im Vektorraum. 3.3 Probabilistische Vektoren Anstelle der natürlichen Zahlen können die Vektorelemente auch durch 'Quoten' bzw. Wahrscheinlichkeitswerte dargestellt werden. Dies macht v.a. deshalb Sinn, da die tatsächlichen Häufigkeiten des gemeinsamen Auftretens leicht zu einer Über- bzw. Unterbewertung führen können: Das mehrmalige Auftreten wird schnell als mehrfache Relevanz gegenüber einfachem Auftreten gewertet. Durch Verwendung von Wahrscheinlichkeiten bleiben die Werte näher beieinander (die Spanne ist auf 0-1 beschränkt), Abweichungen fallen weniger ins Gewicht 5. 3 Bei Manning/Schütze 1999:300 "real valued vector space". 4 Normalisiert heißt, dass die Vektoren die gleiche Länge im euklidischen Vektorraum haben. 5 Cf. auch Abschnitt 4: Gewichtung von Vektorelementen.

6 Eine probabilistische Matrix erhält man, indem man eine Zählermatrix (z.b. Wort-Wort) umrechnet: Man dividiert die einzelnen Elemente einer Zeile durch die Summe aller Elemente der Zeile (aller, die nicht 0 sind) 6. Ähnlichkeit ist nun Ähnlichkeit zwischen zwei Wahrscheinlichkeitsverteilungen. Sobald man Wahrscheinlichkeiten anstelle der Zählerwerte (counts) verwendet, ist die durch den cosinus berechnete euklidische Distanz wenig informativ: Die Distanz zwischen 0.0 und 0.1 entspricht der zwischen 0.9 und 1.0 dabei ist der Unterschied zwischen "unmöglich" und einer Wahrscheinlichkeit von 10% nicht derselbe wie der zwischen 90%iger und 100%iger Wahrscheinlichkeit. Euklidische Berechnungen wie der cosinus eignen sich demnach nur für normalverteilte Quantitäten nicht aber für Wahrscheinlichkeitsverteilungen. Für die Ähnlichkeitsberechnung eignet sich am besten der Information Radius (auch total divergence to the average). Dieser besagt, wie viel Information verloren geht, wenn man zwei Wörter durch ihre durchschnittliche Verteilung beschreibt. Eine genaue Beschreibung findet sich bei Manning/Schütze (1999: ). 4. Gewichtung von Vektorelementen Im VSM ist es möglich, die Vektorelemente zu gewichten (cf. Manning/Schütze 1999: 541f). Dadurch kann im gewählten Vektorraum eine zusätzliche Betonung bestimmter Kriterien vorgenommen werden. Die im Information Retrieval gängigsten Gewichtungen sind: - term frequency (tf) - Häufigkeit des Auftretens eines Terms je Dokument Die tf bezeichnet die Relevanz eines Wortes für ein Dokument. Häufiges Auftreten innerhalb eines Dokuments deutet auf eine tragende Rolle für das Dokument. Die Häufigkeit wird nicht gezählt, sondern berechnet. Tritt ein Wort 3x auf, bekommt es den Wert (1+ Wurzel3) oder (1+log3) andernfalls würde das dreimalige Auftreten als dreifache Relevanz gegenüber einfachem Auftreten gewertet. - document frequency (df) - Anzahl der Dokumente, in denen der Term auftritt Die df bezeichnet die Spezifizität eines Wortes für ein Thema (innerhalb eines Korpus). Sprache ist redundant. Vorausgesetzt, dass jedes Thema die Verwendung eines bestimmten Vokabulars verlangt, werden die entscheidenden Terme ( Schlüsselwörter ) 6 Beispiel: Ein Eintrag mit dem Wert 1.0 in einer Zeile mit fünf Elementen, von denen zwei ungleich 0 sind, hat nun den Wert 0.5

7 mit hoher Wahrscheinlichkeit innerhalb eines Themas mehrfach auftreten. Tritt ein Wort nur in wenigen Dokumenten auf, so wird angenommen, dass es einem bestimmten Thema besser zugeordnet werden kann. - collection frequency (cf) Anzahl des Auftretens eines Terms im gesamten Korpus cf ist ein rein statistischer wert, der nur von Nutzen ist, wenn die gesamte Verarbeitung auf einen fest gelegten Korpus beschränkt bleibt. Denkbar für eine Gewichtung wären auch hier syntaktische Eigenschaften (Kopf, Komplement, etc), sofern diese zugänglich sind. 5. Verwendung der Vektoren Im folgenden werden noch einige weiter führende Überlegungen angestellt. Es handelt sich um Fragen, die in unmittelbarem Zusammenhang mit der Vektorerstellung stehen. Da es in diesem Paper vornehmlich um die Vektorerstellung geht, besteht kein Anspruch auf Vollständigkeit. 5.1 Vorverarbeitung Bei größeren Datenmengen ist eine Vorverarbeitung (Filterung, Morphologie, Stemming, Trunkierung) unumgänglich, da die Dimensionalität der Vektoren mit dem Vokabular wächst. Als Beispiel sei Kaski et al. (1998: 111f) angeführt: Neben häufig auftretenden Wörtern (Stoppwörter) werden hier auch solche, die besonders selten auftreten, gefiltert. So konnte in einer Sammlung von ca. 1 Millionen Newsgroupbeiträgen die Anzahl der verschiedenen Wortformen von über 1 Millionen auf ca reduziert werden. Nach den oben gemachten Maßgaben müssten nun ebenso viele Vektoren genau dieser Länge erstellt werden. Dies ist extrem unhandlich. Daher ist zusätzlich zur Vorverarbeitung durch Stoppwortlisten oder grammatiken 7 eine Dimensionsreduktion der Vektoren unumgänglich, selbst wenn dadurch unter Umständen ein Teil der Informationen verloren gehen kann. Auf diese Weise kann eine einheitliche und 7 Auch wäre der Einsatz eines morphologischen Moduls denkbar, so dass an Stelle der einzelnen Wortformen nur die Stämme betrachtet werden.

8 möglichst kompakte, dabei zumindest weitgehend informationserhaltende Repräsentation erzielt werden. 5.2 Dimensionsreduktion: SOM Man muss dabei unterscheiden zwischen Methoden zur Verkleinerung der Vektoren - im Umgang mit SOMs wird hierfür meist das sog. Random mapping 8 verwendet - und solchen zur Reduktion des gesamten Datenraumes. SOMs beispielsweise sind eine Visualisierungsmethode, im Zuge der Visualisierung vollziehen sie eine Reduktion des Datenraumes auf zwei (oder drei) Dimensionen. Es wird deutlich, dass SOMs im wesentlichen nur eine besondere Form der Vektordarstellung sind: Anstelle des hochdimensionierten Vektors erhält man zwei Koordinaten, die noch immer das gleiche Wort repräsentieren. Auch hier wird ein Datenraum festgelegt, in dem die Daten dargestellt werden je nach Wahl des Raumes (der durch die Eingabedaten definiert ist) erhält man verschiedene Perspektiven auf die Wörter. Diese Tatsache erleichtert eine Weiterverarbeitung: Zwar ist die Ausgabe von SOMs auf den ersten Blick sperrig, jedoch ist bereits vor der Visualisierung der Karte die wesentliche Information (nämlich die Koordinaten) verfügbar. Entstandene Cluster könnten somit wahrscheinlich auch ohne Visualisierung erkannt werden. Weitere Techniken zur Visualisierung (respektive zur Dimensionsreduktion) sind u.a. die Principal Component Analysis (PCA), das Multidimensional Scaling (MDS), Hyperspace Analogue to Language (HAL) und auch das Latent Semantic Indexing (LSI) Dimensionsreduktion: LSI LSI ist ein Verfahren, die latenten (= vorhanden, aber nicht sichtbar) semantischen Beziehungen von Dokumenten freizulegen. LSI macht inhaltliche Verwandtschaft sichtbar, indem Dokumente in einem Raum mit neuen, 'semantischen' Dimensionen dargestellt werden. Ausgehend von einer hochdimensionalen (so viele Dimensionen wie verschiedene Wörter) Term-Dokument-Matrix wird ein Raum mit weit weniger Dimensionen erzeugt,. in welchem die gleichen Objekte (Dokumente und Terme) repräsentiert werden. Die Dimensionen des reduzierten Raums korrespondieren dabei zu den Achsen mit der größten Variation (bzw. Abweichung 8 Zur genauen Vorgehensweise cf. Kaski et al. (1998) und Kaski (1998). 9 Einen Vergleich von LSI mit Multidimensional Scaling (MDS), einer weiteren Methode der Dimensionsreduktion, findet sich bei Bartell et al. (????).

9 untereinander), sie erfassen somit die grundlegenden Unterschiede der einzelnen Dokumente. Die wesentlichen Merkmale des ursprünglichen Raums bleiben dabei erhalten. Dadurch können Dokumente aus einem gleichen Themenbereich auch trotz unterschiedlichen Vokabulars als ähnlich erkannt werden. Übertragen auf eine Term-Term-Matrix bedeutet dies, dass diejenigen Termvektoren wegfallen, denen eine geringe Aussagekraft unterstellt wird - wenn nun jede Dimension durch einen Termvektor festgelegt ist, ist demnach ein Teil der Vektoren im reduzierten Raum nicht mehr enthalten. Ähnlich der Stoppwortfilterung werden so im allgemeinen die häufigsten Wörter ausgeblendet, da diese je nach Kontextbreite - zueinander recht ähnliche Vektoren haben (etwa die Konjunktionen "und"/"oder"). Das Prinzip ist vergleichbar zu der oben genannten Beschreibung von Wortformen durch binäre Vektoren: Während man dort nur die Elemente, die nicht Null sind, für die Beschreibung verwendet, sind es beim LSI nur diejenigen, die eine besondere Aussagekraft haben. Eine ausführlichere Beschreibung zu LSI findet sich bei Deerwester et al. (1990), sowie bei Manning/Schütze (1999 : ). 5.3 Bewertung von LSI Der Hauptkritikpunkt ist der große Speicherplatzbedarf sowie die hohe Komplexität des Verfahrens. Allerdings gibt es die Möglichkeit, neue Dokument- bzw. Termvektoren einzubinden, ebenso kann aufgrund einer Teilanalyse der restliche Korpus bewertet werden. Man muss also nicht für jeden Fall eine neue Berechnung durchführen. Eine weitere Bedingung für ein erfolgreiches Anwenden von LSI ist die Beschaffenheit des verwendeten Korpus. Bei Sammlungen mit stark heterogenem Vokabular werden sehr gute Werte erzielt, da die thematische Verwandtschaft auch bei offensichtlich verschiedenem Vokabular erkannt werden kann. Entsprechend weniger sinnvoll ist es bei Sammlungen mit sehr homogenem Vokabular (Fachdatenbanken, Sammlungen von Abstracts u.ä.). Allgemein gilt: Je größer die analysierten Datenmengen sind, desto höher wird die Genauigkeit der Ergebnisse, da mit zunehmender Menge die Sonderfälle (i.e. abweichenden Verwendungen) weniger ins Gewicht fallen. 6. Probleme, Ansatzpunkte, etc.

10 Auch wenn das VSM vielversprechend hinsichtlich der Erschließung von Wortbedeutungen ist, kann es viele Schwierigkeiten sprachlicher Daten nicht lösen. So bliebt die Ambiguität grundsätzlich erhalten: Semantische Ähnlichkeit ist immer Ähnlichkeit einer Lesart zu einer anderen, das Wort "Bank" ist gleichsam ähnlich zu "Sparkasse" wie zu "Parkbank". Da die Vektoren je Wortform erstellt werden, gibt es nur einen Vektor für "Bank" - das wiederum bringt mit sich, dass im VSM auch "Sparkasse" und "Parkbank" ähnlich sind. Das Beispiel ist trivial, weist jedoch auf das eigentliche Problem hin: In verschiedener Verwendung erfahren sprachliche Ausdrücke zum Teil erhebliche Bedeutungsveränderungen diese dürfen nicht in einer einzigen Repräsentation (und somit einer einzelnen Wortbedeutung) untergehen. Gesucht ist ein Weg, einzelne Lesarten zu kodieren, anstatt die Gesamtheit der möglichen Bedeutungen einer Wortform in einem Vektor zusammenzufassen (so dass er zu allen Lesarten ähnlich ist...) Weitere Überlegungen könnten sich demnach auch auf einmalige Vektorerstellung richten, etwa anstelle eines 'Kontextdurchschnitts' die Verwendung des jeweils konkreten Kontextes eines Auftretens, um anschließend diese Vektoren untereinander zu Vergleichen, um z.b. thematische Unterschiede innerhalb der jeweiligen Kontexte zu erkennen. 7. Literatur Bartell, Brian T. and Belew, Richard K. and Cottrell, Garrison W.: Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling. Deerwester, Scott and Dumais, Susan T. and Furnas, George W. and Landauer, Thomas K. and Harshman, Richard (1990): Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science Vol. 41 No. 6 S Kaski, S., Honkela, T., Lagus, K. & Kohonen, T. (1998): WEBSOM Self-organizing maps of document collections. Neurocomputing 21; S Kaski, Samuel (1998): Dimensionality Reduction by Random Mapping: Fast Similarity Computation for Clustering. In: Proceedings of IJCNN'98, International Joint Conference on Neural Networks, Vol. 1, S Kohonen, Teuvo (1989): Self-Organizization and associative memory. Berlin, Heidelberg, New York: Springer. - (1995): Self-Organizing Maps. Berlin, Heidelberg, New York: Springer. - (1998): The self-organizing map. Neurocomputing 21; S Manning, Christopher D. and Schütze, Hinrich (1999): Foundations of statistical natural language processing. MIT Press 1999.