Wortbedeutungsdisambiguierung

Transkript

1 Proseminar: Statistische Methoden in der Sprachverarbeitung Dozent: Stefan Langer LMU München Centrum für Informations- und Sprachverarbeitung Sommersemester 2003 Referenten: Michaela Geierhos, Christian Seidel, Oyundavaa Radnaa, Ilona Nowak Allgemeines Ambiguität (Mehrdeutigkeit) Lexikalischen Einheiten können mehrere Bedeutungen zugeordnet werden. Wortbedeutung - lexikalische Wortbedeutung, z. B. The early bird catches he worm. (Morgenstund hat Gold im Mund.) Someone bites the dust. (Jemand beisst ins Gras.) - strukturelle bzw. syntaktische Wortbedeutung, z. B. Mary saw the man with the telescope. Ziel der Disambiguierung Festlegung der Bedeutung eines ambigen Wortes in einem bestimmten Kontext. Label Markierung eines Wortes in einem bestimmten Kontext mit seiner Bedeutung. Thesaurus Eine Art Wörterbuch. Genauer: Eine systematisch geordnete Sammlung von Wörtern eines bestimmten (Fach-)Bereichs. Notation bei der Disambiguierungstheorie w s 1,..., s k,..., s K c 1,..., c i,..., c I v 1,..., v j,..., v J ein ambiges Wort die verschiedenen Bedeutungen des ambigen Wortes w die verschiedenen Kontexte von w in einem Korpus verschiedene Wörter, die aus dem Kontext von w entnommen wurden, da sie für die Disambiguierung am geeignetsten sind 2. Supervised Disambiguation Es liegt bereits ein disambiguierter Trainings-Korpus vor, in dem die ambigen Wörter gekennzeichnet (gelabelt) wurden - d.h. jedem Wort w wird ein Label s k zugeordnet. Ziel: Die auf das Trainings-Korpus abgestimmte Maschine sollte auch neue ambige Wörter erkennen, und unter Berücksichtigung des Kontextes disambiguieren können. 1

2 2.1 Klassifizierung nach Bayes Hierfür wird das ambige Wort w in einem sehr weit gefassten Kontext nach Wörtern, die bestimmte Informationen tragen, durchsucht. Mit dieser Information muss die Maschine die Kombinationen evaluieren, und somit die Bedeutung des Wortes feststellen. Zur Disambiguierung wird die Bayes-Entscheidungsregel angewandt: - Nimm die Bedeutung s' von w an, wenn P(s' c) > P(s k c) für s k s' gilt. - Berechnung der Bedeutung s eines Wortes w mit der Bayes-Regel: s' = arg max P(c s k )P(s k ) = arg max P(c s k )P(s k ) sk sk P(c) Gale et al. gehen von einem Spezialfall der Bayes-Entscheidungsregel aus: Einfache Bayes-Annahme: P(c s k ) = P({ v j v j in c} s k ) Hierbei wird die strukturierte und lineare Ordnung der Wörter im Kontext ignoriert, und man geht vom so genannten bag of words (dem Sack voller Wörter) aus, wobei die Wörter unabhängig von einander sind. Diese Annahme ist im Wesentlichen eher realitätsfremd und stark vereinfachend. Bsp: Das Wort "Gewerkschaftsvorsitzender" tritt viel häufiger in Kontexten auf, in denen auch das Wort "DBG" enthalten ist, als in Kontexten, in denen das Wort "Blume" vorkommt. Trotz seiner zahlreichen Mängel arbeitet dieses Model ziemlich effektiv. Man muss nur darauf achten, dass das Kontext-Fenster, in dem die Bedeutung eines Wortes evaluiert werden soll, nicht zu groß gewählt wird. Berechnung der Bedeutung von s mit der Einfachen Bayes-Entscheidungsregel: Entscheide dich für die Bedeutung s', wenn s' = arg max s k [log P(s k ) + vj in c logp(vj s k )] Bsp: engl. drug Bedeutung medication illegal substance Schlüsselbegriffe prices, prescription, patent, increase, consumer, pharmaceutical abuse, paraphernalia, illicit, alcohol, cocaine, traffickers 2.2 Informationstheoretische Annäherung Vorgehensweise: Ein einzelnes Merkmal soll im Kontext gefunden werden, das zuverlässig die Bedeutung des ambigen Wortes anzeigt. Hiefür müssen die Werte der Wörter, die diese Merkmale haben, nach der Bedeutung, die sie kodieren, in verschiedene Kategorien eingeordnet werden. Bsp.: nach Brown et al., 1991 ambiges Wort Indikator Bsp.: Wert -> Bedeutung prendre Objekt mesure -> to take décision -> to make vouloir Tempus present -> to want conditional -> to like cent Wort, das links vom per -> % 2

3 ambiges Wort Indikator Bsp.: Wert -> Bedeutung ambigen Wort steht number -> c. [Geldmünze] Um diese Annäherung berechnen zu können, verwendet man in der Regel den Flip-Flop- Algorithmus. 3. Lexikonbasierte Disambiguierung Es steht kein gelabelter (annotierter) Korpus zur Verfügung. Bedeutung Definition s 1 tree a tree of the olive family s 2 burned stuff the solid residue left when combustible material is burned 3.1 Disambiguierung basierend auf Bedeutungsdefinitionen (nach Lesk, 1986) Basis für die Disambiguierung ist hier ein Lexikon, das Aufschluss über die Bedeutungen der entsprechenden Wörter geben soll. Bsp.: engl. ash (dt. Esche/Asche): Treffer (scores) Kontext s 1 s This cigar burns slowly and creates a stiff ash. 1 0 The ash is one of the last trees to come into leaf. Algorithmus: comment: Given: context c for all senses s k of w do { score (s k ) = overlap (D k,u vj in c E vj ) } end choose s' s.t. s' = arg max sk score (s k ) D k E vj Menge der Lexikondefinitionen aller unterschiedlichen Bedeutungen des ambigen Wortes. Menge der Lexikondefinitionen der Worte v j, die im Kontext des ambigen Wortes vorkommen. - Algorithmus erzielt nur mittelmäßige Ergebnisse (50-70% Erfolgsquote) - Verbesserungsvorschläge nach Lesk: Mehrere Text-Durchläufe des Algorithmus sind nötig. Ersetzung von U vj in c E vj durch die Wörter, die für die Disambiguierung am geeignetsten erscheinen. Kombination von lexikonbasierter und Thesaurus-basierter Disambiguierung. 3

4 3.2 Thesaurus-basierte Disambiguierung (nach Yarowski, 1992) In einem Thesaurus bestimmen die semantischen Kategorien der Wörter die semantische Kategorie des Kontexts als Ganzes. Aufgrund dieser Kategorisierung wird im Anschluss daran auf die Bedeutung des ambigen Wortes geschlossen. Bsp: Ergebnisse des Yarowski Algorithmus: Wort Bedeutung Kategorie Genauigkeit bass musical senses music 99,00% fish animal, insect 100,00% star space object universe 96,00% celebrity entertainer 95,00% interest curiosity reasoning 88,00% advantage injustice 34,00% financial debt 90,00% share property 38,00% Mögliche Probleme: Je ähnlicher sich die Kategorien sind, denen ein Wort zugeordnet werden kann, desto schlechter wird die Trefferquote für das Ergebnis. (z. B. interest) Wenn eine bestimmte Bedeutung mehreren Kategorien zugeordnet werden kann, arbeitet der Algorithmus auch ungenauer. Im obigen Beispiel ist advantage eine Bedeutung von interest (wie in self-interest ). Da self-interest nicht nur in der Finanzwelt, der Unterhaltungsbranche oder im Musikgeschäft auftreten kann, ist es schwer bzw. fast unmöglich ihm genau eine Kategorie zuzuordnen. Ist das Wörterbuch bzw. der Thesaurus nicht auf dem neuesten Stand oder weist Lücken auf, schleichen sich schnell Fehler ein. Z.B. ist Navratilova ein guter Hinweis dafür, dass es um Sport geht, hat man aber einen veralteten Thesaurus als Grundlage, wird das der Algorithmus kaum herausfinden. Das gleiche gilt für die Maus einmal als Säugetier und einmal als elektronisches Computerzubehör. 3.3 Disambiguierung basierend auf Übersetzungen in einem bilingualen Korpus Wichtig ist hier die Unterscheidung zwischen first language (die im Korpus zu ambiguierende Sprache) und second language (der Zielsprache). Bsp.: engl. interest Bedeutung Nr. 1 Bedeutung Nr.2 Definition legal share attention, concern Übersetzung Beteiligung Interesse Englische Kollokation acquire an interest show interest Übersetzung Beteiligung erwerben Interesse zeigen Vorgehensweise: interest hat im deutschen zwei unterschiedliche, häufig auftretende Übersetzungen 4

5 Beteiligung und Interesse. Wichtig ist es die Kollokationen von interest zu berücksichtigen, nur so erkennt man wie dieses Assoziationspaar von der englischen Sprache analog in die Deutsche übersetzt werden kann. (siehe obiges Beispiel) Somit wird der Algorithmus erkennen, dass beispielsweise interest im Satzteil showed interest nur in der Bedeutung von attention, concern vorliegen kann. 3.4 Eine Bedeutung pro Diskurs, eine Bedeutung pro Kollokation Eine Bedeutung pro Diskurs Es wir davon ausgegangen, dass die Bedeutung eines Zielwortes innerhalb eines Textes oder Kapitels etc. konstant bleibt, d.h. Bank wird wohl kaum in gleichen Text als Geldinstitut und als Sitzgelegenheit vorkommen. Nun wird jedes Vorkommen des ambigen Wortes nicht mehr gesondert betrachtet, sondern die erste Bedeutung dieses Wortes wird auf alle weiteren Vorkommen im Text angewandt Eine Bedeutung pro Kollokation Die im Kontext des zu untersuchendes Wortes liegenden Wörter geben relativ gute Hinweise darauf, welche Bedeutung das ambige Wort hier hat. Nur ist noch darauf zu achten, wo genau sich die Kontextwörter befinden, denn die Disambiguierung ist abhängig von der Entfernung, Reihenfolge und den syntaktischen Beziehungen dieser Kontextwörter in Relation zum ambigen Wort. Auch hier wird die am häufigsten ermittelte Bedeutung dieses Wortes auf alle weiteren Vorkommen im Text angewandt. Vor allem bei kurzen Texten wird dieses Verfahren genutzt, da es hier die höchste Trefferquote hat. 4. Unsupervised Disambiguation Tritt in Aktion, wenn keine Hinweise auf die Bedeutungen der Wörter vorliegen, da weder lexikalische Quellen, noch ein Trainings-Set oder Kollokationssequenzen zur Verfügung stehen. (Allerdings ist eine reine unsupervised Disambiguation in der Praxis nicht möglich!) Vorgehensweise: Die Kontexte, in denen ein ambiges Wort steht werden in Gruppen (Kluster) eingeteilt Unterschiede werden zwischen diesen einzelnen Gruppen dennoch gemacht, auch ohne, dass sie markiert wurden. Ein gängiges Verfahren hierfür ist die context-group discrimination, ein bestimmter Algorithmus. Anwendung hierbei findet auch häufig der EM-Algorithmus. Vorteile: Unterschiede zwischen den einzelnen gebräuchlichen Bedeutungen sind viel feiner als 5

6 in einem Lexikon. Für Information-Retrieval-Systeme ist dies eine wichtige Anwendung. Mögliche Probleme: Diese Methode erlaubt es nicht seltene Bedeutungen eines Wortes und Bedeutungen, die nur in wenigen Kollokationen auftreten, zu isolieren, d.h. sie sind überaus schwer zu lokalisieren. suit mit der Bedeutung von to be appropriate for (geeignet sein, passend sein), wie in This suits me fine. wird mit hoher Wahrscheinlichkeit nicht gefunden. 5. Welche Bedeutung hat ein Wort? Mittlerweile gibt es verschiedene Experimente, um herauszufinden, welche Bedeutungen der Durchschnittsmensch, bestimmten ambigen Wörtern zuordnen würde: Versuchspersonen sollen Kontexte ambiger Wörter in Gruppen einteilen.(clustern) Versuchspersonen sollen ambige Wörter in einem Korpus markieren, der auf lexikalischen Definitionen gestützt ist. Mögliche Probleme: Unklar ist noch, wie sicher und korrekt die Versuchspersonen den Gebrauch der Wörter und ihrer Bedeutungen im aktuellen Sprachverständnis und in der Sprachproduktion angeben. Die Einteilung der Versuchspersonen ist beliebig, deshalb ist nicht eindeutig zu sagen, ob diese Versuchmethoden in ihrer Reinform geeignet sind. Die Übereinstimmungen der Versuchspersonen beim Clustern sind sehr niedrig. Die Übereinstimmung bei der Markierung ist sehr hoch, wenn es viele ambige Worte mit einer schiefen Verteilung gibt (skewed distribution), d.h. ein und dieselbe Bedeutung wird bei den häufigsten Vorkommen eines Wortes verwendet. Viele Wörter mit der größten Abweichungsquote sind hoch frequente Wörter. Co-Aktivation: Mehrere Bedeutungen eines ambigen Wortes werden in ein und demselben Kontext simultan gebraucht. Hohe Abweichungsquote Häufige simultane Verwendungen in der Alltagssprache Z.B. For better or worse, this would bring competition to the licensed trade. ('the act of X' versus 'the people doing X') Fast alle Wörter können auch als Eigennamen auftreten! Z.B. Brown, Bush, Army, usw. Quelle: Christopher D. Manning & Hinrich Schütze : Foundations of Statistical Natural Language Processing. MIT Press. Cambridge (USA) Kapitel 7. pp