Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Semantische Annotation Lesarten annotieren (sense tagging) ein bisschen was zu Lesarten und lexikalischer Semantik Techniken der Lesartenannotation Probleme automatische Anaphernauflösung Lesartenannotation jedes Token (manchmal auch: jedes Token, das zu einer offenen Wortklasse gehört / jedes Nomen / Nomen einer bestimmten Klasse etc.) wird mit einem Tag versehen, das seine Lesart (sense) in dem verwendeten Kontext angibt Lesartenannotation - Beispiel "Bei uns kann jeder anfangen/beginnen, ob ehemaliger Turniertänzer oder blutiger Anfänger", sagt Heinz Rieger. Wichtig sei allein die Freude an der Bewegung/KÖRPERL_AKTIVITÄT zur Musik. Wer überhaupt außerhalb der Region kann mit dem Begriff Rhein-Neckar-Raum etwas anfangen/kennen, weiß ihn geographisch einzuordnen, hat eine Vorstellung, was hier an Unternehmen und Wirtschaftskraft sitzt? Lesartenannotation - Beispiel Der Kämpfer um die reine Lehre Buddhas wurde mit seinen Anhängern mehrfach verfolgt, die Tempel der Bewegung/GEMEINSCHAFT angezündet (einige davon wurden später wiederaufgebaut) (Beispiele aus Mannheimer Morgen, COSMAS) Wozu Lesartenannotation? lexikographische Zwecke quantitative Studien zur Verteilung bestimmter Lesarten in bestimmten Textsorten computerlinguistische Anwendungen maschinelle Übersetzung information retrieval Frage-Antwort-Systeme...
Lesarten (senses)! hier nur ganz grober Überblick Genaueres in den Seminaren von Prof. Lang und Prof. Krifka! Wieviele Lesarten hat ein Lemma? (Wie hängen die Lesarten zusammen?) Wie kann man die Lesarten (automatisch) unterscheiden? Lesarten mehrere Wörter mit der gleichen Bedeutung Synonymie Samstag, Sonnabend Substitutierbarkeit in einem Kontext/einer Menge von Kontexten abkratzen, sterben, heimgehen, ins Gras beissen, das zeitliche segnen,... wahre Synonymie ist selten! Lesarten ein Wort in mehreren Bedeutungen Homonymie (Bank) Homographie (Tenor) Homophonie (Lerche, Lärche) Polysemie... Lesarten Polysemie (verstehen, Fisch, blau) systematische Polysemie Fisch, Huhn, Schwein etc. Tier und Lebensmittel Oper, Theater, Schule etc. Gebäude und Institution und Gruppe von Menschen... (Bierwisch 1982) Kontextabhängigkeit (teuer, klein, gut) Vagheit Methoden zur Unterscheidung von Lesarten Etymologie (?) im Wörterbuch nachschauen (?) Beispiel: belegen, Kiefer Schlüsselwörter im Kontext syntaktisches Verhalten: Argumentstruktur, Modifikation, Definitheit,... Zeugma Dornröschen belegt ein Brötchen und einen Kurs in Korpuslinguistik Lesarten Übergang zu Kollokationen, Idiomen,... fließend wie groß muss ein Bedeutungseintrag sein? <etw. mit etw. anfangen können> <blutiger Anfänger> <in Bewegung setzen>
Wortartenannotation sense tagging, word sense disambiguation setzt voraus, dass wir jedem Lemma eine bestimmte Menge an Lesarten zuordnen können (tun wir jetzt mal so, als sei das problemlos möglich) zwei Möglichkeiten Disambiguierung aufgrund von Selektionsrestriktionen (maschinelle Lernverfahren) Wortartenannotation man hat zwei Arten von Wissen zur Verfügung linguistisches Wissen: morphologisches/morphosyntaktisches Wissen, Kontext zusätzliches (extralinguistisches) Wissen: Wissen über Domäne, Textsorte etc. Beispiel: Kiefer Lexikoneinträge <Kiefer1 - Körperteil> <Kiefer2 - Baum, Holz> vernetzte Disambiguierung Annahmen: alle Wörter in einem Satz bis auf eins sind desambiguiert man hat ein Lexikon mit sehr genauen Selektionsrestriktionen für selegierende Wörter man hat eine zum Lexikon passende Taxonomie (oder anderes Kategoriensystem) für lexikalische Einträge vernetzte Disambiguierung die anderen Wörter helfen, die Lesart des letzten festzulegen zusätzliche Lexikoneinträge für Verben <operieren an KÖRPERTEIL> <sägen HOLZ> <wachsen BELEBTES_OBJEKT>... plus Taxonomie BAUM ISA PFLANZE ISA BELEBTES_OBJEKT... vernetzte Desambiguierung Thomas Zampach wurde am Kiefer operiert und Thorsten Kracht hatte einen Muskelfaserriss in der Wade Kiefer lässt sich mit allen Werkzeugen leicht bearbeiten, sie lässt sich gut sägen, hobeln, fräsen und bohren, man kann sie messern, schälen und drechseln.
vernetzte Desambiguierung Problem: was ist mit weniger spezifischen Verben? mögen, kaufen, sehen,... Erstellung eines Lexikon und einer Konzepthierarchie (Taxonomie) aufwendig und schwierig meist nur für eine Domäne/ein Szenario aufbereitet und schlecht übertragbar WordNet/GermaNet zugrundeliegende Idee: jede Lesart hat ein typisches Verhalten (kommt in bestimmten morphosyntaktischen Formen vor, es gibt bestimmte andere Wörter im Kontext etc.) solch ein typisches Verhalten kann durch eine Vektordarstellung approximiert werden dann kann man jede Lesart an einem/einer Menge für sie typischen Vektor erkennen man erzeugt für jedes zu taggende Wort einen Merkmalsvektor mit zb Wortart Lemma Kontext (in einer festgelegten Größe), auch mit Wortart & Lemmainformation (seltener) syntaktische Strukturbeschreibung (Teilparse) wobei Kontext: collocation und co-occurrence collocation: Information über Wörter, die an einer bestimmten Position relativ zum zu bestimmenden Wort stehen syntagmatische Relationen: Wörter, die in einer bestimmten syntaktischen Relation zu dem zu bestimmenden Wort stehen co-occurrence (bag of words): Wörter, die irgendwo innerhalb eines bestimmten Kontextfensters mit dem zu bestimmenden Wort vorkommen If one examines the words in a book, one at a time as through an opaque mask with a hole in it one word wide, then it is obviously impossible to determine, one at a time, the meaning of the words [...] But if one lengthens the slit in the opaque mask, until one can see not only the central word in question but also say N words on either side, then if N is large enough one can unambiguously decide the meaning of the central word. [...] The practical question is: What minimum value of N will, at least in a tolerable fraction of cases, lead to the correct choice of meaning for the central word? Weaver (1949), zitiert nach Ide & Veronis (1998) collocation: Verkauf/NN von/prep nordischen/adja Hölzern/NN, speziell/adv Fichte/NN, Kiefer/NN und/konj Lärche/NN Welche Information? Kiefer folgt auf Fichte, und Lärche direkt nach Kiefer Wortartreihenfolge
kann in gewissen Grenzen einfache Strukturbeschreibungen ersetzen typische Modifikationen typische Verbargumente findet typische morphologische Varianten keep: mit Gerundium: he kept eating mit Adjektiv: he kept calm mit NP: he kept a record Wörter, die inem bestimmten syntagmatischen Zusammenhang mit dem zu bestimmenden Wort stehen Voraussetzung: geparstes Korpus (wenigstens Chunks) co-occurrence Holz, Fichte, Lärche etc. kommen oft in der Nähe von Kiefer2 vor hier werden Kontextfenster einer vorgegebenen Größe ausgewertet nordischen Hölzern, speziell Kiefer, Fichte und Lärche Beispiel: Kontextwörter zu Kiefer1: Zahnarzt, Operation, Gesicht, Körper Kiefer2: Lärche, Fichte, Wald, wachsen, Holz, billig, IKEA woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe Informationen aus Wörterbüchern
Informationen aus Wörterbüchern/Thesauri geht zurück auf Lesk (1986): Die Wörter, die in den Definitionen im Wörterbuch verwendet werden, werden auf die jeweiligen Kontexte abgebildet man nimmt die Lesart, die die meisten Übereinstimmungen mit dem gegebenen Kontext hat 50 70 % korrekt annotierte Lesarten spätere Verfahren mit neuronalen Netzen auf OALD & CED erreichen über 90% korrekt annotierte Lesarten (Veronis & Ide 1990) Problem: abhängig von der genauen Formulierung im verwendeten Wörterbuch Wörterbücher sind oft inkonsistent Wörterbücher enthalten keine/wenig Kontextinformation oder pragmatische Information daher: woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe Informationen aus Wörterbüchern statistische Lernverfahren auf einem Trainingskorpus (manuell annotiert) auf einem (handannotierten) Trainingskorpus werden mit dem Zielwort vorkommende Wörter gezählt Gewichtung (stop words?) : Vektordarstellung Vektorrepräsentation morphosyntaktische Eigenschaften: <Genus, Numerus>, zb 0 für masc, 1 für fem, 0 für sing, 1 für plural Vektorrepräsentation Kontext: <pos-1:am, pos+1:operieren, Zahnarzt, Operation, Gesicht, Körper, Lärche, Fichte, Wald, wachsen, Holz, billig, IKEA> dann für jeden Kontext Zuordnung zu einer Lesart z. B. <0,0,0,0,0,0,0,0,1,1,0,0,1,0,0> - Kiefer2 wenn man die Vektoren hat, kann die Lesarten anhand ähnlicher Kontexte klassifizieren woher kennt man die entsprechenden Kontexte? was heißt in diesem Zusammenhang ähnlich? das Ähnlichkeitsmaß ist mathematisch definiert überwachtes Lernen: Kontexte werden aufgrund eines manuellen Trainingskorpus gelernt unüberwachtes Lernen: Kontexte werden zu ähnlichen Clustern zusammengefügt
Schwierigkeiten Bestimmung der Lesarten Ermittlung der Merkmalsvektoren scaling up : Übertragung auf weitere Kontexte Entscheidungsbaumverfahren manche Informationen sind aussagekräftiger als andere (wenn man das Genus von Kiefer eindeutig bestimmen kann, braucht man den Kontext nicht mehr) daher kann man ein Entscheidungsbaumverfahren lernen: Entscheidungsbäume sind eine Folge von ja/nein Entscheidungen mit Konsequenzen (Genus eindeutig bestimmt? Wenn ja, dann Kiefer1 oder Kiefer2, sonst schau den Kontext an...) Probleme handannotiertes Korpus ist schwer zu bekommen/herzustellen sparse data problem : für einige Lesarten gibt es zu wenig Trainingsdaten (in einigen Texttypen/Genres kommen bestimmte Lesarten überhaupt nicht vor) Qualität: bisher kommt man nicht an die 95%+ heran, die zb beim Wortartentagging erreicht werden Existierende Systeme und Evaluation SEMCOR Corpus: 200 000 Wörter des Brown Corpus mit WordNet Lesarten, handgetaggt SENSEVAL Corpus diverse kleinere Korpora Existierende Systeme und Evaluation Evaluationskriterien Menge der Lesarten (Differenzierung), Allgemeinheit, Übertragbarkeit auf andere Domänen Was zählt als korrekt? (bei hierarchischen Wörterbucheinträgen: nur unterste Ebene oder auch höhere Ebenen) bei kombinierten Verfahren: wieviel muss manuell korrigiert werden? bei rein automatischen Verfahren: Geschwindigkeit (bei bestimmten Aufgaben wie zb bei zeitgleicher maschineller Übersetzung wichtig) Existierende Systeme und Evaluation SENSEVAL-Konferenzen: ein bestimmer Text wird nach vorgegebenen Kriterien mit Lesarten annotiert Vergleich zwischen verschiedenen Systemen Diskussion über Schwierigkeiten und Verfahren ca. 2-jährig (nächste: Sommer 2003, http://www.senseval.org/)
Standards Was ist der Standard? Was ist eigentlich ein korrekt mit Lesarten annotiertes Korpus? Soll man eigentlich automatisch Lesarten zuweisen? Können Menschan das nicht viel besser? dazu: 2 Experimente und ein Vorschlag von Jean Veronis (2001) Véronis Ziele herausfinden, wie gut Menschen eigentlich Lesarten disambiguieren können Konsequenzen für maschinelles Disambiguieren diskutieren einen rein strukturellen Vorschlag zur Lesartendisambiguierung unterbreiten Experiment 1 Experiment 1 Material: je 200 Adjektive, Nomen und Verben, die jeweils ca. 60 Mal im JOC Korpus (französisch) vorkommen: für jedes dieser Wörter alle Vorkommen mit Kontext ausgedruckt 6 TeilnehmerInnen (Studierende ohne lexikographische Ausbildung) Frage: hat dieses Wort in den folgenden Kontexten mehrere Bedeutungen? (eine Option: weiss nicht) keine Zeitbeschränkung nur ca. 4 % weiss-nicht-antworten (dh, die Versuchspersonen fanden die Aufgabe nicht schwierig) 73 % der Wörter werden als eindeutig angesehen Polysemie unterscheidet sich deutlich je nach Wortart N > V > Adj (i. Ggs. zu Petit Larousse V > N > A) volle Übereinstimmung nur bei 4,5 % der polysemen Wörter Experiment 2 Experiment 2 Material: die 60 polysemsten (20 pro Wortart) der Wörter aus Experiment 1 mit allen ihren Belegen Aufgabe: Lesartenzuweisung nach Petit Larousse für alle Belege man konnte mehr als eine Lesart pro Kontext zuweisen zusätzliche Lesart als?, werden alle als eine gezählt TeilnehmerInnen: 6 (andere) Studierende ohne lexikographische Ausbildung Ergebnisse: Polysemie nach Wortart: V > N > A vielleicht zurückzuführen auf Wörterbuch ganz wenig Übereinstimmung zwischen den Annotatoren (zt schlechter als Zufall) (Hypothese, dass das auf zu feine Wortartunterscheidung im PL zurückzuführen ist, muss verworfen werden, Übereinstimmung schon auf der höchsten Ebene nicht gegeben)
Zusammenfassung Ergebnisse Experiment 1: keine Übereinstimmung bei der Einschätzung, ob ein gegebenes Wort in einem gegebenen Kontext polysem ist oder nicht Experiment 2: keine Übereinstimmung bei Lesartenzuweisung nach Wörterbuch (Veronis meint, das läge nicht an dem verwendeten Wörterbuch) Lösungsvorschlag Unterscheidung nur noch nach syntaktischen/strukturellen Kriterien unterschiedliche Argumentstruktur unterschiedliche Modifikationsmöglichkeiten Ersetzung durch Hyporonyme/Hyponyme... Idee: menschliche und automatische Annotation möglich und vergleichbar Lösungsvorschlag Problem: Wörterbücher enthalten solche Kriterien nicht (systematisch) Würde das nicht auch wieder eine Menge Handarbeit voraussetzen (zb Klassifikation von passenden Adjektiven etc.)? Würde das nicht eine Theorie für zu unterscheidende Lesarten voraussetzen? Zusammenfassung sense tagging wichtig für alle möglichen computerlinguistischen und linguistischen Anwendungen problematisch Festlegung der Lesarten (automatische) Zuweisung der Lesarten viel Handarbeit/Ressourcen erforderlich Zusammenfassung Korpusaufbereitung kurze Wiederholung zur Kurzklausur nächste Woche: Woher bekommen LinguistInnen ihre Daten? Welche linguistischen Fragestellungen, können durch Korpusdaten bearbeitet werden? Welche nicht? Wie wird ein Korpus aufgebaut? Zusammenfassung Korpusaufbereitung Wie wird ein Korpus vorverarbeitet? Welche Probleme gibt es jeweils? Welche Entscheidungen müssen getroffen werden? Tokenisierung pos-tagging Lemmatisierung syntaktische Strukturzuweisung/Baumbanken Lesartentagging
Literatur Ide, Nancy & Véronis, Jean (1998) Introduction to the Special Issue on Word Sense Dismabiguation: The State of the Art. In: Computational Linguistics 24(1), 1-40 Jurafsky, Daniel & Martin, James H. (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, New Jersey Véronis, Jean (2001) Sense tagging: does it make sense? Paper presented at Corpus Linguistics 2001, Lancaster. http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancastersense.pdf