Phonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München

Phonetische Lexika Part-of-Speech Tagging Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de

Inhalt Parts of Speech POS-Tagging-Probleme: OOV, Ambiguitäten Regelbasierte Tagger Markov-Tagger Transformationsbasiertes Tagging Evaluierung 1

Parts of Speech Deutsch: STTS (Stuttgart-Tübingen Tagset; Schiller et al., 1995) Label Wortart Beispiel Nomen NN Substantiv Tisch NE Eigennamen Hans, Hamburg TRUNC Kompositions-Erstglied An- und Abreise Verben VVFIN Finites Verb, voll du gehst VVIMP Imperativ, voll komm! VVINF Infinitiv, voll gehen VVIZU Infinitiv mit zu, voll anzukommen VVPP Partizip Perfekt, voll gegangen VAFIN Finites Verb, aux wir werden VAIMP Imperativ, aux sei ruhig! VAINF Infinitiv, aux sein, werden VAPP Partizip Perfekt, aux gewesen VMFIN Finites Verb, modal wollte VMINF Infinitiv, modal wollen VMPP Partizip Perfekt, modal er hat gekonnt 2

Label Wortart Beispiel Adjektive ADJA Attributives Adjektiv das große Haus ADJD Adverbiales oder prädikatives Adjektiv er fährt/ist schnell Pronomen PDS Substituierendes Demonstrativpronomen dieser, jener PDAT Attribuierendes Demonstrativpronomen dieser Mensch PIS Substituierendes Indefinitpronomen keine, viele PIAT Attribuierendes Indefinitpronomen irgendein Glas PIDAT Attribuierendes Indefinitpronomen mit ein wenig Wasser Determiner PPER Irreflexives Personalpronomen er, dich, ihr PPOSS Substituierendes Possessivpronomen deiner PPOSAT Attribuierendes Possessivpronomen mein Buch PRELS Substituierendes Relativpronomen der Hund, der PRELAT Attribuierendes Relativpronomen der Mann, dessen Hund PRF Reflexives Personalpronomen sich, einander PWS Substituierendes Interrogativpronomen wer, was PWAT Attribuierendes Interrogativpronomen welcher Hut PWAV Adverbiales Interrogativ- oder warum, wo Relativpronomen Adpositionen APPR Präposition; Zirkumposition links in der Stadt APPRART Präposition mit Artikel im Haus APPO Postposition ihm zufolge APZR Zirkumposition rechts von jetzt an 3

Label Wortart Beispiel Adverbien ADV Adverb heute nicht PAV Pronominaladverb dafür, deswegen Konjunktionen KOUI Unterordnende Konjunktion mit zu um zu leben und Infinitiv KOUS Unterordnende Konjunktion mit Satz weil, daß KON Nebenordnende Konjunktion und, oder Partikeln PTKZU zu vor Infinitiv zu gehen PTKNEG Negationspartikel nicht PTKVZ Abgetrennter Verbzusatz er kommt an PTKANT Antwortpartikel ja, danke PTKA Partikel bei Adjektiv oder Adverb am schönsten KOKOM Vergleichspartikel, ohne Satz als, wie Sonstige ART Bestimmter oder unbestimmter Artikel der, eine CARD Kardinalzahl zwei, 1984 FM Fremdsprachliches Material big ITJ Interjektion ach XY Nichtwort, Sonderzeichen D2XW3 $, Komma, $. Satzbeendende Interpunktion.?!;: $( Sonstige Satzzeichen; satzintern (- 4

Englische Tagsets Penn Tagset (Marcus et al., 1993): 45 tags... C7 Tagset (Leech et al., 1994): 146 tags 5

Probleme Probleme beim reinen Lexikon-Lookup Out of Vocabulary-Fälle (OOV): POS für Wörter, die nicht im Lexikon stehen, unbekannt Ambiguitäten: Wort kann verschiedene POS-Labels tragen Sucht: NN vs. VVFIN ab: ADP vs. PTKVZ als: KOKOM vs. KOUS am: APPRART vs. PTKA Anfangs: NN vs. ADV Lösungen Einbeziehen des Wortkontexts Einbeziehen POS-relevanter Worteigenschaften (z.b. String-Suffixe) 6

Tagger-Überblick Regelbasierte Verfahren: ENGTWOL (Voutilainen, 1995) Statistische Verfahren: Jelinek (1985), Tree Tagger (Schmidt, 1995), Reichel (2005) Transformationsbasierte Verfahren: Brill (1995) 7

Regelbasierte Verfahren ENGTWOL (Voutilainen, 1995) 2 Schritte: 1. Lexikon-Lookup POS-Kandidaten 2. falls mehrere: Auswahl des richtigen Labels (Disambiguierung) anhand von Regeln Lexikon-Einträge: Wortform, POS, morpholog.+syntakt. Features (Subkategorisierungsrahmen usw.) show::v::imperative VFIN SVO SVOO show::v::present SG3 VFIN SVO SVOO show::n::nominative SG 8

Disambiguierung von that in it isn t that odd that::adv that::pron DEM SG that::det DEM SG that::cs Adverbial-That Regel: Given Input that if (+1 A ADV QUANT); %if next word is adj, adv or quantifier (+2 SENT-LIM); %and following which is a sentence boundary (NOT -1 SVOC/A); %and previous word is not verb allowing adjs as object complements then eliminate non-adv tags else eliminate ADV tag Nachteile: zeitaufwendiges Adjustieren der Regeln mangelnde Generaliserungsfähigkeit keine Übertragbarkeit auf andere Sprachen 9

Statistische Verfahren Statistische Sprachmodelle: N-Gramme Statistisches Modell: Vorhersage von Ereigniswahrscheinlichkeiten Wahrscheinlichkeit (Likelihood) einer Wortfolge w 1... w n (gemäß Kettenregel): P (w 1... w n ) = P (w 1 )P (w 2 w 1 )P (w 3 w 1 w 2 )... P (w n w 1... w n 1 ) = n P (w 1 ) P (w k w 1... w k 1 ) k=2 Anzahl von langen Wortvorgeschichten zu gering, als daß man daraus verläßliche Wahrscheinlichkeiten ableiten könnte vereinfachende Markov-Annahme: Länge der Wortvorgeschichte begrenzt auf m (z.b. =2: Trigramme) P (w 1... w n ) = P (w 1 )P (w 2 w 1 ) n k=3 P (w k w k m... w k 1 ) 10

Trigrammwahrscheinlichkeit: P (w k w k 2 w k 1 ) = #(w k 2w k 1 w k ) #(w k 2 w k 1 ) Smoothing: Anpassung der beobachteten Häufigkeiten, damit auch ungesehene n-gramme eine Wahrscheinlichkeit größer 0 erhalten; Discounting, Good-Turing-Verfahren usw. 11

lineare Interpolation: gewichtete Kombination verschiedener statistischer Modelle P (w 1... w n ) = n k=1 P hybrid (w k ) = n k=1 λ i P i (w k ) P (w 1... w n ) ist die Likelihood der Wortfolge w 1 bis w n, die sich zusammensetzt aus dem Produkt der Wahrscheinlichkeiten der betrachteten Einzelereignisse (Auftreten von Wort w k ). Zur Ermittlung der Wahrscheinlichkeiten für w k kann man verschiedene Modelle heranziehen (beispielsweise mit variierender Länge der Wortvorgeschichte) und die durch sie vorhergesagten Wahrscheinlichkeiten zu P hybrid kombinieren. P i (w k ) ist hierbei die Wahrscheinlichkeit von w k im Modell M i. Sei M 1 ein Unigramm-, M 2 ein Bigramm- und M 3 ein Trigramm-Modell zur Vorhersage der Wahrscheinlichkeit von w k, dann ergibt sich oben eingesetzt: P hybrid (w k ) = λ 1 P 1 (w k ) + λ 2 P 2 (w k w k 1 ) + λ 3 P 3 (w k w k 2 w k 1 ) Die Gewichte λ i werden mit Hilfe des EM-Algorithmus (expectation+maximization) ermittelt, ihre Summe ergibt 1. i 12

Satz von Bayes P (X Y ) = P (Y X)P (X) P (Y ) Wird eingesetzt, wenn P (X Y ) nicht geschätzt werden kann, beispielsweise wegen zu geringer Häufigkeit von Y. Einfache Form eines Markov-Taggers (Jelinek, 1985) Schätzung der wahrscheinlichsten Tag-Sequenz Ĝ, gegeben die Wort-Sequenz word W [ ] Ĝ = arg max P (G W ) G [ ] P (G)P (W G) = arg max (Bayes) G P (W ) [ ] = arg max P (G)P (W G) (P(W) konstant) G T P (G)P (W G) = P (w t w 1 g 1... w t 1 g t 1 g t )P (g t w 1 g 1... w t 1 g t 1 ) (Kettenr.) t=1 13

Vereinfachende Annahmen Die Wahrscheinlichkeit des Worts w t hängt nur von seinem tag g t ab. Die Wahrscheinlichkeit des tags g t hängt von einer begrenzten tag-vorgeschichte ab (Markov-Annahme) [ T Ĝ = arg max g 1...g T t=1 ] P (g t g-history t )P (w t g t ) Tagging-Problem als Hidden-Markov-Modell (HMM) formalisiert (siehe Tafelbild) Bestandteile eines HMM (mit konkreten Entsprechungen): Menge von Zuständen Q = {q i }; an jedem Zustand wird ein POS-Label angetragen Übergangswahrscheinlichkeiten A = {a ij }: von Zustand i zu Zustand j; entspricht P (POS j POS-history), Übergangswahrscheinlichkeiten abhängig von den POS-Labels der n vorangehenden Zustände (bei einer history der Länge n). Emissionswahrscheinlichkeiten (observation likelihoods) B = {b jot }: für Beobachtung o t ; entspricht P (w t POS t ) für alle POS j 14

Ermittlung von ˆT mit Hilfe des Viterbi-Algorithmus: Aufbau einer Trellis: Zustand-Zeitpunkt-Gitter; ein Knoten entspricht einem POS-tag zu einem bestimmten Zeitpunkt, also zum Index des jeweiligen Worts im zu taggenden Text 1 Ziel: finde für beobachtete Wortfolge denjenigen Pfad durch die Trellis, in dem das Produkt aus Emissions- [ und Übergangswahrscheinlichkeiten ] [ ] maximiert wird max P (G)P (W G) max P (G W ). Die damit verbundene Tag-Sequenz g 1... g T ist der Output des Taggers. in jedem Knoten k j (t) der Trellis für tag j und Zeitpunkt t wird folgendes notiert: a) die Wahrscheinlichkeit δ j (t) des bis hierhin wahrscheinlichsten Pfads, und b) der Vorgängerknoten auf diesem Pfad 1 Indizes: über Zustände (tags): 1 i, j N; über Zeitpunkte: 1 t T bei einem POS-Inventar der Größe N und einem zu taggenden Text der Länge T 15

Ermittlung der δ j (t) s: Initialisierung: δ j (1) = b jo1 Induktion 2 δ j (t) = max i [ δi (t 1)a ij b jot ] 2 Induktion (informell): Fortführung eines für n gültigen Sachverhalts mit n + 1. 16

Bei der Initialisierung zum Zeitpunkt t = 1 werden die δ s für jeden POS j gleich den bedingten Wahrscheinlichkeiten P(erstes Wort im zu taggenden Text POS j) gesetzt. Im Zuge der Induktion wird für jeden Knoten k jt der Trellis für POS j zum Zeitpunkt t die Wahrscheinlichkeit δ j (t) des wahrscheinlichsten Pfads hin zu diesem Knoten ermittelt. Diese ergibt sich durch Multiplikation von (Emissionswahrscheinlichkeit des t-ten Worts im zu taggenden Text, gegeben POS j) mit dem Maximum unter den Produkten (Wahrscheinlichkeiten der Pfade zu den Knoten zum Zeitpunkt t 1) x (Übergangswahrscheinlichkeiten zwischen den Knoten der Ebene t 1 und k jt ). Der Vorgänger von k jt im wahrscheinlichsten Pfad wird ebenfalls am Knoten vermerkt, damit der Pfad dann nach Zeitpunkt T, also nach dem letzten Wort, ausgelesen werden kann. 17

Tree Tagger (Schmidt, 1995) P (w t g t ) mittels Lexikon, das Vollformen und Suffixe enthält P (g t g-history t ) mittels Entscheidungsbaum, der für g-history einen Vektor mit den Wahrscheinlichkeiten der POS-tags ausgibt; g-history ist als Pfad im Baum repräsentiert Reduzierung des OOV-Problems, aber sprachabhängig 18

Reichel (2005) Vergleiche auch: TnT-Tagger (Brants, 2000) Generalisierung des Grundmodells mittels linearer Interpolation ersetze P (g t g-history t ) durch j u jp (g t g-history tj ) ersetze P (w t g t ) durch P (w t) P (g t ) k v kp (g t w-representation tk ) [ T ˆT = arg max g 1...g T t=1 1 P (g t ) u j P (g t g-history tj ) j k ] v k P (g t w-representation tk ) 19

Word-Repräsentation: String-Suffixe Motivation in vielen Sprachen ist POS-Information Suffix-Morphemen, Flektionsendungen, und finalen Kompositumgliedern kodiert (Gelegenheit/NN, Umgehungsstraße/NN, partly/adv) Nutzung dieser Einheiten reduziert das OOV-Problem Desideratum: ermittle linguistisch sinntragende String-Suffixe ohne linguistisches Wissen Sprachunabhängigkeit Ermittlung der String-Suffixe mittels Weighted Backward Successor Variety (SV) SV eines Strings: Anzahl verschiedener Characters, die ihm in einem Lexikon folgen können Backward SV: SV s werden von gespiegelten Strings ermittelt (Suffixe) Weighting: SV s werden gewichtet in Abhängigkeit der mittleren SV an der entsprechenden String-Position, um Positions-Effekte zu eliminieren 20

Lexikon gespiegelter Wörter als Trie repräsentiert SV an einem Zustand: Anzahl der abgehenden Transitionen lokale SV-Gipfel werden als Morphemgrenzen betrachtet (vgl. Peak and Plateau Algorithmus von Nascimento et al., 1998) Beispiel: Lexikon-Trie mit den gespiegelten Einträgen Einigung, Kreuzigung and Eignung Die SV-Maxima an den Zuständen 3 und 5 entsprechen den Grenzen der Morpheme ung and ig 21

Brill Tagger (Brill, 1995) regelbasierter Tagger Transformationsbasiertes Tagging Regeln werden automatisch anhand der Trainingsdaten gewonnen (überwachtes Lernen) Lernalgorithmus: 1. weise jedem Wort den wahrscheinlichsten POS-tag zu 2. iterate until Verbesserung < Schwelle wähle aus einer Menge von Transformationenregeln diejenige aus, die zum besten Tagging-Ergebnis führt füge diese Regel hinten an die Liste bisher ausgewählter Regeln trl an tagge das Corpus unter Anwendung dieser Regel neu Beispiel für Transformationsregel: NN VB if (vorangehender tag gleich TO) expected to/to race/nn expected to race/vb 22

Transformationsregeln ergeben sich durch Einsetzen aller möglichen POS-tags in folgende Templates: tag a tag b, if vorangehendes (folgendes) Wort ist mit tag z gelabelt. das zweite vorangehende (folgende) Wort ist mit tag z gelabelt. eines der zwei (drei) vorangehenden (folgenden) Wörter ist mit tag z gelabelt. vorangehendes Wort ist mit tag z gelabelt, und das folgende mit tag w. das vorangehende (folgende) Wort ist mit tag z gelabelt, und das zweite vorangehende (folgende) Wort mit tag w. Lernalgorithmus sehr zeitaufwendig, wenn für jedes Template zur Belegung von a, b, z, w alle POS-Kombinationen zugelassen werden Tagging: 1. weise jedem Wort den wahrscheinlichsten POS-tag zu 2. foreach Regel tr in trl: tagge den Text unter Anwendung von tr neu 23

Evaluierung anhand eines Testcorpus Gold-Standard: Vergleich des Tagger-Outputs mit manuell gesetzten tags; Relativierung durch Inter-Tagger-Agreement < 100 % Baseline: Vergleich des Outputs mit Output eines Baseline-Taggers, beispielsweise einem Unigramm-Tagger (ohne POS-History) Vergleichbarkeit von Taggern bei beliebiger Tagset-Größe: 3 Kappa-Statistik κ = P t (C) P z(c) 1 Pz(C) C: Wort korrekt getaggt, P t (C): Anteil der vom Tagger korrekt klassifizierten Wörter, Pz(C): zu erwartender Anteil zufällig korrekt klassifizierter Wörter = 1 Tagset 3 Bei einem Tagset der Größe 1 ist die Performanz des Taggers, der nur diesen einen Tag vorhersagt, 100 %. 24