Part-of-Speech Tagging. Stephanie Schuldes

Größe: px

Ab Seite anzeigen:

Download "Part-of-Speech Tagging. Stephanie Schuldes"

Hermann Schräder
vor 7 Jahren
Abrufe

1 Part-of-Speech Tagging Stephanie Schuldes PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003

2 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch Erforschung struktureller Sprachphänomene auf niederer Ebene (teilweises Verständnis reicht aus)

3 Definition: Tagging Part-of-Speech (POS) Tagging ordnet jedem Wort in einem Satz die (korrekte) Wortart zu Wortartendisambiguierung Unterscheidung verschiedener Lesarten mit unterschiedlichen syntaktischen Funktionen

4 Schritte der Wortartenzuweisung Segmentierung Tokenisieren mit endlichem Automat

5 Schritte der Wortartenzuweisung Lexikalische Analyse alle möglichen Wortarten für Eingabewort bestimmen mit morphologischem Analysesystem guesser für unbekannte Wörter

6 Schritte der Wortartenzuweisung Disambiguierung Wortart passend zum Kontext auswählen mit statistischen Methoden

7 Nutzen und Informationsquellen Informationsextraktion Frage-Antwort-Systeme Shallow Parsing / Partial Parsing Erfolg dank Entwicklung der Korpuslinguistik Informationsquellen: syntagmatisch und lexikalisch

8 Ansätze Generative Processes Classification / Regression quantitativ regelbasiert statistisch linguistisch Hidden Markov Models Transformationen

9 Markov Eigenschaften Limited Horizon: P (X i+1 = t j X 1,..., X i ) = P (X i+1 = t j X i ) Time Invariance: P (X i+1 = t j X i ) = P (X 2 = t j X 1 ) Manning/Schütze 1999

10 Aufbau und Training Zustandsfolge ist nicht beobachtbar, sondern nur die erzeugte Ausgabe Ergänzung des Visible Markov Models um Emissionswahrscheinlichkeiten Modelltypen: des HMM Zustandsemission Übergangsemission

11 Hidden Markov Model Formal: 5-Tupel (S, K, Π, A, B) S = {s 1,..., s N } K = {k 1,..., k M } = {1,..., M} Π = {π i }, i S A = {a ij }, i, j S B = {b ijk }, i, j S, k K Menge der Zustände Ausgabealphabet Wahrscheinlichkeiten der Startzustände Wahrscheinlichkeiten der Zustandsübergänge Wahrscheinlichkeiten der Symbolemissionen Manning/Schütze 1999

12 HMM: Aufgaben und Anwendungen 1. Gegeben: Modell, gesucht: 2. Gegeben:,, gesucht: µ P (O µ) O µ (X 1,..., X T +1 ) 3. Gegeben: O, mögliche Modelle, gesucht: bestes Modell

13 Tagging mit HMMs typische Anwendung: Lexikon vorhanden, aber keine Trainingsdaten Idee: Markovkette von Tags, die Wörter erzeugt Bigramm-Tagger: Zustände sind Tags Trigramm-Tagger: Zustände sind Paare von Tags

14 Hidden Markov Model Übergangsmatrix Emissionsmatrix Anfangswahrscheinlichkeiten Copyright Karin Haenelt 2003

15 HMM: Evaluation Vorteile Nachteile effizientes Training (EM Algorithm) kein handgetaggtes Trainingskorpus nötig viel Speicherplatz (große Matrizen) indirekte Repräsentation linguistischer Information Overtraining möglich

16 Transformationsbasiertes Tagging regelbasiert stärkerer Einbezug linguistischer Information quantitative Komponente beim Lernen der Regeln, danach rein symbolisch

17 Transformationen Triggering Environment: tag i tag j if P tag-triggered: JJR RBR if next tag is JJ word-triggered: V BP V B if one of the previous two words is n t morphology-triggered: NN NNS if the unknown word s suffix is s elegante Behandlung unbekannter Wörter Transformationsregeln lexikalisch: Initialisierung mit häufigstem Tag kontextabhängig: Korrigieren der Tags hin zur besten Anpassung

18 Transformationen: Beispiel Change tag a to tag b when: 1. The preceding (following) word is tagged z. 2. The word two before (after) is tagged z. 3. One of the two preceding (following) words is tagged z. 4. One of the three preceding (following) words if tagged z. 5. The preceding word is tagged z and the following word is tagged w. 6. The preceding (following) word is tagged zand the word two before (after) is tagged w. 7. The preceding (following) word x

19 Regelakquisition Lernalgorithmus bestimmt die besten Transformationen und die Reihenfolge der Anwendung nach Initialisierung Wahl der Transformation, die die Fehlerrate am stärksten senkt Ende, wenn keine Senkung um mehr als einen Schwellwert möglich ist Greedy Search nach bester Abfolge

20 Anwendung der Transformationen left-to-right sofortiger oder verzögerter Effekt: Auswirkung auf Ergebnis! Beispiel: Eingabe ist AAAA A B if previous tag is A ABAB bei sofortigem Effekt ABBB bei Verzögerung

21 TBL: Evaluation Vorteile Nachteile Geschwindigkeit (da deterministisch) benötigt handgetaggtes Korpus Kompaktheit oft nicht sehr robust kein Overtraining mehr Kontext einbeziehbar (Tags und Wörter, links und rechts)

22 English Constraint Grammar (EngCG) nicht-quantitativer Ansatz von Samuelsson und Voutilainen (1997) sehr gute Ergebnisse Idee ähnlich TBL, aber Veränderungen durch Menschen statt durch Algorithmus vorgenommen

23 Übung Tagger ausprobieren!!! (Genaue Aufgabenstellung auf der Webseite)

24 Links Brill-Tagger (deutsch) Brill-Tagger (englisch) EngCG brilltagger_ui.html TnT-Tagger Memory Based Tagger TreeTagger Xerox Tagger TreeTagger/DecisionTreeTagger.html node4.html

25 Literatur Abney, S. (1996): Part-of-Speech Tagging and Partial Parsing. In: Corpus-based Methods in Language and Speech / K. Church, S. Young & G. Bloothcroft (eds.). Dordrecht: Kluwer. Brill, E. (1992): A Simple Rule-based Part of Speech Tagger. In: Proceedings of the Third Conference on Applied Computational Linguistics (ACL). Brill, E. (1995): Transformation-based Error-driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. In: Computational Linguistics, Vol. 21, No. 4. Manning, Ch. D. & H. Schütze (1999): Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. Kapitel 9 & 10.

Ähnliche Dokumente

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt Inhalt Ziel des Seminarprojekts Theorie: