Phonetische Lexika Part-of-Speech Tagging. Uwe D. Reichel IPSK, LMU München

Ähnliche Dokumente

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Part-of-Speech- Tagging

1 Part-of-Speech Tagging

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

STTS-Konfusionsklassen beim Tagging von Fremdsprachlernertexten

Part-Of-Speech-Tagging mit Viterbi Algorithmus

ÜBERBLICK ÜBER DAS KURS-ANGEBOT

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Sprachen 2., 3. und 4. Lehrjahr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Thomas Vanck

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Grammatik einfach praktisch - Englisch (Niveau: A1 - B2)

Der Viterbi-Algorithmus.

Wortartenbestimmung nach Peter Eisenberg

Bochumer Linguistische Arbeitsberichte (Bla 2) Kategorisierungsprobleme bei der Wortarten- Annotation von Textkorpora

Sprachen. l b. Deutsch Französisch Englisch. 1. Lehrjahr 2. Lehrjahr 3. Lehrjahr 4. Lehrjahr. Stoffplan-Sitzung vom 24. April 2007

Why learner texts are easy to tag A comparative evaluation of part-of-speech tagging of Kobalt

Lösung für Lehrerinnen und Lehrer Grammatik-Lapbook Teil 1: Wortarten

Lerninhalte ALFONS Lernwelt Deutsch 5. Klasse

Lerninhalte ALFONS Lernwelt Deutsch 6. Klasse

Über den Einfluss von Part-of-Speech-Tags auf Parsing-Ergebnisse

Langenscheidt Englisch-Comics Grammatik

KURZÜBERSICHT SONDERTEIL

Wozu Kasusrektion auszeichnen bei Präpositionen?


Syntax und Morphologie

OrthoGramm. Ein Nachschlagewerk. Monika Wyss Werner Kolb Heinz Hafner. Wortlehre Satzlehre Sätze Rechtschreibung Zeichensetzung

Basismethoden Sprachverarbeitung: Part-of-Speech Tagging

2 Lösungen "Peptide de novo Sequencing"

Linkliste Englische Grammatik

Grundwissen Grammatik

GRUNDWISSEN Englisch E 1 1. bis 3. Lernjahr GRAMMATIK MÜNDLICHE AUSDRUCKSFÄHIGKEIT

Fachschaft Englisch Unterrichtsinhalte Klasse Lehrwerk/Zusatzmaterialien: Lehrbuch Green Line 1 Voraussetzungen: Inhaltliche Schwerpunkte

Aufabe 7: Baum-Welch Algorithmus

Praktikum Maschinelle Übersetzung Language Model

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

"What's in the news? - or: why Angela Merkel is not significant

Englisch-deutsch-polnisches Wörterbuch. Benutzeranleitung

Folie 1 Aber und aber Aber aber Und Aber Aufgaben: Partnerdiktat

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

215 Grammatik Klasse

Das Briefträgerproblem

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Diktat. Deutsch. 7. Klasse. Diktat. in 15 Minuten

3. Ontologien und Wissensbasen

Übersetzen Spanisch Deutsch

Anfrage Erweiterung Jan Schrader

Deutsche Grammatik. einfach, kompakt und übersichtlich. Heike Pahlow. Übungen zum Buch kostenlos im Internet

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Fachbereich Informatik Institut für Computervisualistik DIPLOMARBEIT. Evaluation von Syntaxanalysemethoden angewendet auf

Prüfungsstoff. 1. Klasse. Maturitätsschule und Fachmittelschule

SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Abschnitt: Algorithmendesign und Laufzeitanalyse

Linguistic Annotation of Computer-Mediated Communication (not only) an Explorative Analysis

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

HEALTH Institut für Biomedizin und Gesundheitswissenschaften

Übungen aller Typen, die sich besonders für die Bearbeitung im Team eignen (auch arbeitsteilig), haben als Kennzeichnung ein Sechseck.

Vorlesung Information Retrieval Wintersemester 04/05

ONLINE - GRAMMATIK. Satzbau

Fersentalerisch: SVO SOV?

Fortgeschrittene Statistik Logistische Regression

Algorithmische Bioinformatik

Opinion Spam Detection

Morphologie & Syntax

Deutsche Schule Washington - Schulcurriculum Spanisch Klasse 6 (G8)

LOKALE UND DIREKTIONALE PPS

Liste der wählbaren Module der unterstützenden Förderung Stand

Statistische Verfahren:

Acornym Decomposer Spezifikationsvortrag

Berufsmaturitätsschulen des Kantons Aargau. Aufnahmeprüfung Juni 2015 / Korrekturexemplar. Deutsch. Note: Kandidaten-Nr.

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

5. Maschinelle Verarbeitung natürlicher Sprache (Computerlinguistik) (1)

fsq Ein Abfragesystem für syntaktisch annotierte Baumbanken

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

Maschinelles Lernen Entscheidungsbäume

Deutsch-Italienisch Lehrbuch

Fach : Englisch Klasse 5. Kerncurriculum Schulcurriculum Hinweise

Gliederung. Definition Wichtige Aussagen und Sätze Algorithmen zum Finden von Starken Zusammenhangskomponenten

Deutsch-Französisch Lehrbuch

Vorlesung Algorithmische Geometrie. Streckenschnitte. Martin Nöllenburg

Einführung Computerlinguistik. Konstituentensyntax II

Datenstrukturen und Algorithmen

Jahresprogramm 2015/2016. Fach: Deutsch als Zweitsprache. 2. Klasse: neusprachliche Fachrichtung. Fachlehrerin: Renate Kaute

16. All Pairs Shortest Path (ASPS)

WS 2009/

Julia Hancke julia

Informationsextraktion

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Nr. Item Punkte 1. Warum gibt es auf den deutschen Autobahnen das Verkehrschaos?

Schulinternes Curriculum Stützkurs Französisch in Jahrgangsstufe 7

Adjektiv und Adjektivgruppe

Transkript:

Phonetische Lexika Part-of-Speech Tagging Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de

Inhalt Parts of Speech POS-Tagging-Probleme: OOV, Ambiguitäten Regelbasierte Tagger Markov-Tagger Transformationsbasiertes Tagging Evaluierung 1

Parts of Speech Deutsch: STTS (Stuttgart-Tübingen Tagset; Schiller et al., 1995) Label Wortart Beispiel Nomen NN Substantiv Tisch NE Eigennamen Hans, Hamburg TRUNC Kompositions-Erstglied An- und Abreise Verben VVFIN Finites Verb, voll du gehst VVIMP Imperativ, voll komm! VVINF Infinitiv, voll gehen VVIZU Infinitiv mit zu, voll anzukommen VVPP Partizip Perfekt, voll gegangen VAFIN Finites Verb, aux wir werden VAIMP Imperativ, aux sei ruhig! VAINF Infinitiv, aux sein, werden VAPP Partizip Perfekt, aux gewesen VMFIN Finites Verb, modal wollte VMINF Infinitiv, modal wollen VMPP Partizip Perfekt, modal er hat gekonnt 2

Label Wortart Beispiel Adjektive ADJA Attributives Adjektiv das große Haus ADJD Adverbiales oder prädikatives Adjektiv er fährt/ist schnell Pronomen PDS Substituierendes Demonstrativpronomen dieser, jener PDAT Attribuierendes Demonstrativpronomen dieser Mensch PIS Substituierendes Indefinitpronomen keine, viele PIAT Attribuierendes Indefinitpronomen irgendein Glas PIDAT Attribuierendes Indefinitpronomen mit ein wenig Wasser Determiner PPER Irreflexives Personalpronomen er, dich, ihr PPOSS Substituierendes Possessivpronomen deiner PPOSAT Attribuierendes Possessivpronomen mein Buch PRELS Substituierendes Relativpronomen der Hund, der PRELAT Attribuierendes Relativpronomen der Mann, dessen Hund PRF Reflexives Personalpronomen sich, einander PWS Substituierendes Interrogativpronomen wer, was PWAT Attribuierendes Interrogativpronomen welcher Hut PWAV Adverbiales Interrogativ- oder warum, wo Relativpronomen Adpositionen APPR Präposition; Zirkumposition links in der Stadt APPRART Präposition mit Artikel im Haus APPO Postposition ihm zufolge APZR Zirkumposition rechts von jetzt an 3

Label Wortart Beispiel Adverbien ADV Adverb heute nicht PAV Pronominaladverb dafür, deswegen Konjunktionen KOUI Unterordnende Konjunktion mit zu um zu leben und Infinitiv KOUS Unterordnende Konjunktion mit Satz weil, daß KON Nebenordnende Konjunktion und, oder Partikeln PTKZU zu vor Infinitiv zu gehen PTKNEG Negationspartikel nicht PTKVZ Abgetrennter Verbzusatz er kommt an PTKANT Antwortpartikel ja, danke PTKA Partikel bei Adjektiv oder Adverb am schönsten KOKOM Vergleichspartikel, ohne Satz als, wie Sonstige ART Bestimmter oder unbestimmter Artikel der, eine CARD Kardinalzahl zwei, 1984 FM Fremdsprachliches Material big ITJ Interjektion ach XY Nichtwort, Sonderzeichen D2XW3 $, Komma, $. Satzbeendende Interpunktion.?!;: $( Sonstige Satzzeichen; satzintern (- 4

Englische Tagsets Penn Tagset (Marcus et al., 1993): 45 tags... C7 Tagset (Leech et al., 1994): 146 tags 5

Probleme Probleme beim reinen Lexikon-Lookup Out of Vocabulary-Fälle (OOV): POS für Wörter, die nicht im Lexikon stehen, unbekannt Ambiguitäten: Wort kann verschiedene POS-Labels tragen Sucht: NN vs. VVFIN ab: ADP vs. PTKVZ als: KOKOM vs. KOUS am: APPRART vs. PTKA Anfangs: NN vs. ADV Lösungen Einbeziehen des Wortkontexts Einbeziehen POS-relevanter Worteigenschaften (z.b. String-Suffixe) 6

Tagger-Überblick Regelbasierte Verfahren: ENGTWOL (Voutilainen, 1995) Statistische Verfahren: Jelinek (1985), Tree Tagger (Schmidt, 1995), Reichel (2005) Transformationsbasierte Verfahren: Brill (1995) 7

Regelbasierte Verfahren ENGTWOL (Voutilainen, 1995) 2 Schritte: 1. Lexikon-Lookup POS-Kandidaten 2. falls mehrere: Auswahl des richtigen Labels (Disambiguierung) anhand von Regeln Lexikon-Einträge: Wortform, POS, morpholog.+syntakt. Features (Subkategorisierungsrahmen usw.) show::v::imperative VFIN SVO SVOO show::v::present SG3 VFIN SVO SVOO show::n::nominative SG 8

Disambiguierung von that in it isn t that odd that::adv that::pron DEM SG that::det DEM SG that::cs Adverbial-That Regel: Given Input that if (+1 A ADV QUANT); %if next word is adj, adv or quantifier (+2 SENT-LIM); %and following which is a sentence boundary (NOT -1 SVOC/A); %and previous word is not verb allowing adjs as object complements then eliminate non-adv tags else eliminate ADV tag Nachteile: zeitaufwendiges Adjustieren der Regeln mangelnde Generaliserungsfähigkeit keine Übertragbarkeit auf andere Sprachen 9

Statistische Verfahren Statistische Sprachmodelle: N-Gramme Statistisches Modell: Vorhersage von Ereigniswahrscheinlichkeiten Wahrscheinlichkeit (Likelihood) einer Wortfolge w 1... w n (gemäß Kettenregel): P (w 1... w n ) = P (w 1 )P (w 2 w 1 )P (w 3 w 1 w 2 )... P (w n w 1... w n 1 ) = n P (w 1 ) P (w k w 1... w k 1 ) k=2 Anzahl von langen Wortvorgeschichten zu gering, als daß man daraus verläßliche Wahrscheinlichkeiten ableiten könnte vereinfachende Markov-Annahme: Länge der Wortvorgeschichte begrenzt auf m (z.b. =2: Trigramme) P (w 1... w n ) = P (w 1 )P (w 2 w 1 ) n k=3 P (w k w k m... w k 1 ) 10

Trigrammwahrscheinlichkeit: P (w k w k 2 w k 1 ) = #(w k 2w k 1 w k ) #(w k 2 w k 1 ) Smoothing: Anpassung der beobachteten Häufigkeiten, damit auch ungesehene n-gramme eine Wahrscheinlichkeit größer 0 erhalten; Discounting, Good-Turing-Verfahren usw. 11

lineare Interpolation: gewichtete Kombination verschiedener statistischer Modelle P (w 1... w n ) = n k=1 P hybrid (w k ) = n k=1 λ i P i (w k ) P (w 1... w n ) ist die Likelihood der Wortfolge w 1 bis w n, die sich zusammensetzt aus dem Produkt der Wahrscheinlichkeiten der betrachteten Einzelereignisse (Auftreten von Wort w k ). Zur Ermittlung der Wahrscheinlichkeiten für w k kann man verschiedene Modelle heranziehen (beispielsweise mit variierender Länge der Wortvorgeschichte) und die durch sie vorhergesagten Wahrscheinlichkeiten zu P hybrid kombinieren. P i (w k ) ist hierbei die Wahrscheinlichkeit von w k im Modell M i. Sei M 1 ein Unigramm-, M 2 ein Bigramm- und M 3 ein Trigramm-Modell zur Vorhersage der Wahrscheinlichkeit von w k, dann ergibt sich oben eingesetzt: P hybrid (w k ) = λ 1 P 1 (w k ) + λ 2 P 2 (w k w k 1 ) + λ 3 P 3 (w k w k 2 w k 1 ) Die Gewichte λ i werden mit Hilfe des EM-Algorithmus (expectation+maximization) ermittelt, ihre Summe ergibt 1. i 12

Satz von Bayes P (X Y ) = P (Y X)P (X) P (Y ) Wird eingesetzt, wenn P (X Y ) nicht geschätzt werden kann, beispielsweise wegen zu geringer Häufigkeit von Y. Einfache Form eines Markov-Taggers (Jelinek, 1985) Schätzung der wahrscheinlichsten Tag-Sequenz Ĝ, gegeben die Wort-Sequenz word W [ ] Ĝ = arg max P (G W ) G [ ] P (G)P (W G) = arg max (Bayes) G P (W ) [ ] = arg max P (G)P (W G) (P(W) konstant) G T P (G)P (W G) = P (w t w 1 g 1... w t 1 g t 1 g t )P (g t w 1 g 1... w t 1 g t 1 ) (Kettenr.) t=1 13

Vereinfachende Annahmen Die Wahrscheinlichkeit des Worts w t hängt nur von seinem tag g t ab. Die Wahrscheinlichkeit des tags g t hängt von einer begrenzten tag-vorgeschichte ab (Markov-Annahme) [ T Ĝ = arg max g 1...g T t=1 ] P (g t g-history t )P (w t g t ) Tagging-Problem als Hidden-Markov-Modell (HMM) formalisiert (siehe Tafelbild) Bestandteile eines HMM (mit konkreten Entsprechungen): Menge von Zuständen Q = {q i }; an jedem Zustand wird ein POS-Label angetragen Übergangswahrscheinlichkeiten A = {a ij }: von Zustand i zu Zustand j; entspricht P (POS j POS-history), Übergangswahrscheinlichkeiten abhängig von den POS-Labels der n vorangehenden Zustände (bei einer history der Länge n). Emissionswahrscheinlichkeiten (observation likelihoods) B = {b jot }: für Beobachtung o t ; entspricht P (w t POS t ) für alle POS j 14

Ermittlung von ˆT mit Hilfe des Viterbi-Algorithmus: Aufbau einer Trellis: Zustand-Zeitpunkt-Gitter; ein Knoten entspricht einem POS-tag zu einem bestimmten Zeitpunkt, also zum Index des jeweiligen Worts im zu taggenden Text 1 Ziel: finde für beobachtete Wortfolge denjenigen Pfad durch die Trellis, in dem das Produkt aus Emissions- [ und Übergangswahrscheinlichkeiten ] [ ] maximiert wird max P (G)P (W G) max P (G W ). Die damit verbundene Tag-Sequenz g 1... g T ist der Output des Taggers. in jedem Knoten k j (t) der Trellis für tag j und Zeitpunkt t wird folgendes notiert: a) die Wahrscheinlichkeit δ j (t) des bis hierhin wahrscheinlichsten Pfads, und b) der Vorgängerknoten auf diesem Pfad 1 Indizes: über Zustände (tags): 1 i, j N; über Zeitpunkte: 1 t T bei einem POS-Inventar der Größe N und einem zu taggenden Text der Länge T 15

Ermittlung der δ j (t) s: Initialisierung: δ j (1) = b jo1 Induktion 2 δ j (t) = max i [ δi (t 1)a ij b jot ] 2 Induktion (informell): Fortführung eines für n gültigen Sachverhalts mit n + 1. 16

Bei der Initialisierung zum Zeitpunkt t = 1 werden die δ s für jeden POS j gleich den bedingten Wahrscheinlichkeiten P(erstes Wort im zu taggenden Text POS j) gesetzt. Im Zuge der Induktion wird für jeden Knoten k jt der Trellis für POS j zum Zeitpunkt t die Wahrscheinlichkeit δ j (t) des wahrscheinlichsten Pfads hin zu diesem Knoten ermittelt. Diese ergibt sich durch Multiplikation von (Emissionswahrscheinlichkeit des t-ten Worts im zu taggenden Text, gegeben POS j) mit dem Maximum unter den Produkten (Wahrscheinlichkeiten der Pfade zu den Knoten zum Zeitpunkt t 1) x (Übergangswahrscheinlichkeiten zwischen den Knoten der Ebene t 1 und k jt ). Der Vorgänger von k jt im wahrscheinlichsten Pfad wird ebenfalls am Knoten vermerkt, damit der Pfad dann nach Zeitpunkt T, also nach dem letzten Wort, ausgelesen werden kann. 17

Tree Tagger (Schmidt, 1995) P (w t g t ) mittels Lexikon, das Vollformen und Suffixe enthält P (g t g-history t ) mittels Entscheidungsbaum, der für g-history einen Vektor mit den Wahrscheinlichkeiten der POS-tags ausgibt; g-history ist als Pfad im Baum repräsentiert Reduzierung des OOV-Problems, aber sprachabhängig 18

Reichel (2005) Vergleiche auch: TnT-Tagger (Brants, 2000) Generalisierung des Grundmodells mittels linearer Interpolation ersetze P (g t g-history t ) durch j u jp (g t g-history tj ) ersetze P (w t g t ) durch P (w t) P (g t ) k v kp (g t w-representation tk ) [ T ˆT = arg max g 1...g T t=1 1 P (g t ) u j P (g t g-history tj ) j k ] v k P (g t w-representation tk ) 19

Word-Repräsentation: String-Suffixe Motivation in vielen Sprachen ist POS-Information Suffix-Morphemen, Flektionsendungen, und finalen Kompositumgliedern kodiert (Gelegenheit/NN, Umgehungsstraße/NN, partly/adv) Nutzung dieser Einheiten reduziert das OOV-Problem Desideratum: ermittle linguistisch sinntragende String-Suffixe ohne linguistisches Wissen Sprachunabhängigkeit Ermittlung der String-Suffixe mittels Weighted Backward Successor Variety (SV) SV eines Strings: Anzahl verschiedener Characters, die ihm in einem Lexikon folgen können Backward SV: SV s werden von gespiegelten Strings ermittelt (Suffixe) Weighting: SV s werden gewichtet in Abhängigkeit der mittleren SV an der entsprechenden String-Position, um Positions-Effekte zu eliminieren 20

Lexikon gespiegelter Wörter als Trie repräsentiert SV an einem Zustand: Anzahl der abgehenden Transitionen lokale SV-Gipfel werden als Morphemgrenzen betrachtet (vgl. Peak and Plateau Algorithmus von Nascimento et al., 1998) Beispiel: Lexikon-Trie mit den gespiegelten Einträgen Einigung, Kreuzigung and Eignung Die SV-Maxima an den Zuständen 3 und 5 entsprechen den Grenzen der Morpheme ung and ig 21

Brill Tagger (Brill, 1995) regelbasierter Tagger Transformationsbasiertes Tagging Regeln werden automatisch anhand der Trainingsdaten gewonnen (überwachtes Lernen) Lernalgorithmus: 1. weise jedem Wort den wahrscheinlichsten POS-tag zu 2. iterate until Verbesserung < Schwelle wähle aus einer Menge von Transformationenregeln diejenige aus, die zum besten Tagging-Ergebnis führt füge diese Regel hinten an die Liste bisher ausgewählter Regeln trl an tagge das Corpus unter Anwendung dieser Regel neu Beispiel für Transformationsregel: NN VB if (vorangehender tag gleich TO) expected to/to race/nn expected to race/vb 22

Transformationsregeln ergeben sich durch Einsetzen aller möglichen POS-tags in folgende Templates: tag a tag b, if vorangehendes (folgendes) Wort ist mit tag z gelabelt. das zweite vorangehende (folgende) Wort ist mit tag z gelabelt. eines der zwei (drei) vorangehenden (folgenden) Wörter ist mit tag z gelabelt. vorangehendes Wort ist mit tag z gelabelt, und das folgende mit tag w. das vorangehende (folgende) Wort ist mit tag z gelabelt, und das zweite vorangehende (folgende) Wort mit tag w. Lernalgorithmus sehr zeitaufwendig, wenn für jedes Template zur Belegung von a, b, z, w alle POS-Kombinationen zugelassen werden Tagging: 1. weise jedem Wort den wahrscheinlichsten POS-tag zu 2. foreach Regel tr in trl: tagge den Text unter Anwendung von tr neu 23

Evaluierung anhand eines Testcorpus Gold-Standard: Vergleich des Tagger-Outputs mit manuell gesetzten tags; Relativierung durch Inter-Tagger-Agreement < 100 % Baseline: Vergleich des Outputs mit Output eines Baseline-Taggers, beispielsweise einem Unigramm-Tagger (ohne POS-History) Vergleichbarkeit von Taggern bei beliebiger Tagset-Größe: 3 Kappa-Statistik κ = P t (C) P z(c) 1 Pz(C) C: Wort korrekt getaggt, P t (C): Anteil der vom Tagger korrekt klassifizierten Wörter, Pz(C): zu erwartender Anteil zufällig korrekt klassifizierter Wörter = 1 Tagset 3 Bei einem Tagset der Größe 1 ist die Performanz des Taggers, der nur diesen einen Tag vorhersagt, 100 %. 24