Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Größe: px

Ab Seite anzeigen:

Download "Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging"

Angela Kneller
vor 6 Jahren
Abrufe

1 HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging Tobias Scheffer Ulf Brefeld POS-Tagging Zuordnung der Wortart von Termen. Meist Eingabe für weitere Verarbeitungsschritte (Parser, Extraktionsregeln, Übersetzung). Tagset : Definition der Wortarten, die unterschieden werden sollen. Im Prinzip: Nomen, Verben, Pronomen, Präposition, Adverb, Konjunktion, Partizip, Artikel, deren Phrasen (Nominalphrasen, ), Z.B. John/NNP saw/v her/pn duck/v oder John/NNP saw/v her/pn/np duck/n/np 95-97% korrekt gesetzte Tags üblich. 2 1

2 Gebräuchliche Tags für das Englische AT Artikel BEZ is IN Preposition JJ Adjektiv NP Noun Phrase NN Nomen NNP Proper Noun NNS Nomen, plural PERIOD.,?,! PN Personalpronomen RB Adverb TO to VP Verb Phrase VB Verb VBD Verb, Vergangenheit 3 Wortarterkennung: Einflussfaktoren Manche POS-Folgen sind gebräuchlich AT, JJ, NN. Andere hingegen weniger wahrscheinlich AT, PN VB. Die meisten Wörter treten nur in wenigen Wortarten auf, z.b. Lauf /VB oder Lauf /NN, aber nicht Lauf /JJ. Vorhersage der Wortform auf Grundlage der Nachbartags: ca. 77% Genauigkeit. Vorhersage der wahrscheinlichsten Wortform jedes Wortes ohne Kontext: ca. 90% Genauigkeit. 4 2

3 Wortarterkennung mit Markov-Modellen Markov-Annahme erster Ordnung. P(X i+1 =x X i,, X 1 ) = P(X i+1 =x X i ) Stationarität des Prozesses. P(X 2 =x X 1 ) = P(X 3 =x X 2 ) (Wortposition im Satz irrelevant.) Trainingsdaten: getaggtes Korpus. Zustände sind sichtbar (kein Hidden-Markov-Modell). Anwendung des Taggers auf neuen Satz: Zustände sind noch nicht sichtbar (Hidden-Markov-Model). 5 Training des POS-Taggers count( x x ) + c + Σc ˆ( ) count w x + c count( x) +Σc ˆ( a b b a PX ) t+ 1 = x Xt = x = ( a count x ) l l ( / ) POt = w Xt = x = Algortithmus: Für alle Tags x b : Für alle Tags x a : Schätze P(x a x b ) Für alle Tags x a : Für alle Wörter w l : Schätze P(w l x a ). 6 3

4 Anwenden des POS-Taggers x = arg max Px (,..., x w,..., w) 1,..., n x 1 n 1 n 1,..., n Wahrscheinlichste Folge von Zuständen des Markov-Modells. Wird bestimmt mit dem Viterbi-Algorithmus. (Alle Sätze sind durch x T =PERIOD begrenzt.) 7 Unbekannte Wörter Problem: Wörter, die im Trainingskorpus nicht aufgetaucht sind. Einfachste Lösung: Immer NP (proper noun) vermuten. Häufige Lösung: Wortform anhand der Endung heuristisch bestimmen. l PO ( t = w Xt = x) 1 = P (unbekanntes Wort x ) P (Grossbuchstabe x ) P Endung x Z ( ) 8 4

5 Trigramm-Tagger Markov-Modell = Bigramm-Tagger Trigramm-Tagger: P(X i+1 =x X i,, X 1 ) = P(X i+1 =x X i,x i-1 ) Problem: Mehr Wahrscheinlichkeiten, nicht genügend Daten um sie alle zu schätzen. Lösung: lineare Interpolation: P(X i+1 =x X i,, X 1 )=λ 1 P(X i+1 =x)+λ 2 P(X i+1 =x X i,)+λ 3 P(X i+1 =x X i,x i-1 ) Markov-Modell 2. Ordnung mit a ijk =P(X i+1 =k X i =j,x i-1 =i) statt der Übergangswahrscheinlichkeiten a ij. Variable-Memory-Markov-Models (VMMM): Abhängigkeiten über unterschiedlich lange Zustandsfolgen für verschiedene Zustände. 9 Transformationsbasierte Tagger Z.B. Brill Tagger Ausgangspunkt: jedes Wort mit dem dafür häufigsten Tag taggen. Anwendung von Transformationsregeln: Wenn bestimmte Bedingungen im Kontext von X t erfüllt sind, dann ersetze Tag von X t durch X t =x. Z.B. X t =NN und X t-1 =TO x t =VB. Transformationsregeln werden aus getaggtem Korpus gelernt. Algorithmen zum Regellernen aus Beispielen: Maschinelles Lernen und Data Mining, SS

6 HUMBOLDT-UNIVERSITÄT ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Named Entity Recognition Tobias Scheffer Ulf Brefeld NER - Problemdefinition Erkennung von z.b. Personen-, Firmen-, Ortsnamen (NAMEX) Daten, Uhrzeiten (TIMEX) Prozentangaben, Geldbeträgen (NUMEX) Spezialprobleme: Gennamen, Virennamen, Z.B. Problem ist gelöst für normalen Text, für Spezialfälle (biomedizinische Texte) noch offen. 12 6

7 NER - Beispiel 13 Schwierigkeiten Anzahl möglicher Eigennamen im Prinzip unendlich groß. Ständig werden neue Eigennamen erfunden (z.b. für neue chemische Verbindungen, neue Unternehmen) Nicht einheitliche Varianten des Namens einer Entität (HU, Humboldt-Uni, HU Berlin Humboldt Universität, Humboldt-Universität zu Berlin). 14 7

8 Named Entity Recognition Konstruktion von NER-Systemen Keine eleganten Algorithmen, Kombinationen verschiedener Heuristiken. Kernstück: Gazetteers Listen häufig verwendeter Namen, auf Anwendungsbereich abgestimmt. Handgeschriebene, heuristische Regeln Bezug zu morphologischen Eigenschaften, Wortart, Auftauchen in Gazetteer, Kontext, Lernen aus Beispieldaten Schlüsselrolle für Definition der Merkmale, die in das Erkennungssystem einfließen. 15 Fenster-Ansatz... fi (, i Wolff, currently), PER fi ( Wolff, currently, a), fi ( currently, a, journalist),... Ein Merkmalsvektor pro Fensterposition. Merkmale: Ein Merkmal pro Wort im Dictionary, POS, orthographische Merkmale, Element des Gazetteers?, 16 8

9 Fenster-Ansatz Gegeben: Merkmalsvektoren (ein Vektor pro Wortposition in den Trainingsdokumenten) Negativbeispiele, Beispiele für die Klassen von Named Entities. Gesucht: Abbildung von Merkmalsvektoren auf Named-Entity-Klassen. Lernen einer Abbildung aus Beispieldaten: Maschinelle Lernverfahren (AdaBoost, SVM, Regellernen, ). 17 9

Ähnliche Dokumente

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen NLP-Pipeline Tobias Scheffer Peter Haider Uwe Dick Paul Prasse NLP-Pipeline Folge von Verarbeitungsschritten für Informationsextraktion,