Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistik-basiertes Tagging)

Ähnliche Dokumente
Empirie II: Wortarten im Kontext (Tagging)

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

TreeTagger. Deborah Watty

Viterbi. Hidden Markov Models und POS Tagging mit dem Viterbi-Algorithmus. von Arndt Faulhaber und Benjamin Schlebes

Tagger for German. Online BRILL-Tagger für das Deutsche

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Einführung in die Computerlinguistik

Korpus. Was ist ein Korpus?

Der VITERBI-Algorithmus

Einführung in die Computerlinguistik POS-Tagging

Hidden-Markov-Modelle

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

Modul 4: Automatische Korpusannotation mit computerlinguistischen Werkzeugen: Bestimmung von Wortarten und Grundformen

Hidden Markov Models in Anwendungen

Projektgruppe. Text Labeling mit Sequenzmodellen

Einführung in die Computerlinguistik

Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Der Viterbi Algorithmus

NLP Eigenschaften von Text

Annotation des Wittgenstein-Korpus mit Wortart-Information

Elementare Wahrscheinlichkeitslehre

Hidden Markov Models in Anwendungen

Syntax natürlicher Sprachen

Einführung in die Computerlinguistik. Morphologie III

Hidden Markov Models

Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Einführung in die Computerlinguistik

Themen. GK C: Einführung in die Korpuslinguistik. Vorverarbeitung. Tokenisierung. Tokenisierung. Aber. Vorverarbeitung

Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Hidden Markov Models (HMM)

Einführung in die Computerlinguistik

Probabilistische kontextfreie Grammatiken

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Part-of-Speech-Tagging mit Transduktoren

Part-of-Speech-Tagging mit Transduktoren

Jahresschlusstest 2018

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Linguistische Informatik

Einführung in die Computerlinguistik Tokenizer und Textstatistik mit Perl

Einführung in die Computerlinguistik

Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Jahresschlusstest 2019

Wiederholung: Korpuszusammensetzung VL: Einführung in die Korpuslinguistik

Linguistische Grundlagen. Warum Tagging? Klassische Wortartenlehre Tagsets Annotation höherer Ebenen Design von Tagsets

Einführung in die Computerlinguistik

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Part-of-Speech Tagging. Stephanie Schuldes

TnT - Statistischer Part-of- Speech Tagger

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,

Part-of-Speech- Tagging

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans

Der s-gemtiv Der of-genitiv Üben und Anwenden Der bestimmte Artikel Der unbestimmte Artikel Üben und Anwenden...

Map Matching. Problem: GPS-Punkte der Trajektorie weisen einen relativ großen Abstand zueinander auf.

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26

Vorlesung HM2 - Master KI Melanie Kaspar, Prof. Dr. B. Grabowski 1

Einführung in die Computerlinguistik

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Mathematische Grundlagen der Computerlinguistik III: Statistische Methoden Probeklausur

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse

Übersicht über die Tests

Hidden Markov Modelle

Aufgabe 1 Probabilistische Inferenz

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

KI-Kolloquium am Part-of-Speech-Tagging für Deutsch. Referent: Stefan Bienk

Kapitel 12: Markov-Ketten

Was ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora

Automatisches Verstehen gesprochener Sprache

COSMAS II Corpus Search Management and Analysis System

Sequenzanalyse mit Markov-Ketten

Transformation-Based Error-Driven Learning: Eine Fallstudie in Part of Speech Tagging

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Institut für Informatik Lehrstuhl Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache

1 Part-of-Speech Tagging

Active Hidden Markov Models for Information Extraction

Vernetzte Systeme. Übungsstunde Adrian Schüpbach 09. Juni 2006

Eigenschaften von Texten

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Schriftlicher Test Teilklausur 2

Part-of-Speech Tagging. Machine Language Processing Heike Zinsmeister WS 2008/09

Übungsaufgaben Lösungen

Hidden Markov Modelle

Schriftlicher Test Teilklausur 2

Natural language processing

LI07: Hidden Markov Modelle und Part-of-Speech Tagging

Sprachsynthese: Part-of-Speech-Tagging

Transkript:

Token, Types, Häufigkeiten und automatische Wortartenerkennung (Statistikbasiertes Tagging) Morphologieanalyse und Lexikonaufbau (6. Vorlesung) Dozent: Gerold Schneider Übersicht Was ist ein Token? Was ist ein Type? Wie ist das numerische Verhältnis von Token zu Types? HäufigkeitsVerteilung der Wörter Was ist Tagging? Statistisches Tagging 1

Was ist ein Token? Was ist ein Type? Token: (nach [Bußmann 83]: einzelne sprachliche Äusserung) in einem Text vorkommende Wortformen Bsp.: "Die Frau jagt die Katze." enthält 5 Token (oder 6 Token, wenn man den Satzendepunkt eigens zählt) Type: (nach Bußmann: die den sprachlichen Äusserungen zugrundeliegenden abstrakten Einheiten) in einem Text vorkommende unterschiedliche Wortformen Bsp.: "Die Frau sah das Mädchen, aber das Mädchen hat sie nicht gesehen." enthält 10 Types ('das' und 'Mädchen' werden nur einmal gezählt; oder 12 Types, wenn man die Satzzeichen eigens zählt; 'sah' und 'gesehen' können auch als zwei Instanzen des selben LemmaTypes gesehen werden.) 2

Wie ist das numerische Verhältnis von Token zu Types? In Smith "Computers and Human Language" (für Englisch) > Auf 13.000 Token (=Kap. 3 des Buches) kommen 2427 Types (T/T= 5,35). Im ScanworxManual (für das Deutsche) > Auf 48.000 Token kommen 3700 Types (T/T= 12,97). Im BrownCorpus (für Englisch; nach Smith S.79) > Auf 1 Mio Token kommen ca. 50.000 Types (T/T = 20) Zeitungscorpus "Die Welt" (für das Deutsche) > Auf 2.5 Mio Token kommen 166.484 Types (T/T= 15,01) Nach Smith > Type/Token Verhältnis ist niedriger in gesprochener Sprache als in geschriebener Sprache Anwendung in der Lexikographie: nur die häufigsten Types werden für die Lexikonerstellung berücksichtigt. 3

Wie ist das numerische Verhältnis von Funktionswörtern (Präpositionen, Artikel, Konjunktionen, Pronomen) zu Inhaltswörtern (Substantive, Adjektive, Verben) in einem gegebenen Text? > ungefähr gleich Wieviel Einträge hat ein grosses Lexikon? unabridged, generalpurpose Dictionary for English: 450.000 (nach Smith S.70) Englisch hat 60.000 Inhaltswörter im allgemeinen Gebrauch (nach Smith S.85) und es kommen jährlich 500 neue hinzu. Die produktivsten Quellen für das Englische sind heute Wissenschaft, Geschäftswelt und American Slang (früher war es die Literatur). Oxford English Dictionary: 252.000 Haupteinträge; 1,8 Mio Belegzitate (nach Ufert S.80) DUDEN Deutsches Universalwörterbuch AZ: über 120.000 Stichwortartikel Celex ~50.000 Lemmas für das Deutsche 4

HäufigkeitsVerteilung der Wörter Zipfs Gesetz "Das Verhältnis der Häufigkeit des Auftretens eines Tokens ist invers proportional zu seiner Position in der Häufigkeitsliste." frequency * rank = constant Bsp.: (für Englisch; aus Crystal S.87) rank * frequency constant 35 very 836 29.260 45 see 674 30.330 55 which 563 30.965 65 get 469 30.485 75 out 422 31.650 5 Problem: Gesetzmässigkeit stimmt nicht ganz am Anfang und am Ende der Liste. Anmerk.: Anderes Gesetz von Zipf: Die Häufigkeit des Auftretens eines Wortes ist umgekehrt proportional zu seiner Länge. Effizienz Expressivität

Die häufigsten Wortformen des Deutschen nach Meier, H.: Deutsche Sprachstatistik. Hildesheim: Georg Olms. 1964 1 die 349.553 2 der 342.522 3 und 4 in 320.072 188.078 1. Konjunktion 1. Präposition 5 zu 172.625 6 den 138.664 7 das 124.232 8 nicht 114.518 1. Adverb 9 von 113.201 10 sie 102.212 1. Personalpronomen 11 ist 96.970 1. Hilfsverb 12 des 13 sich 96.190 92.945 14 mit 91.552 15 dem 89.109 90 Zeit 14.529 1. Substantiv 127 machen 8.929 1. Vollverb Vgl. Liste für das Englische und für das Französische (s. Alexejew et al. "Sprachstatistik", Fink, 1973 S. 218 u. S.223224). 6

im BrownCorpus (nach Smith S.79) > 1 Mio Token (ca. 50.000 Types), davon machen 6 Types (the, of, and, to, a, in) 205.961 Token aus die Spitzenreiter in der Häufigkeit sind unterschiedlich für geschriebene und gesprochene Sprache (in gesprochener Sprache häufiger als in geschriebener ist z.b. 'I ') Nutzen dieses Wissens in der CL: bei Indices oder Konkordanzen (häufigste Weglassen) bei Textspeicherung (häufigste durch EinByte Code ersetzen) bei LexikonLookup entsprechend schnelle Zugriffe einsetzen Beobachtung: Die häufigsten Wörter sind Funktionswörter, vor allem Determiner und Präpositionen. Sie haben normalerweise keine Synonyme und sind syntaxspezifisch. 7

Was ist Tagging? Allgemein: Die Zuweisung eines 'Tags' (Markierungssymbol) an eine Texteinheit. Meist: Die Zuweisung eines eindeutigen Wortartsymbols an eine Wortform im Kontext. Tagging folgt meist auf die morphologische Analyse oder ist selbst lexikonbasiert. Es kann entweder statistisch oder regelbasiert ablaufen. Beispiel: Morphologische Analyse: Tagger: Junge [Adj, N] Adj Männer gehen [N] [finv, infv] N finv zu [Präp, Adv, ikonj, Adj] Präp ihr. [Pron, Det] Pron nach Smith (S.86): 5% der Types sind ambig. Da diese jedoch sehr häufig sind, entspricht das bis zu 20% der Token. nach Charniak (S.49): Im BrownCorpus sind 11% der Types ambig. Das entspricht jedoch 40% der Token. 8

TagSets Das TagSet umfasst die Menge der Tags, die von einem Tagger vergeben werden. TagSet Number of Tags Brown Corpus 87 LancasterOslo/Bergen 135 Lancaster UCREL 165 LondonLund Corpus of Spoken English 197 Penn Treebank 36 + 12 9

Bsp.: Der Xerox PartofSpeechTagger Basiert auf dem LOB (LancesterOsloBergen) TagSet. Dieses enthält rund 120 Tags für die Wortarten plus Tags für die Satzzeichen. Ausgangstext: You can drink from a can of beer and fly home like a fly. You live your lives as a man would do time and again. Do you think that a buffalo can buffalo a buffalo? Der analysierte Text: You/PPSS can/md drink/vb from/in a/at can/nn of/in beer/nn and/cc fly/nn home/nn like/cs a/at fly/nn./sent You/PPSS live/vb your/pp$ lives/nns as/rbc a/at man/nn would/md do/do time/nn and/cc again/rb./sent Do/DO you/ppss think/vb that/cs a/at buffalo/nn can/md buffalo/vb a/at buffalo/nn?/sent Der XeroxTagger kann über das WWW getestet werden: http://www.rxrc.xerox.com/research/mltt/demos/. Es gibt Versionen für DE, FR, NL, EN, ES, PT, IT, RU, Ungarisch (weitere in Entwicklung) 10

Anforderungen an einen Tagger (nach [Cutting et al. 92] S.133) Robustheit Der Tagger kann beliebigen Input verarbeiten (incl. unbekannte Wörter, Sonderzeichen). Effizienz Der Tagger arbeitet schnell. Genauigkeit Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%). Anpassbarkeit Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden. Wiederverwertbarkeit Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden. 11

Statistisches Tagging Annahme: die Wahrscheinlichkeit der Aufeinanderfolge von Wortarten ist unterschiedlich. Ausgangspunkt ist einmal die Wahrscheinlichkeit, dass ein gegebenes Wort mit Wahrscheinlichkeit P die Wortart POS1 hat. Die Wahrscheinlichkeit der Wortartenübergänge werden dann berechnet (z.b. indem man manuell disambiguiert ODER abwechselnd manuell disambiguiert, tagged und korrigiert) und über mehrere Wörter hinweg (TriTupel, QuadTupel) die maximale Wahrscheinlichkeit der Übergänge ermittelt. Grundlage: Hidden Markov Modelle (HMM) basieren auf MarkovKetten. MarkovKetten entsprechen endlichen Automaten, bei denen jede Kante mit einer Wahrscheinlichkeit versehen ist. Die Summe aller Kanten, die den selben Knoten verlassen, muss 1 ergeben. sind eine Verallgemeinerung von MarkovKetten, in denen ein gegebener Knoten (Zustand) mehrere ausgehende Kanten hat, die das gleiche Symbol tragen. Deshalb ist es nicht möglich, aufgrund der Ausgabe zu erschliessen, welche Zustände berührt wurden (> hidden). die Wahrscheinlichkeit jedes Zustands hängt ab vom Vorgängerzustand. die Hidden Markov Modelle sind ein stochastischer Prozess, der über den MarkovKetten liegt und Sequenzen von Zuständen berechnet. Aus all diesen Sequenzen findet man mit Hilfe spezieller Algorithmen die beste Sequenz (z.b. mit ViterbiAlgorithmus). 12

Ein Beispiel aus: [Feldweg 96]. die auf der Bank sitzende Frau. folgende Mehrdeutigkeiten: (.) die auf der Bank sitzende Frau (.) REL ART DEM PREP PREF REL ART DEM N ADJ N PREF = Verbpräfix, entsprechend PTKVZ (Partikel Verbzusatz) im STTS Tagset 13

Man ordnet den Übergängen zwischen den Wortarten Wahrscheinlichkeiten zu. 14

Schliesslich wird jeder WortformWortartKombination eine Wahrscheinlichkeit zugeordnet: Für jeden möglichen Pfad durch ein solches Netz lässt sich durch Multiplikation der auf dem Pfad liegenden Werte eine Gesamtwahrscheinlichkeit berechnen. 15

Formal betrachtet handelt es sich bei diesem Verfahren um ein HiddenMarkovModell erster Ordnung. Ein solches Modell ist definiert über: 1. die Menge von n Symbolen V = {w 1,..., w n } In unserem Beispiel bildet das Vokabular (= die Menge der Wortformen) die Menge V. 2. die Menge von m Zuständen S = {s 1,..., s m } Diese Menge entspricht den möglichen Wortarten. 3. einer Menge von m 2 Übergangswahrscheinlichkeiten zwischen Zuständen P = {p(s 1 s 1 ),..., p(s i s j )}, 1 < i,j, < m Hier die Übergangswahrscheinlichkeiten zwischen Wortarten. 4. einer Menge von Observationswahrscheinlichkeiten L = {p(w 1 s 1 ),..., p(w k s l )}, 1 < k < n, 1 < l < m Dies entspricht der Menge der lexikalischen Wahrscheinlichkeiten: gegeben die Wortart s, wie hoch ist die Wahrscheinlichkeit von Wortform w? 5. Für eine gegebene Folge von i Symbolen, kann mit Hilfe dieses Modells die wahrscheinlichste Folge bestimmt werden durch: max(s) vom produkt(j=1 bis i) von p(s j s j1 ) _ p(w j s j ) 16

Beim beschriebenen Modell handelt es sich um ein HiddenMarkovModell erster Ordnung. Übergangswahrscheinlichkeiten werden dabei nur für direkt benachbarte Zustände berücksichtigt (BigramModell). Es sind jedoch auch Modelle höherer Ordnung möglich. Parametergewinnung Das Tagging mittels HMM ist prinzipiell sprachunabhängig. Voraussetzung ist jedoch, dass die in den Gleichungen 14 aufgeführten Parameter bekannt sind. Die Gewinnung der Parameter ist jedoch das eigentliche Problem. 1. Einfach: Bestimmung des Vokabulars 2. Schwieriger: Festlegung des TagSets (Wortartenmenge und abgrenzung). Siehe Diskussion über die Wortartenklassifikation in der 1. Vorlesung. 17

3. Sehr komplex: Gewinnung von Übergangswahrscheinlichkeiten und Observationswahrscheinlichkeiten. Präzise allgemeingültige Werte kennt man nicht. Diese Parameter müssen geschätzt werden (i. A. berechnet aus bereits getaggten Korpora). 1. für die meisten Sprachen sind keine hinreichend grossen, getaggten Textkorpora verfügbar. Möglichkeiten: Verringerung der Anzahl der zu schätzenden Parameter (z.b. individuelle Werte nur für hochfrequente Wortformen; ansonsten Werte für die Ambiguitätsklasse (= Menge aller Wortformen mit den gleichen Tags) berechnen) Gewinnung von Werten aus ungetaggten Textkorpora: zufällige Auswahl von Wahrscheinlichkeiten und Abgleich der gewonnenen Tags mit einem Vollformenlexikon; sich wiederholende Taggingvorgänge 2. vermeintliche Nullübergänge müssen abgefangen werden, denn Nullübergänge haben grosse Auswirkungen. Lösung: Ersetzen der Nullübergänge durch sehr kleine Wahrscheinlichkeiten 3. kein Korpus kann wirklich allgemeingültig und ausgewogen sein 18

Einsatzgebiete für Tagger (nach [Church 93] S.7) Sprachsynthese Spracherkennung Information Retrieval Bedeutungsdisambiguierung Lexikographie 19

Genauigkeit statistischer Tagger Statistische Tagger erreichen eine Genauigkeit von rund 9497% bei einem TagSet wie dem STTS mit rund 50 Tags. Besonderes Handicap für Tagger sind: unbekannte Wörter (d.h. Wortformen, die im Trainingskorpus nicht vorkamen); insbesondere auch fremdsprachige Einschübe weite Abhängigkeiten im Satz, die über das Bigram bzw. TrigramFenster hinausgehen.... weil wir diese Probleme schon kennen/vvfin. Wir sollten diese Probleme schon kennen/vvinf. Die Frauen, die/art Kinder und alte Männer wurden evakuiert. Die Frauen, die/prels Kinder und alte Männer evakuierten, wurden geehrt. Aufzählungen, die keine vollständigen Sätze bilden Vorsicht! Bei Sätzen, die im Durchschnitt ~20 Wörter lang sind, bedeutet eine Fehlerrate von 4%, dass 56% aller Sätze (also jeder zweite Satz) ein falsch getaggtes Wort enthalten. Für eine Fehlerrate von 4% bei den Sätzen müsste die Fehlerrate bei den Wörtern auf 0,2% sinken. 20

Tagger zum Testen Ein frei verfügbarer Tagger für das Deutsche, der mit statistischen Methoden arbeitet, findet sich im MorphySystem der Universität Paderborn. Dieser Tagger läuft unter MSDOS und Windows95 auf PCs. Ein weiterer verfügbarer Tagger für das Deutsche wurde an der Universität Stuttgart entwickelt. Er nennt sich TreeTagger und läuft unter SunOS und Linux. Neuerdings gibt es auch eine Windows Demoversion. Gerold Schneider, Martin Volk 21