Tagging mit Hidden Markov Models und Viterbi-Algorithmus

Größe: px

Ab Seite anzeigen:

Download "Tagging mit Hidden Markov Models und Viterbi-Algorithmus"

Felix Baumann
vor 8 Jahren
Abrufe

1 Tagging mit Hidden Markov Models und Viterbi-Algorithmus Annelen Brunner, Stephanie Schuldes, Nicola Kaiser, Olga Mordvinova HS Parsing SoSe 2003 PD Dr. Karin Haenelt

2 Inhalt Ziel des Seminarprojekts Theorie: Aufbau von HMMs, Eignung zum Tagging, Vorstellung des Viterbi-Algorithmus Praxis: Erläuterung der Implementierung Demonstration des Taggers Evaluation des Algorithmus und des Programms

3 Ziel des Seminarprojekts Implementierung eines POS-Taggers mit Hilfe eines Hidden Markov Models und des Viterbi-Algorithmus Test der Theorien in der Praxis: was geht und wie gut?

4 Aufgaben Finden eines geeigneten Korpus Überlegungen zur Implementation in Python Aufbau eines HMM: Datenstrukturen, Berechnung der Wahrscheinlichkeiten Anpassung des Viterbi-Algorithmus an die Datenstrukturen

5 Theorie (1): Hidden Markov Model Revisited

6 Markov Eigenschaften Limited Horizon: P (X P (X i+1 = t j i+1 t j X X 1,..., X 1,..., i ) = P (X i ) P (X i+1 = t j i+1 t j X X i ) i ) Time Invariance: P (X P (X i+1 = t j i+1 = t j X X i ) = P (X i ) = P (X 2 = t j 2 = t j X X 1 ) 1 ) Manning/Schütze 2000

7 Aufbau und Training des Zustandsfolge ist nicht beobachtbar, sondern nur die erzeugte Ausgabe Ergänzung des Visible Markov Models um Emissionswahrscheinlichkeiten Modelltypen: Zustandsemission Übergangsemission HMM

8 Hidden Markov Model Formal: 5-Tupel (S, (S, K, K, Π, Π, A, A, B) B) S = {s 1,..., s N } K = {k 1,..., k M } = {1,..., M} Π = {π i }, i S A = {a ij }, i, j S B = {b ijk }, i, j S, k K Menge der Zustände Ausgabealphabet Wahrscheinlichkeiten der Startzustände Wahrscheinlichkeiten der Zustandsübergänge Wahrscheinlichkeiten der Symbolemissionen Manning/Schütze 2000

9 HMM: Aufgaben und Anwendungen 1. Gegeben: Modell, gesucht: Wahrscheinlichkeit einer Beobachtung µ P (O µ) 2. Gegeben: O,, gesucht: Zustandsfolge, die Beobachtung am besten beschreibt (-> Viterbi-Algorithmus) µ (X 1,..., X T +1 ) 3. Gegeben: O, mögliche Modelle, gesucht: bestes Modell aus Trainingsdaten

10 Tagging mit HMMs Idee: Markovkette von Tags, die Wörter erzeugt Bigramm-Tagger: Zustände sind Tags Trigramm-Tagger: Zustände sind Paare von Tags

11 Hidden Markov Model Übergangsmatrix Emissionsmatrix Anfangswahrscheinlichkeiten Karin Haenelt: Hidden Markov Models. Kursfolien, 2002.

12 Theorie (2): Viterbi-Algorithmus Revisited

13 Best-Path Search Naive Suche: Berechnung aller Pfade (katastrophale Laufzeit) Viterbi-Suche: Beschränkung auf die besten bzw. wahrscheinlichsten Pfade

14 Viterbi-Algorithmus (1) Der Viterbi-Algorithmus sucht die wahrscheinlichste Sequenz der verborgenen Zustände des HMMs zu einer gegebenen Beobachtung. Vgl. Karin Haenelt: Der Viterbi-Algorithmus, 2002.

15 Viterbi-Algorithmus (2) Vorgehensweise des Viterbi-Algorithmus bei der Suche nach dem besten Pfad: Dabei: 0 -> unwahrscheinliche Pfade > 0 -> Wahrscheinlichkeit des wahrscheinlichsten Pfades Vgl. Karin Haenelt: Der Viterbi-Algorithmus, 2002.

16 Viterbi-Algorithmus (3) Manning/Schütze 2000

17 Viterbi-Algorithmus (4) Kernfunktionen des Algorithmus: δ i+1 (t j ) ψ i+1 (t j ) Berechnung von P des wahrscheinlichsten Pfades zu einem Knoten im Trellis Ermittlung des Vorgängerknotens auf dem wahrscheinlichsten Pfad

18 Viterbi-Algorithmus: Anwendungsbereiche In der Sprachverarbeitung: In anderen statistikbasierten Anwendungen: Spracherkennung Bildverarbeitung Sprachgenerierung, TTS Genetik, Molekularbiologie Tagging Kryptographie...

19 Praxis: Unser HMM

20 Übersicht Warum Python? NEGRA-Korpus Programmaufbau Graphische Darstellung Aufbau des HMM Implementierung des Viterbi-Algorithmus

21 Warum Python? sehr gut zur Stringverarbeitung Lehrsprache am LCL Datenstrukturen (dictionaries, tuples etc.) Methoden und Module (string, pickle)

22 NEGRA-Korpus Verwendung des NEGRA-Korpus bereits getaggt, daher kein Lernen der Tags nötig gut strukturierte Darreichung Nachteil: relativ klein (ca Tokens, Sätze, ca. 55 Tags) Aufteilung in Trainingskorpus (9 000 Sätze) und Testkorpus (1 027 Sätze)

23 NEGRA-Korpus Auszug aus negra-corpus.tt Tag $( KON APPR PDAT NN VVFIN Bedeutung Sonstige Satzzeichen; satzintern Nebenordnende Konjunktion Präposition; Zirkumposition links Attribuierendes Demonstrativpronomen Normales Nomen Finites Verb, voll $, Komma NE $. Eigennamen Satzbeendende Interpunktion

24 Programmaufbau NEGRA-Korpus: Trainigsdaten (9 000 Sätze) Eingabe (Satz/Text) HMM Start-, Übergangs- & Emissionswahrscheinlichkeiten Sentence Splitter Viterbi- Algorithmus Ausgabe

25 Erzeugung des HMM Berechnung der Startwahrscheinlichkeiten Übergangswahrscheinlichkeiten Emissionswahrscheinlichkeiten

26 Datenstrukturen (1) build_startprob.py: erzeugt ein Dictionary mit Startwahrscheinlichkeiten {tag1:startprob1, tag2:startprob2,...}

27 Datenstrukturen (2) build_transdict.py: erzeugt ein Dictionary mit Wahrscheinlichkeiten für die Übergänge zwischen den Zuständen/Tags {(tag1, tag2):prob,...}

28 Datenstrukturen (3) build_outputdictsent.py: erzeugt verschachtelte Dictionaries für die Emissionswahrscheinlichkeiten {tag1:{wort1:prob1, wort2:prob2...}, tag2:{...},...}

29 Viterbi- Implementierung (1) Vorbereitungsphase: Sentence Splitter spaltet Eingabetext in Sätze splitsentence.py (allgemein), splitnegra.py (NEGRA-spezifisch)

30 Methoden der Viterbi-Klasse: makebackptrdict initialize: berechnet init: lädt HMM für weitere Verarbeitung Satzanfang Viterbi- Implementierung (2) für den computeprobofpath: gibt argmax(probs) und max(probs) zurück Ω viterbi: der eigentliche Algorithmus

31 Evaluation (1) Da unser Programm auf das NEGRA-Korpus zugeschnitten ist, gab es dort keine großen Schwierigkeiten (z.b. Satzendeproblem). Die Funktionen für den HMM-Aufbau sind allerdings nicht für anders strukturierte Dateien verwendbar, da sie speziell mit dem Format (vgl. Folie 23) einiger NEGRA- Dateien arbeiten. (Eine Anpassung wäre aber nicht schwer.)

32 Evaluation (2) Unknown Word Problem: grundsätzlich Heuristik für unbekannte Wörter nötig naive Lösung: Default-Wahrscheinlichkeit für unbekanntes Wort großgeschrieben: Nomentag kleingeschrieben: Verbtag, Adjektivtag

33 Literatur (1) Manning, Christopher D. & Hinrich Schütze: Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, Haenelt, Karin: Der Viterbi-Algorithmus im Part-of-Speech Tagging. Kursfolien Haenelt, Karin: Der Viterbi-Algorithmus. Eine Erläuterung der formalen Spezifikation am Beispiel des Part-of-Speech Tagging. Kursskript Haenelt, Karin: Hidden Markov Models. Kursfolien

34 Literatur (2) Beinhorn, Thorsten & Suzanne Heiob: Der Viterbi-Algorithmus. Seminarreferat Carlberger, Johan & Viggo Kann: Implementing an Efficient Part-of-Speech Tagger Computerlinguistik und Sprachtechnologie / Kai-Uwe Carstensen; et al. (eds.). Heidelberg; Berlin: Spektrum, 2001.

Ähnliche Dokumente

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch