Einführung in die Computerlinguistik

Transkript

1 Einführung in die Computerlinguistik Spracherkennung und Hidden Markov Modelle Dozentin: Wiebke Petersen WS 2004/2005 Wiebke Petersen Einführung in die Computerlinguistik WS 04/05

2 Spracherkennung

3 Merkmalsextraktion 4

4 Frequenzdiagramme (Beispiele) Die Abbildung zeigt den Unterschied der Frequenzdiagramme für den kontinuierlich (1) und den diskret (2) gesprochenen Satz "Die Sonne lacht".

5 Frequenzdiagramme (Segmentierungsproblem)

6

7 Hidden Markov Modell HMM für 'haben'

8 9 Karin Haenelt, Hidden Markov-Modelle, Markov-Kette Definition 3 Eine Markov-Kette ist ein spezieller stochastischer Prozess, bei dem zu jedem Zeitpunkt die Wahrscheinlichkeiten aller zukünftigen Zustände nur vom momentanen Zustand abhängen (= Markov-Eigenschaft) d.h. es gilt: ) ( ),..., ( t t t t t t t t x X x X P x X x X x X x X P = = = = = = = Brants, 1999: 30

9 Hidden Markov-Modell: Beispiel in einem Text lassen sich nur die Ausgaben (= produzierte Wörter) beobachten (visible) die Sequenz von Zuständen (= Wortarten), die die Wörter ausgeben, (Satzmuster) lässt sich nicht beobachten (hidden) mehrere Sequenzen können dieselbe Ausgabe erzeugen: nomn auxv part wir werden geschickt nomn kopv adje wir werden geschickt.3 x.2 x.4 x.3 x.2 x.4 = Karin Haenelt, Hidden Markov-Modelle, x.2 x.3 x.5 x.2 x.2 =

10 Ein Hidden Markov-Modell Übergangsmatrix Emissionsmatrix Startwahr scheinlich keit X t X t+1 o t π Adje AuxV KopV Nomn Part geschickt werden wir... Adje AuxV KopV Nomn Part Karin Haenelt, Hidden Markov-Modelle,

11 Hidden Markov-Modell: Gewinnung der Daten Übersicht Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile Karin Haenelt, Hidden Markov-Modelle,

12 Hidden Markov-Modell: Gewinnung der Daten (1) Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile Wir nomn werden auxv geschickt part. Wir nomn werden kopv geschickt adje Karin Haenelt, Hidden Markov-Modelle,

13 Hidden Markov-Modell: Gewinnung der Daten (2) Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile Adje AuxV KopV Nomn Part geschickt werden wir. Adje AuxV KopV Nomn Part Karin Haenelt, Hidden Markov-Modelle,

14 Hidden Markov-Modell: Gewinnung der Daten (3) Annotation eines Corpus Auszählung der Sequenzen Umrechnung der Häufigkeiten in prozentuale Anteile Adje AuxV KopV Nomn Part geschickt werden wir. Adje AuxV KopV Nomn Part Karin Haenelt, Hidden Markov-Modelle,

15 Drei grundlegende Aufgaben, die mit HMMs bearbeitet werden 1. Dekodierung: Wahrscheinlichkeit einer Beobachtung finden brute force Forward-Algorithmus / Backward-Algorithmus 2. Beste Pfad-Sequenz finden brute force Viterbi-Algorithmus 3. Training: Aufbau des besten Modells aus Trainingsdaten Karin Haenelt, Hidden Markov-Modelle, Manning/Schütze, 2000: 325

16 A1: Wahrscheinlichkeit einer Beobachtung finden gegeben gesucht eine Sequenz von Beobachtungen O=(wir,werden,geschickt) ein Modell Adje AuxV KopV Nomn Part g schickt werden wir.. Adje AuxV KopV Nomn Part die Wahrscheinlichkeit P( wir, werden, geschickt µ ) P( O µ ) O = ( o1,..., ot) µ = ( A, B, Π) π Karin Haenelt, Hidden Markov-Modelle,

17 A1: Wahrscheinlichkeit einer Beobachtung finden Lösungsweg 1: brute force Für alle möglichen Zustandsfolgen - Berechnung der Wahrscheinlichkeit der Beobachtungen - Summierung der Wahrscheinlichkeiten P( O µ ) = X = X P ( O X, µ ) P( X µ ) 1... X t+ 1 π X 1 T 1 Π a X X b X t t + 1 X t= 1 t t + 1 o t Karin Haenelt, Hidden Markov-Modelle, state transition symbol emission 27 Manning/Schütze, 2000: 326

18 A1: Wahrscheinlichkeit einer Beobachtung finden Lösungsweg 1: brute force: Beispiel P( O µ ) = X 1... X t+ 1 π X 1 T 1 Π a X X b t t + 1 X X t= 1 t t + 1 o t Beispiel für state emission HMM P(wir,werden,geschickt Adje Adje Adje, µ) + P(wir,werden,geschickt Adje Adje AuxV, µ) + + P(wir,werden,geschickt Nomn AuxV Part, µ) + + P(wir,werden,geschickt Nomn KopV Adje, µ) + + P(wir,werden,geschickt Part Part Part, µ) = Karin Haenelt, Hidden Markov-Modelle, =0.0.3 x.2 x.4 x.3 x.2 x.4 = x.2 x.3 x.5 x.2 x.2 = =0.0 =

19 HMM [Aufgabe]: Beste Pfadsequenz finden gegeben gesucht eine Sequenz von Beobachtungen O=(wir,werden,geschickt) ein Modell die wahrscheinlichste Pfadsequenz P( wir, werden, geschickt µ ) O = ( o1,..., ot) µ = ( A, B, Π) Adje AuxV KopV Nomn Part g schickt werden wir.. Adje AuxV KopV Nomn Part π arg x max P( O µ ) Karin Haenelt, Viterbi-Algorithmus

20 HMM [Aufgabe]: Beste Pfadsequenz finden Modellvariante: mit Startsymbol statt mit Tabelle der Startwahrscheinlichkeiten) Adje Adje.2 AuxV.2 KopV.2 Nomn.1 Part.3.3 AuxV KopV Nomn Part g schickt werden wir Karin Haenelt, Viterbi-Algorithmus

21 Karin Haenelt, Viterbi-Algorithmus Ineffiziente Lösung 1 wir Adje werden Adje geschickt Adje 2 geschickt AuxV 3 geschickt KopV 4 geschickt Nom 5 geschickt Part 6 werden AuxV geschickt Adje 7 geschickt AuxV wir Nomn werden AuxV geschickt Part 86 wir Nomn werden KopV geschickt Adje wir Part werden Part geschickt Part Für 3 Beobachtungen und 5 Kategorien 5 3 Schritte

22 Beispiel ineffiziente Suche der besten Lösung P(Adje Adje Adje wir,werden,geschickt, µ) P(Adje Adje AuxV wir,werden,geschickt, µ) P(Nomn AuxV Part wir,werden,geschickt, µ) P(Nomn KopV Adje wir,werden,geschickt, µ) P(Part Part Part wir,werden,geschickt, µ) =0.0.3 x.2 x.4 x.3 x.2 x.4 = x.2 x.3 x.5 x.2 x.2 = = Karin Haenelt, Viterbi-Algorithmus

23 Viterbi-Lösung Kompakte Darstellung der Pfade als Gitter (Trellis) Wiederverwendung partieller Ergebnisse statt Neuberechnung Speichert für jeden Zeitpunkt t die Wahrscheinlichkeit des wahrscheinlichsten Pfades, der zu einem Knoten führt den Vorgängerknoten auf diesem Pfad. wir Adje wir AuxV wir KopV wir Nomn wir Part Karin Haenelt, Viterbi-Algorithmus werden Adje werden AuxV werden KopV werden Nomn werden Part geschickt Adje geschickt AuxV geschickt KopV geschickt Nomn geschickt Part

24 Daten 1: Wahrscheinlichkeit des wahrscheinlichsten Pfades. wir Adje 0 wir AuxV 0 wir KopV 0 wir Nomn0.06 wir Part 0 werden Adje 0 werden AuxV werden KopV werden Nomn0 werden Part 0 geschickt Adje geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part wir Nomn Knoten >0 Wahrscheinlichkeit des wahrscheinlichsten Pfades 0 unwahrscheinlicher Pfad Karin Haenelt, Viterbi-Algorithmus

25 Daten 2: Vorgängerknoten auf wahrscheinlichstem Pfad. wir Adje 0 wir AuxV 0 wir KopV 0 wir Nomn wir Part 0 werden Adje 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part 0 geschickt Adje KopV geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part AuxV wir Nomn Knoten Vorgänger-Knoten auf wahrscheinlichstem Pfad 0 Vorgänger-Knoten auf wahrscheinlichstem Pfad bei P(X i ) = 0 (= unwahrscheinlicher Pfad) Karin Haenelt, Viterbi-Algorithmus

26 Daten 1 und 2: Übersicht. wir Adje 0 wir AuxV 0 wir KopV 0 wir Nomn0.06 wir Part 0 werden Adje 0 werden AuxV werden KopV werden Nomn0 werden Part 0 geschickt Adje geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part wir Adje 0 wir AuxV 0 wir KopV 0 wir Nomn wir Part Karin Haenelt, Viterbi-Algorithmus werden Adje 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part 0 geschickt Adje KopV geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part AuxV

27 Tracing (1): Initialisierung Setzen der Startknoten für Verfolgung - Wahrscheinlichkeit der wahrscheinlichsten Pfade - Vorgängerknoten auf den wahrscheinlichsten Pfaden Karin Haenelt, Viterbi-Algorithmus

28 Tracing (2): 1. Iteration. wir Adje 0 wir AuxV 0 wir KopV 0 wir Nomn0.06 wir Part 0 Funktion δ Berechnung der Wahrscheinlichkeit des wahrscheinlichsten Pfades. wir Adje 0 wir AuxV 0 wir KopV 0 wir Nomn wir Part Karin Haenelt, Viterbi-Algorithmus Funktion ψ Ermittlung des Vorgängerknotens auf dem wahrscheinlichsten Pfad

29 Tracing (3): 2. Iteration. wir Nomn0.06 werden Adje 0 werden AuxV werden KopV werden Nomn0 werden Part 0. wir Nomn werden Adje 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part Karin Haenelt, Viterbi-Algorithmus

30 Tracing (4): 3. Iteration. wir Nomn0.06 werden Adje 0 werden AuxV werden KopV werden Nomn0 werden Part 0 geschickt Adje geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part wir Nomn werden Adje 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part 0 geschickt Adje KopV geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part AuxV Karin Haenelt, Viterbi-Algorithmus

31 Tracing (5): Terminierung und Pfadausgabe. wir Nomn0.06 werden Adje 0 werden AuxV werden KopV werden Nomn0 werden Part 0 geschickt Adje geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part wir Nomn werden Adje 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part 0 geschickt Adje KopV geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part AuxV Karin Haenelt, Viterbi-Algorithmus