Der Viterbi-Algorithmus im Part-of-Speech Tagging

Transkript

1 Der Viterbi-Algorithmus im Part-of-Speech Tagging Kursfolien Karin Haenelt 1

2 Themen Zweck des Viterbi-Algorithmus Hidden Markov Model Formale Spezifikation Beispiel Arc Emission Model State Emission Model Beispiel für diese Folien Aufgabe: Suche der wahrscheinlichsten Interpretation einer Beobachtung Ineffiziente Lösung Viterbi-Algorithmus Prinzip Notation Algorithmus Funktionen δ und ψ Implementierung mit den Arrays SeqScore und BackPtr 2

3 Zweck Finde - für eine gegebene Beobachtung - in einem Hidden Markov Model - die wahrscheinlichste Sequenz verborgener Zustände nomn auxv part.1 punkt nomn kopv ade.1 punkt wir werden geschickt.3 x.3 x.2 x.2 x.3 x.1 x.4 = wir werden geschickt.3 x.3 x.2 x.2 x.5 x.1 x.2 =

4 Beispielanwendungen Sprachverarbeitung Part-of-Speech Tagging Worterkennung Kryptographie 4

6 Hidden Markov Model Formal spezifiziert durch Fünf-Tupel S = { s1,..., sn} K = { k1,..., km } = {1,..., M} Π = {π i}, i S A = { ai}, i, S B = { bik}, i, S, k K N = 1 M k = 1 ai bik b ik = P(O n = k X n = s i, X n+1 = s ) = 1 = 1 ( S, K, Π, A, B) Menge der Zustände Ausgabe-Alphabet Wahrscheinlichkeiten der Startzustände Wahrscheinlichkeiten der Zustandsübergänge Wahrscheinlichkeiten der Symbolemissionen 6 Manning/Schütze, 2000: 326

7 HMM: Arc Emission Model: Darstellung als Wahrscheinlichkeitsmatrix Übergangsmatrix Start X t X t+1 π Ade AuxV KopV Nomn Part Ω Ade.2 Emissionsmatrix o t Punkt geschickt werden wir AuxV KopV.2 Emissionsmatrix o t Punkt geschickt werden wir Nomn Part Ω

8 Arc Emission Model: Spezialfall: State Emission Model Übergangsmatrix X t X t+1 Ade AuxV Ade.2 Emissionsmatrix o t geschickt werden wir AuxV... Wenn die Emissionsverteilungen für alle Übergänge aus einem Zustand identisch sind, entspricht dies einem State Emission Modell.1 Emissionsmatrix o t geschickt werden wir

9 HMM: Beispiel für diese Folien Übergangsmatrix Emissionsmatrix Startwahrscheinlichkeit X t X t+1 o t π Ade AuxV KopV Nomn Part Ω geschickt werden wir... Ade AuxV KopV Nomn Part Ω Alternative: an Stelle von Startwahrscheinlichkeiten - dem zu analysierenden Text einen Punkt (Kategorie Ω) voranstellen - und nur mit den Übergangs- und Emissionswahrscheinlickeiten arbeiten Karin Haenelt, Hidden Markov-Modelle, ( ) 9

11 HMM [Aufgabe]: Beste Pfadsequenz finden gegeben eine Sequenz von Beobachtungen O=(wir,werden,geschickt) ein Modell Übergangsmatrix Emissionsmatrix Startwahr- scheinlich- keit X t X t+1 o t π Ade AuxV KopV Nomn Part Ω geschickt werden wir... Ade AuxV KopV Nomn Part Ω O = ( o1,..., ot) µ = ( A, B, Π) gesucht die wahrscheinlichste Pfadsequenz P( wir, werden, geschickt µ ) arg max P( X O, µ ) X 11

13 Ineffiziente Lösung 1 Ω wir Ade werden Ade geschickt Ade 2 geschickt AuxV 3 geschickt KopV 4 geschickt Nom 5 geschickt Part 6 werden AuxV geschickt Ade 7 geschickt AuxV wir Nomn werden AuxV geschickt Part 86 wir Nomn werden KopV geschickt Ade wir Part werden Part geschickt Part Für 3 Beobachtungen und 5 Kategorien 5 3 Schritte 13

14 Beispiel ineffiziente Suche der besten Lösung P(Ade Ade Ade wir,werden,geschickt, µ) P(Ade Ade AuxV wir,werden,geschickt, µ) P(Nomn AuxV Part wir,werden,geschickt, µ) P(Nomn KopV Ade wir,werden,geschickt, µ) P(Part Part Part wir,werden,geschickt, µ) =0.0.3 x.2 x.4 x.3 x.2 x.4 = x.2 x.3 x.5 x.2 x.2 = =0.0 14

16 Viterbi-Lösung Kompakte Darstellung der Pfade als Gitter (Trellis) Wiederverwendung partieller Ergebnisse statt Neuberechnung Speichert für eden Zeitpunkt t die Wahrscheinlichkeit des wahrscheinlichsten Pfades, der bis zu einem Knoten führt den Vorgängerknoten auf diesem Pfad wir Ade werden Ade geschickt Ade wir AuxV werden AuxV geschickt AuxV. Ω wir KopV werden KopV geschickt KopV wir Nomn werden Nomn geschickt Nomn wir Part werden Part geschickt Part 16

17 Viterbi-Algorithmus: Prinzip: Funktionen δ und ψ δ: bester Pfad zu Zustand in Zeitpunkt i wir Ade 0 wir AuxV 0. Ω wir KopV 0 wir Nomn0.06 wir Part 0 werden Ade 0 werden AuxV werden KopV werden Nomn0 werden Part 0 geschickt Ade geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part = Ade = AuxV = KopV = Nomn = Part ψ: Vorgänger auf bestem Pfad zu Zustand in Zeitpunkt i gemäßδ wir Ade 0 wir AuxV 0. Ω wir KopV 0 wir Nomn Ω wir Part 0 werden Ade 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part 0 geschickt Ade KopV geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part AuxV i=1 i = 2 i = 3 i = 4 17

18 δ 1 1. Initialisierung Viterbi-Algorithmus: Prinzip: Schritte 2. Induktion: Berechnung von δ und ψ über den Pfad δ 3. Terminierung u. Pfadausgabe i+1 δ i+1 δ i+1. Ω wir Ade 0 wir AuxV 0 wir KopV 0 wir Nomn0.06 wir Part 0 werden Ade 0 werden AuxV werden KopV werden Nomn0 werden Part 0 geschickt Ade geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part Ω wir Ade 0 wir AuxV 0 wir KopV 0 wir Nomn Ω wir Part 0 werden Ade 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part 0 geschickt Ade KopV geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part AuxV 18

19 Viterbi-Algorithmus: Notation Der Algorithmus wird für das Beispiel des part-of-speech-tagging spezifiziert es gelten folgende Entsprechungen: - Zustand: tag - Emission: Wort - Beobachtung: Satz w i t i t T n Wort an Position i tag von Wort i.tes tag in der Menge der tags Anzahl der tags in der Menge der tags Länge des Satzes 19

20 Spezifikation des Algorithmus 1 comment: Given: a sentence of length n 2 comment: Initialization 3 δ 1 ( Ω) = δ 1( t) = 0.0 for t Ω 5 comment: Induction 6 for i := 1 to n step 1 do 7 for all tags t do k k 8 δi + 1( t ) : = max [ δ 1 k T i ( t ) P( wi + 1 t ) P( t t )] k 9 ψi + 1( t ) : = arg max [ δ 1 k T i ( t ) P( wi + 1 t ) P( t t 10 end 11 end 12 comment: Termination and path-readout 13 X n + 1 = arg max1 T δ n+ 1( ) 14 for := n to 1 step -1 do 15 X = ψ +1 ( X + 1) 16 end 17 P ( X1,..., X n ) = max1 T δ n+ 1( t ) )] 20 Manning/Schütze, 2000: 350 k

21 Funktion δ δ i + 1( = δ 1 k T i i+ 1 k t ) : max [ ( t ) P( w t ) P( t t k )] δ: bester Pfad zu Zustand in Zeitpunkt i berechnet für eden Punkt im Gitter (trellis) die Wahrscheinlichkeit des wahrscheinlichsten Pfades, der bis zu diesem Knoten führt 21

22 . Ω wir Ade 0 wir AuxV 0 wir KopV 0 wir Nomn0.06 wir Part 0 δ Funktion δ i + 1( = δ 1 k T i i+ 1 k t ) : max [ ( t ) P( w t ) Wort 2 = wir P( t t k )] (t ) := max k 1 k T [ ( t ) k δ w i t ) P ( t t ) i P ( + 1 Vorgängerknoten aktueller Knoten max. Prob. Emissions-Prob. Transition-Prob. Ade - Ade δ 1( Ade) 0.0 P(wir Ade) 0.0 P(Ade Ade) AuxV δ ( 1 ) P(Ade AuxV) KopV δ 1( KopV ) P(Ade KopV) Nomn δ ( 1 ) P(Ade Nomn) Part δ ( 1 ) P(Ade Part) Ω δ ( 1 ) P(Ade Ω ) P(wir Auxv) 0.0 Nomn - Ade δ 1( Ade) 0.0 P(wir Nomn) 0.2 P(Nomn Ade) AuxV δ ( 1 ) P(Nomn AuxV) KopV δ 1( KopV ) P(Nomn KopV) Nomn δ ( 1 ) P(Nomn Nomn) Part δ ( 1 ) P(Nomn Part) Ω δ ( ) P(Nomn Ω ) Ω

23 Funktion ψ ψ i + 1( = δ 1 k T i i+ 1 k t ) : arg max [ ( t ) P( w t ) P( t t k )] ψ: bester Vorgänger zu Zustand in Zeitpunkt i gemäßδ ermittelt für eden Punkt im Gitter (trellis) den Vorgängerknoten auf dem wahrscheinlichsten Pfad, der bis zu diesem Knoten führt 23

24 . Ω wir Ade 0 wir AuxV 0 wir KopV 0 wir Nomn Ω wir Part 0 δ Funktion ψ i + 1( = δ 1 k T i i+ 1 k t ) : max [ ( t ) P( w t ) Wort 2 = wir P( t t k )] (t ) := max k 1 k T [ ( t ) k δ w i t ) P ( t t ) i P ( + 1 Vorgängerknoten aktueller Knoten max. Prob. Emissions-Prob. Transition-Prob. Ade - Ade δ 1( Ade) 0.0 P(wir Ade) 0.0 P(Ade Ade) AuxV δ ( 1 ) P(Ade AuxV) KopV δ 1( KopV ) P(Ade KopV) Nomn δ ( 1 ) P(Ade Nomn) Part δ ( 1 ) P(Ade Part) Ω δ ( 1 ) P(Ade Ω ) P(wir Auxv) 0.0 Nomn - Ade δ 1( Ade) 0.0 P(wir Nomn) 0.2 P(Nomn Ade) AuxV δ ( 1 ) P(Nomn AuxV) KopV δ 1( KopV ) P(Nomn KopV) Nomn δ ( 1 ) P(Nomn Nomn) Part δ ( 1 ) P(Nomn Part) Ω δ ( ) P(Nomn Ω ) Ω

25 Funktion δ und Datenstruktur SeqScore. Ω wir Ade 0 wir AuxV 0 wir KopV 0 wir Nomn0.06 wir Part 0 werden Ade 0 werden AuxV werden KopV werden Nomn0 werden Part 0 geschickt Ade geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part SEQSCORE(,i): Speicherung der Ergebnisse von δ Tag Ade AuxV KopV Nomn Part Ω Wort i wir werden geschickt

26 Funktion ψ und Datenstruktur BackPtr. Ω wir Ade 0 wir AuxV 0 wir KopV 0 wir Nomn Ω wir Part 0 werden Ade 0 werden AuxV Nomn werden KopV Nomn werden Nomn0 werden Part 0 geschickt Ade KopV geschickt AuxV 0 geschickt KopV 0 geschickt Nomn0 geschickt Part AuxV BackPtr(,i): Speicherung der Ergebnisse von ψ Tag Ade AuxV KopV Nomn Part Ω Wort i 1. 2 wir 6 3 werden geschickt

27 Terminierung und Pfadausgabe SEQSCORE(,i): Speicherung der Ergebnisse von δ Tag Ade AuxV KopV Nomn Part Ω Wort i wir werden geschickt BackPtr(,i): Speicherung der Ergebnisse von ψ Tag Ade AuxV KopV Nomn Part Ω Wort i 1. 2 wir 6 3 werden geschickt

28 Versionen V 3.0: V 2.0: V 1.0:

29 Literatur Allen, James (1995): Natural Language Understanding. 2nd edition. Addison-Wesley Publishing Co. Haenelt, Karin (2007): Der Viterbi-Algorithmus. Eine Erläuterung der formalen Spezifikation am Beispiel des Part-of-Speech Tagging. Kursskript. ( ) Tutor.doc Tutor.htm Manning, Christopher D.; Schütze, Hinrich (1999): Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press. (vgl.: Viterbi, Andrew J. (1967): Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. In: IEEE Transactions on Information Theory IT-13, S