Domenico Strigari, Byambasuren Terbish, Bilal Erkin

Transkript

1 Hidden Markov Modelle Domenico Strigari, Byambasuren Terbish, Bilal Erkin

2 Hidden Markov Modelle (HMM) i. Geschichte ii. Markovkette iii. Wahrscheinlichkeitsgrundlagen iv. HMM Theorie v. Spracherkennung vi. Forward Algorithmus vii. Viterbi Algorithmus viii. Part of Speech Tagger ix. Ausblick von Bilal Erkin, Domenico Strigari und Terbish Biambasuren Proseminar Künstliche Intelligenz Universität zu Köln SS2009 Mittwoch, 8. Juli 2009

3 Andrei Andrejewitsch Markow ( ) 1922) Universität in St. Petersburg, an der Fakultät für Physik und Mathematik 1885 Habilitationsschrift Über einige Anwendungen algebraischer Kettenbrüche Ab 1886 Professor an der Universität in St. Peterburg 1913 Ansatz über Berechnung der Buchstabensequenzen in russischer Literatur (A.A.Pushkin Eugen Onegin ) -> stochastischer Markow-Prozess Wesentliche Beiträge zur Wahrscheinlichkeitstheorie und Analysis

4 "verspätete" westliche Rezeption von Markovs Forschungen in den USA Hidden Markow Modelle (HMM) und andere Markow-Prozesse Bedeutung erst mit der Verbreitung der Computertechnologie ab 80er bis heute sehr populär

5 Eugen Onegin A.S.Puschkin Seine Untersuchung betrifft russische Buchstaben ohne Sonderzeichen (1 Kapitel und 16 Paragraphen des 2 Kapitels) Zerlegt in 200 einzelne Folgen, je 100 Buchstaben 7 Wahrscheinlichkeitsparameter, die anhand der Häufigkeiten der Vokale, Konsonanten und ihren Kombinationen, geschätzt wurden Ergebnisse von Häufigkeiten durch entsprechende Zeilensumme geteilt in einer Tabelle eingetragen -> Statistische Charakterisierung jedes Buchstaben im Text mit Wahrscheinlichkeit für jeden möglichen Nachfolgebuchstaben

6 7 Wahrscheinlichkeitsparameter in der Eugen Onegin Forschung p - Wahrscheinlichkeit, dass ein Buchstabe ein Vokal ist p - Vokal p 1 - Vokal Vokal p 0 - Konsonant Vokal p 1, 1 - (Vokal Vokal) Vokal p 1, 0 - (Vokal Konsonant) Vokal p 0, 1 - (Konsonant Vokal) Vokal p 0, 0 - (Konsonant Konsonat) Vokal Der Wert von p wird durch das Zählen der Buchstabenkombinationen geschätzt.

7 Ergebnisse der Markov Forschung an englischer Übersetzung des Eugen Onegin (35 Strophen = 430 Zeilen)

8 Tabellen mit absoluten und relativen Häufigkeiten von Buchstabenpaaren

9 Statistische Daten dynamischer Vorgang Startbuchstaben auswählen Gemäß des Wahrscheinlichkeitswertes den Nachfolgebuchstaben wählen Den Vorgang wiederholen für den neugewählten Buchstaben

10 Ergebnis des dynamischen Vorgangs - statistisch identischer Text

11 Stochastischer Prozess Stochastischer Prozess ist eine mathematische Beschreibung von zeitlich geordneten, zufälligen Vorgängen. Der Vorgang besteht in einem wiederholten Springen von einem Zustand zum anderen, wobei die Wahl des nächsten Zustands zufällig ist. Wiederholte Beobachtungen des Vorgangs führen auf Grund des Zufallsfaktors zu unterschiedlichen Ergebnissen. Durch Markov erstmalig beschriebene stochastische Prozesse werden als Markov-Ketten bezeichnet

12 Markov-Kette Eine spezielle Klasse von stochastischen Prozessen. Ziel: Wahrscheinlichkeiten für das Auftreten zukünftiger Ereignisse anzugeben. Eigenschaft: bei Kenntnis der gesamten oder begrenzten Vorgeschichte des Prozesses sind Prognosen über die zukünftige Entwicklung möglich.

13 Markov-Kette erster Ordnung Die Zukunft des Systems hängt nur von der Gegenwart (dem aktuellen Zustand) und nicht von der Vergangenheit ab. ->Gedächtnislosigkeit oder Eigenschaft der Markov- Kette Die Markov Kette erster Ordnung ist die einfachste Art der Form der Markov-Prozesse. Vergangenheiten werden berücksichtigt (erweiterte Markov-Eigenschaft).

14 Markov-ModellModell Ist ein Endlicher Automat, der sich bei der Wahl zwischen zwei oder mehr Listen nach vorher festgelegten Wahrscheinlichkeitswerten entscheidet (bsw. für Liste von A besteht eine Chance von 0,02 und für Liste von B 0,3).

15 Anwendungen der Markov-Kette Biologie: Die Ausbreitung von Arten und ihre Wechselwirkungen. Physik: Die Bewegung von Staubteilchen in der Luft (Brownsche Bewegung). Chemie: Die Sequenzberechnung in DNS-Molekülen. Informatik: Die Analyse von Computer-Netzwerken und Spracheingaben Ökonomie: Die Dynamik von Börsenkursen und Branchenindizes Logistik und Verkehr: Die Analyse von Warteschlangen und Verkehrsnetzwerken Qualitäts- und Sicherheitstechnik: Die Verfügbarkeit und Sicherheit von technischen Systemen Soziologie: Die Beschreibung von sozialen Netzwerken und sozialem Verhalten

16 Anwendungsbeispiel Google PageRank Verfahren, welches verlinkte Dokumente in einem vordefinierten Netz bezüglich ihrer Netzintegrität bewertet und gewichtet. Ein Dokument ist um so wichtiger, je häufiger es von anderen verlinkt wird. Wenn die verlinkte Seite selbst einen guten PageRank-Wert hat, dann ist der Link von ihr auf andere Seiten wieder etwas wichtiger. Häufig verlinkte Seiten werden so öfter aufgerufen als weniger stark ins Netz eingebundene und erhalten somit einen höheren Rang.

17 Anwendungsbeispiel Google PageRank

18 Beispiel einer einfachen Markov-Kette

19 Wie groß ist die Wahrscheinlichkeit, dass nach einem sonnigen Tag das Wetter an den folgenden 5 Tagen sonnig, regnerisch, regnerisch, bewölkt, sonnig ist?

20 Markov-Kette 0,375 Sonne 0,25 Regen 0,125 0,675 0,375 0,375 Wolken 0,5 0,25 0,125

21 Markov-Kette P(SRRWS Model) = P(S) P(R S) P(R R) P(W R) P(S W) s a SR a RR a RW a WS = 1 0,25 0,375 0,675 0,375 = 0,0237 0,375 Sonne 0,25 Regen 0,125 0,675 0,375 0,375 Wolken 0,5 0,25 0,125

22 Wahrscheinlichkeit Relative Häufigkeit: -Ereignis A, das bei N-Versuchen m-mal auftaucht. -je mehr Versuche, umso weniger Variation der Ergebnisse -Verallgemeinerung: f(a) = P(A) P(A)=0 P(A)=1 unmögliches Ereignis sicheres Ereignis

23 Wahrscheinlichkeit Bedingte Wahrscheinlichkeit -Wahrscheinlichkeit eines Wertes hängt von der Wahrscheinlichkeit eines anderen Wertes ab. (ohne B kein A) Andere Schreibweise könnte sein:

24 Hidden Markov Modelle definiert als ein stochastisches Modell, das sich durch 2 Zufallsprozesse beschreiben lässt. erste Prozess: Markov-Kette, mit verborgenen Zuständen; zweiter Zufallsprozess: zu jedem Zeitpunkt beobachtbare Ausgabesymbole. Ausgabesymbol = Observation O t

25 Hidden Markov Modell 0,375 0,25 Regen 0,375 0,125 0,675 Sonne 0,375 Wolken 0,5 0,25 0,125 Trocken : 0,6 Trocken : 0,05 Trocken : 0,25 Observationen Eher trocken :0,2 Eher feucht : 0,15 Eher trocken :0,1 Eher feucht : 0,35 Eher trocken :0,25 Eher feucht : 0,25 Feucht : 0,05 Feucht : 0,5 Feucht : 0,25

26 Hidden Markov Modelle Hidden Markov Model ist ein Quintupel. =( ) mit S = {S,S,,S }, endliche Anzahl an Zustände S = {S 1,S 2,,S N }, endliche Anzahl an Zustände V = {V 1,V 2,,V M }, Ausgabealphabet A={a ij }, Übergangswahrscheinlichkeitsmatrix B={b j (k)}, Ausgabewahrscheinlichekitsmatrix i, Startwahrscheinlichkeit von S i

27 Hidden Markov Modelle Wenn Zustandsstartwahrscheinlichkeiten und Übergangswahrscheinlichkeiten des Modells bekannt, lässt sich Auftrittswahrscheinlichkeit einer bestimmten Zustandsfolge berechnen.

28 Hidden Markov Modelle -Wenn Zustandsfolge gegeben, und wir Observationen mit berücksichtigen möchten, und ausrechnen wollen, mit welcher Wahrscheinlichkeit eine Observationsfolge mit einer bekannten Zustandsfolge zusammen auftritt, muss die oben stehende Formel erweitert werden.

29 Hidden Markov Modelle -Da bei Hidden Markov Modellen die Zustände verborgen, und somit die Zustandsfolge unbekannt, kann diese Formel nicht ohne weiteres angewendet werden. -Lösung: nicht eine Zustandsfolge betrachten, sondern alle möglichen Zustandsfolgen berücksichtigen. Diese Formel erlaubt es, ohne Kenntnis der Zustandsfolge, die Auftrittswahrscheinlichkeit der Symbolfolge zu berechnen. (Brute-Force-Methode Laufzeit: O(T N T ))

30 Hidden Markov Modelle - Exponentielle Berechnungen für die möglichen Zustandsfolgen für eine gegebene Observationsfolge -ineffizent, da hohe Rechenleistung 2 Hauptprobleme : 1) Wenn eine Observationsfolge O zu einem HMM gegeben ist, wie lässt sich die Auftrittswahrscheinlichkeit am effizientesten berechnen? 2) Wenn eine Observationsfolge O zu einem HMM gegeben ist, wie lässt sich die verborgene Zustandsfolge ausrechnen?

31 Fragestellungen an ein Hidden Markov Modell 1. Die Wahrscheinlichkeit, dass eine beliebige Zustandssequenz durch eine gegebene Observationssequenz von dem Modell generiert wird 1,O 2,,O T } P(O ) Evaluation 2. Die wahrscheinlichste verborgene Zustandsfolge bei gegebener Observationssequenz? Dekodierung 3. Die Modellparameter derart einstellbar das P(O ) optimiert wird. Training

32 Forward Algorithmus Es wird ein Trainingsset gesucht, welches am besten bzw. wahrscheinlichsten mit dem Gesprochen zusammenpasst (Spracherkennung)

33 Forward Algorithmus Gesucht ist in unserem Beispiel die Wahrscheinlichkeit, dass eine beliebige Zustandssequenz von der Observationssequenz Trocken, Eher Trocken, Eher Feucht, Feucht generiert wird P(O ).

34 Forward Algorithmus S={H,A,B,E,N} H b H (O 1 ) a HA b A (O 2 ) a AB b B (O 3 ) a BE b E (O 4 ) a EN b N (O 5 ) B 3 BE E 4 EN N 5 Diese Berechnung für haben müsste nun N^T oft gemacht werden, also für jede mögliche Zustandsfolge

35 Naives Verfahren O 2 O 1 i S oder W oder R S W R O 3 S W R S W R S W R O 4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=1 (b i (O 1 ) und i zu berücksichtigen) P(S) (+) P(W) (+) P(R)

36 Naives Verfahren O 2 O 1 i S oder W oder R O 3 S W R S W R S W R S W R O 4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=2 (b i (O 1 ) b i (O 2 ) ) P(SS,WS und RS) (+) P(SW,WW und RW) (+) P(SR,WR und RR)

37 Naives Verfahren O 2 O 1 i S oder W oder R O 3 S W R S W R S W R S W R O 4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=3 (b i (O 1 ) b i (O 2 ) b i (O 3 ) ) P(SSS,WSS,RSS,SWS,WWS,RWS,SRS,WRS,RRS) (+) P(SSW,WSW,RSW,SWW,WWW,RWW,SRW,WRW,RRW) (+) P(SSR,WSR,RSR,SWR,WWR,RWR,SRR,WRR,RRR)

38 Naives Verfahren O 2 O 1 i S oder W oder R S W R O 3 S W R S W R S W R O 4 S W R S W R S W R S W R S W R S W R S W R S W R S W R t=4 (b i (O 1 )b i (O 2 ) b i (O 3 )b i (O 4 )) N^T=81 Kombinationsmöglichkeiten einer Zustandsfolge exponentielle Laufzeit

39 Forward Algorithmus Es wird ein Alpha definiert, welcher die Wahrscheinlichkeiten aller vorherigen Zustandsmöglichkeiten abspeichert dadurch wird eine Berechnung dieser im nächsten Schritt nicht mehr nötig

40 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen t=1 t=2 t=3 t=4

41 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen 1 (1)= b 1 (O 1 )

42 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen 1 (2)= b 2 (O 1 )

43 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (3)= b 3 (O 1 )

44 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (1)= ((( ) + ( ) + ( )) 0.2) 2 (1)=( ( 1 (1) a 11 ) + ( 1 (2) a 21 ) + ( 1 (3) a 31 )) b 1 (O 2 )

45 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (2)= ((( ) + ( ) + ( )) 0.25) 2 (2)=( ( 1 (1) a 12 ) + ( 1 (2) a 22 ) + ( 1 (3) a 32 )) b 2 (O 2 )

46 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (3)= ((( ) + ( ) + ( )) 0.1) 2 (3)=((( 1 (1) a 13 ) + ( 1 (2) a 23 ) + ( 1 (3) a 33 )) b 3 (O 2 ))

47 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (1)= ((( ) + ( ) + ( )) 0.15) 3 (1)=((( 2 (1) a 11 ) + ( 2 (2) a 21 ) + ( 2 (3) a 31 )) b 1 (O 3 ))

48 Forward Algorithmus Beispiel Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen Wahrscheinlichkeit der Observationsfolge Trocken, Eher Trocken, Eher Feucht und Feucht liegt bei etwa 0, und dabei jede Zustandsfolge möglich

49 Beispiel N=3 T=4 Laufzeit O(N²T) Berechnungen beim Forward Algorithmus O(NT) Speicherbedarf 36 Berechnungen Naives Verfahren O(2TN^T) 648 Berechnungen

50 Forward Algorithmus Initialisierung : 1 i b i (O 1 Induktion : N t+1 (j) = [ t (i) a ij ] b j (O t+1 ) i = 1 Terminierung : N P(O ) = i= 1 T (i)

51 Viterbi Algorithmus Gesucht ist die wahrscheinlichste verborgene Zustandsfolge bei gegebener Observationssequenz: Trocken, Eher Trocken, Eher Feucht, Feucht.

52 Viterbi Algorithmus Wir definieren ein Delta, welches uns im Vergleich zum Forward Algorithmus nur den wahrscheinlichsten Ausgangszustand heraussucht.

53 Viterbi Algorithmus Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (1)= (2)= (3)=

54 Viterbi Algorithmus Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (1)= max(( ), ( ), ( )) (2)= max (( ), ( ), ( )) (3)= max (( ), ( ), ( )) 0.1

55 Viterbi Algorithmus Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (1)= max (( ), ( ), ( )) (2)= max (( ), ( ), ( )) (3)= max (( ), ( ), ( )) 0.1

56 Viterbi Algorithmus Zust.\Obs. Trocken Eher Trocken Eher Feucht Feucht Sonne Wolken Regen (1)= (2)= (3)= Wahrscheinlichste Zustandsfolge=SSRR

57 Laufzeit Ebenfalls wie beim Forward Algorithmus O(N²T) und Speicheraufwand auch identisch O(NT)

58 Viterbi Algorithmus Initialisierung : 1 i b i (O 1 1 (i) = 0 Rekursion : t (j) = max [ t-1 (i)a ij ]b j (O t t (j) = argmax [ t-1 (i)a ij ] Terminierung : P* = max [ t (i)] q T * = argmax [ t (i)] Pfad (Zustandssequenz) Backtracking : q t * = t+1 (q* t+1 ) t = T-1,T-2,,1

59 Spracherkennung Was ist Spracherkennung? Unter Spracherkennung (engl. speech recognition) versteht man das Erkennen gesprochener Sprache.

60 Spracherkennung Sprecherunabhängige Spracherkennung Keine Trainingsphase Geringer Wortschatz Mehrere Benutzer möglich Sprecherabhängige Spracherkennung Anpassung auf den jeweiligen Benutzer Trainingsphase Keine wechselnden Benutzer möglich

61 Diskrete Sprache Spracherkennung Künstliche Pause zwischen den Wörtern Kontinuierliche Sprache Flüssige Aussprache ohne Pause

62 Bürolärm Spracherkennung Fahrgeräusche Andere Personen Rauschen der Telefonleitung Diese sollten entfernt werden

63 Spracherkennung Wörter die identisch klingen, aber eine andere Bedeutung haben Usw

64 Spracherkennung - Vorverarbeitung Entfernung von Störgeräuschen Entfernung von Sprachsignalen anderer Personen Ziel: Vereinfachung und Beschleunigung der Weiterverarbeitung

65 Spracherkennung - Merkmalsextraktion Blockweise Aufteilung des Audiosignals Abfolge von Merkmalsvektoren

66 Spracherkennung - Untereinheitenvergleich Umwandlung der Merkmalsvektoren in Phoneme, Silben und Wörter Angewendete Sprachmoddelle: Hidden-Markov-Modelle Neuronale Netze

67 HIDDEN-MARKOV MODELLE O F E N

68 HIDDEN-MARKOV MODELLE - II Übergänge zu den nächsten Zuständen enthalten Wahrscheinlichkeitswerte O F E N

69 HIDDEN-MARKOV MODELLE - Ablauf Errechnen eines Phonems und Vergleich mit dem Audiosignal Wiederholdung, falls keine Übereinstimmung

70 HIDDEN-MARKOV MODELLE - Ablauf Ausgabe des Phonems bei Übereinstimmung O

71 HIDDEN-MARKOV MODELLE - Ablauf Übergang zum nächsten Zustand O

72 HIDDEN-MARKOV MODELLE - Ablauf Übergang zum nächsten Zustand O F E N

73 Spracherkennung- HMM -Wörter, Silben oder Phoneme werden durch HMM repräsentiert -2 Ansätze: Ganzwortmodell vs Phonemmodell Ganzwortmodelle: für kleinere spezialisierte Wortschätze Ganzwortmodelle: für kleinere spezialisierte Wortschätze (Bahnauskunft)

74 Ganzwortmodelle Schritte Schritte: -Festlegung eines Vokabulars -Beschaffung von Referenzäußerungen -Worttraining -innere Struktur eines Wortes ist nötig, -Optimierung: Anzahl der Zustände = Anzahl der Phoneme Nachteil: -ein und derselbe Laut, wird immer neu generiert, wenn es in anderen Wörtern vorkommt. unnötiger Speicherplatzbedarf

75 Phonemmodelle -Modellierung von Wortuntereinheiten sind wesentlich flexibler Wörter können nach Baukastenprinzip erstellt werden -Inventar: Gesamtheit der Modelle (Phoneme) -Bei Aufnahme eines Wortes in das Vokabular, wird es in Phoneme unterteilt

76 Phonemmodelle -Aussprachevarianten können eingetragen werden -Probleme bei: Eigennamen, Abkürzungen, Markennamen, elektronische Geräte

77 Kombination zu Wortmodellen -Folge von Phonemen, werden einander angehängt -In der kontinuierlichen Sprache müssen Vorgänger und Nachfolger mit berücksichtigt werden

78 Erkennung -Training: Wortpaare werden empirisch erhoben und Auftrittswahrscheinlichekiten werden als Parameter übergeben -HMM s auch bei Erkennung der Grammatik/ Syntax genutzt

79 Spracherkennung Perspektiven Keinen universellen Spracherkenner Systeme für spezielle Anwendungen Optimierung bei der Entfernung der Umgebungsgeräusche Erkennung unbekannter Wörter

80 Part of Speech Tagger Unter Part-of-speech Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten (engl.: part of speech). Wikipedia

81 Part of Speech Tagger Sie bieten die Möglichkeit: Sätze in Tokens aufzuteilen Alle möglichen Tags für ein Wort zu finden (morphologische Analyse) Eindeutige Wortartklärung der Wörter (Disambiguierung) Training vorhandener Sets oder es können neue angelegt werden

82 Part of Speech Tagger Beispiel: Eingabe: Where is the teacher? Observation Ausgabe: Where_WRB is_vb the_dt teacher_nn? die Ausgabeform ist je nach Tagger unterschiedlich Tags je nach Corpus unterschiedlich (Brown Corpus für Englisch) jeder Corpus hat meist ein unterschiedliches Tagset ein bekanntes Tagset ist das Penn Treebank Tagset

83 Beispiel: Part of Speech Tagger Where is the teacher? Observation Gesucht sind die Wortarten (Zustände) Gesucht sind die Wortarten (Zustände) Where kann sowohl Konjunktion sein, also einleitender Wortbestandteil eines Nebensatzes, als auch ein Adverb im Sinne eines Frage-wortes. Alle anderen Satzbestandteile sind eindeutig einer Wortart zuweisbar.

84 Part of Speech Tagger Beispiel:,where the teacher is. Nebensatz mit Konjunktion Unser Modell ermöglicht es also, die Wortart der Konjunktion auszuschließen, da nach einer Konjunktion in der Regel kein is folgt. Per Training der Modelle lassen sich so neue Sprachen modellieren und somit leßbar machen

85 Schlusswort Vorteile: hervorragendes Werkzeug zum Modellieren von stochastisch berechenbaren Vorgängen die Erreichbarkeit zwischen den Zuständen in beliebig vielen Schritten leicht berechenbar unendlich große Anzahl an Einsatzmöglichkeiten und Anwendungen einfache Definition leichte Erlernbarkeit und Lesbarkeit

86 Nachteile: Schlusswort Mit steigender Komplexität des abzubildenden Systems wächst die Komplexität der Markow- Kette rapide an, sodass sie schnell unübersichtlich bzw. aufwendiger wird Etwaige Nachbesserungen und Korrekturen werden aus obiger Erkenntnis schwieriger und aufwändiger