Hidden-Markov-Modelle als Gewichtete Endliche Automaten

Transkript

1 Hidden-Markov-Modelle als Gewichtete Endliche Automaten Alexander Becker Georg Jähnig 19. Mai 2008 Hauptseminar Theorie semiringgewichteter Automaten Thomas Hanneforth, Kay Würzner Institut für Linguistik Universität Potsdam Zusammenfassung Hidden-Markov-Modelle sind verbreitete stochastische Modelle, die Zufallsprozesse beschreiben. Sie verwenden dazu eigene Algorithmen wie den Forward- und den Viterbi-Algorithmus. Wir dokumentieren, wie Hidden-Markov-Modelle in Gewichtete Endliche Automaten und Transduktoren umgewandelt und wie Forwardund Viterbi-Algorithmus als Semiring dargestellt werden können. Abschließend betrachten wir einzelne nützliche Eigenschaften Gewichteter Endlicher Automaten: deren Determinisierbarkeit, die ɛ-entfernung und das Produkt zweier Automaten. 1

2 Inhaltsverzeichnis 1 Hidden-Markov-Modelle Einführung Ein Beispiel Definition Forward-Algorithmus Aufgabenstellung Formel Algorithmus Backward-Algorithmus Viterbi-Algorithmus Aufgabenstellung Formel Algorithmus Hidden-Markov-Modelle als Gewichtete Endliche Automaten und Transduktoren Gewichtete Endliche Automaten und Transduktoren Definition Semiring Automat für Forward-Algorithmus Umwandlung Semiring Transduktor für Viterbi-Algorithmus

3 2.3.1 Umwandlung Semiring Rechnen mit Automaten Forward-Algorithmus Viterbi-Algorithmus Eigenschaften Gewichteter Endlicher Automaten und Transduktoren Vorteile gegenüber Hidden-Markov-Modellen Determinisierbarkeit ɛ-entfernung Problemstellung Aufbau Nur ein Startzustand Entfernung der ɛ-schleifen Entfernung der restlichen ɛ-übergänge Schnitt und Komposition Grundlegendes Verfahren Idempotente Semiringe Nicht-idempotente Semiringe Schluss 26 Literatur 26 3

4 1 Hidden-Markov-Modelle 1.1 Einführung Hidden-Markov-Modelle (HMMs) sind statistische Modelle, die eine Wahrscheinlichkeitsverteilung über eine Ereignisabfolge generieren / beschreiben. Das Besondere dabei ist, dass die Ursachen für die Beobachtung der Ereignisabfolgen nicht einzusehen sind, sondern verborgen operieren (daher hidden). 1.2 Ein Beispiel Wir nehmen eine Person an, an dessen Wohnort entweder die Sonne scheint (sunny) oder es regnet (rainy). Von diesen Wetterzuständen abhängig geht die Person ihren Aktivitäten nach, entweder geht sie spazieren (walk), einkaufen (shop) oder sie putzt die Wohnung (clean). So geht sie z.b. bei Sonnenschein mit einer Wahrscheinlichkeit von 0.6 spazieren, bei Regen wird sie mit einer Wahrscheinlichkeit von 0.5 putzen. Auch das Wetter ändert sich in Abhängigkeit zum Wetter des Vortages: Wenn es 4

5 z.b. heute regnet, wird es auch morgen mit einer Wahrscheinlichkeit von 0.7 regnen. Schließlich wissen wir noch wie das Wetter am ersten Tag war: Mit 0.6 Wahrscheinlichkeit hat es geregnet, mit 0.4 schien die Sonne. [2] 1.3 Definition Das HMM unseres Beispiels ist so definiert: HMM = (Q, Σ, I, T, E) Q = {rainy, sunny} Σ = {walk, shop, clean} I = {rainy 0.6, sunny 0.4} T = {(rainy, rainy) 0.7,...} E = {(rainy, walk) 0.1,...} Zustände Ausgabe-Alphabet Anfangs-Wahrscheinlichkeiten Übergangs-Wahrscheinlichkeiten Emissions-Wahrscheinlichkeiten Allgemein lassen sich HMMs so definieren: HMM = (Q, Σ, I, T, E) Q = {q 0, q 1,...} Σ = {a 1, a 2,...} I = Q R + T = Q Q R + E = Q Σ R Forward-Algorithmus Aufgabenstellung Wir haben erfahren, dass die Person vorgestern spazieren und gestern einkaufen war. Wir wollen wissen, wie wahrscheinlich diese Abfolge von Tätigkeiten war. Das berechnet uns der Forward-Algorithmus. 5

6 Unsere Beobachtung O ist also eine Abfolge von Emissionen: O = walk, shop O = o 1,..., o O in unserem Beispiel allgemein Diese Beobachtung kann durch 4 mögliche Wetter-Abfolgen generiert worden sein: entweder es hat an beiden Tagen geregnet oder an beiden die Sonne geschienen, oder jeweils abwechselnd. Es gibt also 4 verschiedene Pfade: θ(walk, shop) = {(rainy walk, rainy shop), (sunny walk, sunny shop), (rainy walk, sunny shop), (sunny walk, rainy shop)} Die Pfade kann man auch als Gitter (Trellis) darstellen: Formel Die Wahrscheinlichkeit unserer Beobachtung ist nun die Summe der Wahrscheinlichkeiten aller Pfade, die diese Beobachtung generiert haben: P (O) = (q 1...q O ) θ(o 1...o O ) O I(q 1 ) E(q 1, o 1 ) T (q i 1, q i ) E(q i, o i ) i= Algorithmus Theoretisch müssten wir also die Wahrscheinlichkeiten aller 4 Pfade berechnen und dann addieren. Wenn wir aber im Gitter die Pfade (rainy 6

7 walk, rainy shop) und (rainy walk, sunny shop) betrachten, dann erkennen wir, dass der erste Teil des Pfades bis rainy walk gleich ist. Genau das nutzt der Forward-Algorithmus aus. Der Forward-Algorithmus geht im Gitter alle Pfade gleichzeitig entlang und merkt sich dabei immer für jede Position im Gitter die Wahrscheinlichkeit in der Variable α. Beim nächsten Schritt greift er dann nur auf die Vorgängerα s zurück. Der Algorithmus besteht aus 3 Teilen: α q (1) = I(q) E(q, o 1 ) q Q Initialisierung α q (i) = q Q α q (i 1) T (q, q) E(q, o i ) q Q Induktion P (O) = q Q α q ( O ) Gesamt In unserem Beispiel berechnen wir also im ersten Schritt die Wahrscheinlichkeiten von rainy walk und sunny walk und speichern sie in α rainy (1) und α sunny (1). Im zweiten Schritt nutzen wir zur Berechnung von rainy shop und sunny shop die zuvor berechneten α s. Schließlich addieren wir alle α s der letzten Beobachtung Backward-Algorithmus Eine Abwandlung des Forward-Algorithmus ist der Backward-Algorithmus. Er unterscheidet sich nur darin, dass er nicht von der ersten zur letzten Beobachtung, sondern von der letzten zur ersten Beobachtung berechnet wird: β q ( O ) = 1 q Q Initialisierung β q (i) = q Q β q (i + 1) T (q, q ) E(q, o i ) q Q Induktion P (O) = q Q β q (1) I(q) Gesamt Der Backward-Algorithmus wird beim Baum-Welch-Verfahren benötigt, einem Trainingsverfahren für Hidden-Markov-Modelle. 7

8 1.5 Viterbi-Algorithmus Aufgabenstellung Wir wissen immer noch, dass die Person vorgestern spazieren und gestern einkaufen war. Nun wollen wissen, was das wahrscheinlichste Wetter an diesen zwei Tagen war. Das berechnet uns der Viterbi-Algorithmus Formel Die wahrscheinlichste Abfolge von Wetter-Zuständen unserer Beobachtung ist nun der Pfad mit der höchsten Wahrscheinlichkeit, der unsere Beobachtung generiert hat: θ best (o 1... o O ) = max I(q 1 ) E(q 1, o 1 ) (q 1...q O ) θ(o 1...o O ) O T (q i 1, q i ) E(q i, o i ) i= Algorithmus Der Viterbi-Algorithmus arbeitet nun sehr ähnlich wie der Forward-Algorithmus: Statt die Summe aller bisherigen Pfade zu speichern, merkt er sich die Wahrscheinlichkeit des wahrscheinlichsten Pfades in δ. Zudem speichert er die Zustände dieses Pfades in ψ, um sie nachher wie in der Aufgabenstellung gewünscht auch ausgeben zu können. δ q (1) = I(q) E(q, o 1 ) δ q (i) = max q Q δ q (i 1) T (q, q) E(q, o i ) ψ q (i) = arg max q Q δ q (i 1) T (q, q) E(q, o i ) P (θ best (o 1... o O )) = max q Q δ q( O ) θ best (o 1... o O ) = arg max q Q ψ q(1)... arg max q Q ψ q( O ) 8 q Q Initialisierung q Q q Q Induktion Gesamt

9 2 Hidden-Markov-Modelle als Gewichtete Endliche Automaten und Transduktoren 2.1 Gewichtete Endliche Automaten und Transduktoren Definition Gewichtete Endliche Automaten (Weighted Finite State Automata, WFSA) beschreiben ähnlich wie Endliche Automaten eine Sprache bestehend aus einer Menge von Wörtern, nur dass sie jedem Wort der Sprache auch ein Gewicht zuordnen. Transduktoren (Weighted Finite State Transducer, WFST) können darüberhinaus jedes Wort (Eingabe) in eines oder mehrere andere Wörter (Ausgabe) umwandeln. [4] WFSA = (Q A, Σ A, δ A, I A, P A, F A ) WFST = (Q A, Σ A, A, δ A, I A, P A, F A ) Wir definieren als Beispiel einen Transduktor, der die Sprache bestehend aus dem Wort ab erkennt, ihm das Gewicht 1 zuordnet und es in ce und de umwandelt. 9

10 Q A = {q 0, q 1, q 2 } Zustände Σ A = {a, b} Eingaben A = {c, d, e} Ausgaben δ A = {(q 0, a, c, q 1 ), (q 0, a, d, q 1 ), (q 1, b, e, q 2 )} Übergänge I A (q 0 ) = 1 I A (q 1 ) = 0 I A (q 2 ) = 0 Anfangsgewichte P A (q 0, a, c, q 1 ) = 0.6 P A (q 0, a, d, q 1 ) = 0.4 P A (q 1, b, e, q 2 ) = 1 Übergangsgewichte F A (q 0 ) = 0 F A (q 1 ) = 0 F A (q 2 ) = 1 Endgewichte Semiring Um das Gewicht Ω zuzuordnen, müssen wir eine Berechnungsvorschrift definieren. Das geschieht mit einem Semiring K: K = (R, +,, 0, 1) K = (W,,, 0, 1) in unserem Beispiel allgemein W ist hierbei die Trägermenge, deren Elemente wir den Eingaben zuordnen. ist die Funktion, die entlang eines Pfades auf die Werte der Trägermenge angewandt wird. ist die Funktion, die bei mehreren möglichen Pfaden auf die jeweiligen Werte eines Pfades angewandt wird. 0 ist das neutrale Element zu, 1 zu. In unserem Beispiel können wir in einem Pfad ab in ce und in einem anderen in de umwandeln. Beide Pfade berechnen sich mit ihren Anfangs-, Übergangs- 10

11 und Endgewichten: Ω 1 (ab) = = 0.6 Ω 2 (ab) = = 0.4 Für das Gesamtgewicht addieren wir nun beide Pfadgewichte: Ω(ab) = = 1 Allgemein beschreibt das diese Formel: Ω(x) = x I A (q 0 ) F A (q x ) P A (q i 1, q i ) (q 0...q x ) θ(x 1...x x ) i=1 2.2 Automat für Forward-Algorithmus Umwandlung Wir können nun das Hidden-Markov-Modell auch als einen Gewichteten Endlichen Automaten bzw. Transduktor repräsentieren. [7] Möchten wir nur den Forward-Algorithmus implementieren, so genügt ein Automat: HMM = (Q, Σ, I, T, E) WFSA = (Q A, Σ A, δ A, I A, P A, F A ) Q A = Q {q 0 } Σ A = Σ δ A = {(q 0, a, q) : I(q) 0 E(q, a) 0} δ A = {(q, a, q) : T (q, q) 0 E(q, a) 0} I A (q 0 ) = 1 I A (q) = 0 P A (q 0, a, q) = I(q) E(q, a) P A (q, a, q) = T (q, q) E(q, a) F A (q 0 ) = 0 F A (q) = 1 q, Q q, q Q q Q q Q q, q Q q Q 11

12 Das HMM emittiert an seinen Zuständen. Wird nur ein Zustand berührt, wird auch genau eine Emission ausgegeben. Unser Automat dagegen ist ein Mealy-Automat und emittiert (bzw. liest Eingaben) nur an Übergängen. Um also eine Eingabe zu lesen, müssen zwei Zustände durchlaufen werden. Deshalb führen wir einen neuen Anfangszustand q 0 ein, der Übergänge zu allen HMM-Zuständen erhält, deren Anfangswahrscheinlichkeit größer 0 ist. Die Übergangswahrscheinlichkeit dieser neuen Übergänge ist gleich der Anfangswahrscheinlichkeit des jeweiligen HMM-Zustandes gesetzt. Bei einem Moore-Automaten wäre die Einführung dieses gesonderten Startzustandes nicht notwendig. WFSA HMM 12

13 So sieht der Gewichtete Endliche Automat für unser Beispiel aus Semiring Der Forward-Algorithmus berechnet die Wahrscheinlichkeit einer Beobachtung. Um dies in einem Gewichteten Endlichen Automaten zu berechnen, benötigen wir den probabilistischen Semiring: K = (R, +,, 0, 1) Um bei der Berechnung zu kleine, mit Computern schwer zu rechnende Zahlenwerte zu vermeiden, kann auch der äquivalente log-semiring verwendet werden: K = (R, log, +,, 0) x log y log e (e x + e y ) 2.3 Transduktor für Viterbi-Algorithmus Umwandlung Für den Viterbi-Algorithmus benötigen wir einen Transduktor, schließlich wollen wir nicht nur einen Zahlenwert, sondern auch den besten Pfad über die durchlaufenen Zustände erhalten. Unser Transduktor gleicht dem Automaten, nur dass er ein Ausgabealphabet A bestehend aus den Zuständen 13

14 Q dazu erhält. HMM = (Q, Σ, I, T, E) WFST = (Q A, Σ A, A, δ A, I A, P A, F A ) Q A = Q {q 0 } Σ A = Σ A = Q I A (q 0 ) = 1 I A (q) = 0 δ A = {(q 0, a, q, q) : I(q) 0 E(q, a) 0} δ A = {(q, a, q, q) : T (q, q) 0 E(q, a) 0} F A (q 0 ) = 0 F A (q) = 1 P A (q 0, a, q, q) = I(q) E(q, a) P A (q, a, q, q) = T (q, q) E(q, a) q Q q, Q q, q Q q Q q Q q, q Q Semiring Der Viterbi-Algorithmus berechnet den wahrscheinlichsten Pfad, der eine Beobachtung generiert hat. Um dies in einem Gewichteten Endlichen Transduktor zu berechnen, benötigen wir eine Abwandlung des tropischen Semirings auch Viterbi-Semiring genannt: K = (R, max,, 0, 1) 3 Rechnen mit Automaten 3.1 Forward-Algorithmus Um nun mit dem erstellten Gewichteten Endlichen Automaten bzw. Transduktor eine der Aufgabenstellungen aus Abschnitt 1 zu berechnen, muss die jeweilige Beobachtung ebenfalls als Automat vorliegen. Das Gewicht dieser 14

15 Eingabe muss gleich dem neutralen Element der -Operation, also 1 sein. Bei unseren Semiringen ist dies ein Gewicht von 1. Nehmen wir wieder unsere Beispiel-Beobachtung aus Abschnitt 1. Unsere Person war gestern spazieren und heute einkaufen: WFSA Eingabe Beim Forward-Algorithmus wollen wir die Wahrscheinlichkeit für diese Beobachtung erhalten. Wir schneiden dazu diesen Eingabeautomaten mit dem zuvor erstellten WFSA unseres Hidden-Markov-Modells und erhalten einen Automaten, der die Wahrscheinlichkeiten für die einzelnen Ereignisse repräsentiert: WFSA Eingabe WFSA HMM Dass die Schnitt-Operation hier angewandt werden kann, verdanken wir der Tatsache, dass WFSA HMM zyklisch ist, vollständig ist, keine Produktionen mit einer Wahrscheinlichkeit von 0 besitzt (falls doch gilt die Produktion als nicht konnex) und alle Zustände bis auf den ersten Zustand Endzustände sind. 15

16 Der Schnitt ist leer, wenn eine Produktion aus WFSA Eingabe nicht in WFSA HMM verfügbar ist, oder deren Wahrscheinlichkeit 0 ist. Dieses Ergebnis ist derart zu deuten, dass das angefragte Ereignis eine Wahrscheinlichkeit von 0 hat. Der Schnitt WFSA Eingabe WFSA HMM ist aber immer noch nicht das, was gesucht ist. Denn statt eines gewichteter endlichen Automaten brauchen wir eine Zahl, nämlich die Wahrscheinlichkeit der Ereignisabfolge. Es gibt mindestens zwei Möglichkeiten, um diese aus dem Automaten W F SA Eingabe W F SA HMM zu errechnen: 1. Wir wenden eine Gewichtsfunktion auf den Automaten an, die das Sprachgewicht des Automaten berechnet, was im Falle des durch Schnitt gewonnenen Automaten der Wahrscheinlichkeit der Ereignisabfolge entspricht, da nur diese Abfolge enthalten ist. Das aber wäre wiederum eine bedingt nicht-automatenalgebraische Lösung, da von außen auf die Datenstruktur des Automaten zugegriffen und gerechnet wird. 2. Näher an dem Dogma, Automaten als Bestandteile einer Algebra aufzufassen, ist die Variante, unseren zuvor gewonnenen Automaten mit einem Transduktor zu komponieren, der Σ auf {ɛ} abbildet, und davon die zweite Projektion zu nehmen. Der resultierende Automat besteht aus genau einem Zustand (er repräsentiert die Sprache) und dem Gewicht des Ursprungsautomaten (dem Sprachgewicht), also der Wahrscheinlichkeit unserer Ereignisabfolge. Auf diesen Automaten muss schlussendlich doch noch die Funktion zur Extraktion des Gewichts angewandt werden, um eine Zahl zu erhalten. Das natürlich nur, sofern man das Gewicht nicht weiterverarbeiten möchte. Die zweite Variante ist zur vorherigen äquivalent, sie stellt jedoch einen algebraischen Weg dar, an das Gesuchte zu gelangen. Man könnte sie als Schönheitsoperation betrachten. Letzten Endes wird in beiden Varianten das Gewicht entlang der Pfade abstrakt multipliziert, anschließend alle identischen Pfade abstrakt addiert und eine Gewichtsfunktion angewandt. Allerdings bedarf es bei Variante 2 keines Eingriffs in die Datenstruktur Automat, sondern nur der Bemühung einer algebraischen Operation. Diese kann höchst performant implementiert sein. Zusammenfassen lässt sich die Berechnung der Wahrscheinlichkeit einer Er- 16

17 eignisabfolge (respektive Variante 2) wie folgt formalisieren: P (O) = Ω ( P roj 2 ( (WFSAHMM WFSA Eingabe ) (Σ {ɛ}) )) Viterbi-Algorithmus Bei der Aufgabenstellung des Viterbi-Algorithmus wollen wir die wahrscheinlichste Abfolge von zugrunde liegenden Ereignissen errechnen. Dazu benötigen wir keinen Eingabe-Automaten, sondern einen -Transduktor, und zwar einen sogenannten Identitätstransduktor, der die Eingabe auf sich selbst abbildet: WFST Eingabe Diesen Eingabe-Transduktor komponieren wir nun mit dem zuvor erstellten WFST des Hidden-Markov-Modells. Komponieren bedeutet, dass wir das Ausgabeband des WFST Eingabe mit dem Eingabeband des WFST HMM schneiden. Im Gegensatz zum Forward-Algorithmus suchen wir nun nicht nur nach einer Zahl, sondern nach einer Folge von Ereignissen, also einem Pfad. Dieser Pfad wird durch den verwendeten Viterbi-Semiring bestimmt: Es ist der mit dem höchsten Gewicht, also dem Ergebnis der max-operation. Diesen Pfad liefert uns die Best-Path-Funktion: WFSA BestPath = BestPath(Proj 2 ( WFSAEingabe WFST HMM ) W F SA BestP ath ist nun ein Automat mit nur einem Pfad, der die gewünschte Folge von wahrscheinlichsten Ereignissen enthält. 1 P roj 2 ist hier die zweite Projektion, also das Ausgabeband des Transduktors. 17

18 4 Eigenschaften Gewichteter Endlicher Automaten und Transduktoren 4.1 Vorteile gegenüber Hidden-Markov-Modellen Gewichtete Endliche Automaten bringen bereits von Hause aus eine Reihe von Algorithmen mit, an deren Optimierung kontinuierlich gearbeitet wird. So können wir auf bestehende Werkzeuge für Automaten zurückgreifen, ohne eigens den Forward- oder Viterbi-Algorithmus implementieren zu müssen. In der Praxis lassen sich Gewichtete Endliche Automaten effizienter verarbeiten als HMMs, auch wenn nicht-determisierte WFSA im schlechtesten Falle NP-vollständig sind. [3] 4.2 Determinisierbarkeit Ein Gewichteter Endlicher Automat, der aus einem Hidden-Markov-Modell erstellt wurde, ist meist nicht deterministisch. Das ist ungünstig für die weitere Verarbeitung, da viele Algorithmen auf Automaten einen determinisierten WFSA/T voraussetzen. Ob dieser Automat determinisierbar ist, hängt davon ab, ob er die Zwillingseigenschaft erfüllt. [6] Dies ist ein Automat mit erfüllter Zwillingseigenschaft: Falls eine Zeichenkette a zu zwei verschiedenen Zuständen q und p führt und von diesen Zuständen 18

19 Schleifen mit dem gleichen Wert b jeweils zu sich selbst zurückführen, so müssen die Pfade dieser Schleifen gleich sein insbesondere deren Gewicht. Die Zwillingseigenschaft lässt sich so formulieren: q 1, q 2 ˆδ(q 0, a) q 1 ˆδ(q 1, b) q 2 ˆδ(q 2, b) θ(q 1, b, q 1 ) = θ(q 2, b, q 2 ) in unserem Beispiel p, q ˆδ(q 0, u) p ˆδ(p, v) q ˆδ(q, v) θ(p, v, p) = θ(q, v, q) u, v Σ Durch die Determinisierung entsteht dann folgender Automat: allgemein Ein Automat ohne Zwillingseigenschaft hätte dagegen Schleifen mit unterschiedlichen Gewichten: Bei dessen Determinisierung käme es bedingt durch den Algorithmus zu einer Endlosschleife: 19

20 Es können also nur Automaten und Transduktoren mit Zwillingseigenschaft determinisiert werden. 4.3 ɛ-entfernung Jeder WFSA bzw. WFST kann zur besseren Weiterverarbeitung ɛ-frei gemacht werden. Zusätzlich zur ɛ-entfernung bei ungewichteten Automaten (FSA/FST) müssen auch Wahrscheinlichkeiten der Epsilon-Übergänge herausgerechnet und auf andere Übergangs- und Endwahrscheinlichkeiten übertragen werden. Denn das Gewicht jedes Wortes soll auch im ɛ-freien Automaten gleich bleiben Problemstellung Beschreiben wir zunächst das Problem an einem Beispiel: Für das Eingabewort ɛ z.b. gibt es nun unendlich viele Pfade. Im einfachsten Fall berühren wir q 1 nur einmal. Das Gewicht dieses Pfades berechnet sich nur aus Anfangs- und Endgewicht von q 1 : Ω(ɛ) (q1 ) = I(q 1 ) F (q 1 ) = = 0.3 Wir können aber auch q 1 zwei- oder dreimal, letztlich unendlich oft durchlaufen: Ω(ɛ) (q1,q 1 ) = I(q 1 ) P (q 1, ɛ, q 1 ) F (q 1 ) = = 0.06 Ω(ɛ) (q1,q 1,q 1 ) = I(q 1 ) P (q 1, ɛ, q 1 ) P (q 1, ɛ, q 1 ) F (q 1 ) = =

21 Das Gewicht des Wortes ɛ in diesem Automaten ist die Summe der Gewichte aller möglichen Pfade: Ω(ɛ) = P (ɛ) (q1 ) + P (ɛ) (q1,q 1 )P (ɛ) (q1,q 1,q 1 ) +... = = 0.2 i 0.3 = i i=0 = i=0 = In dem dem äquivalenten ɛ-freien WFSA muss dieses Gewicht genau als Endgewicht des Zustands q 1 erscheinen, damit das Gewicht des Wortes ɛ auch dort genau beträgt Aufbau In [1] ist ein Algorithmus beschrieben, den wir hier nachfolgend vorstellen. Er lässt sich in 3 Schritte unterteilen: Bei mehreren Startzuständen: Wandle den WFSA in einen mit einem Startzustand um. Entferne alle ɛ-schleifen, also Übergänge der Form (q, ɛ, q). Entferne alle restlichen ɛ-übergänge Nur ein Startzustand Im ersten Schritt stellen wir sicher, dass wir nur einen Zustand mit I > 0 haben, also nur einen Startzustand. Falls nicht, fügen wir einen Zustand q 0 mit I = 1 hinzu, der ɛ-übergänge zu allen bisherigen Startzuständen hat. Die Gewichte dieser ɛ-übergänge sind die jeweiligen Anfangsgewichte des alten Startzustandes, zu dem der Übergang führt. Schließlich setzen wir bei allen alten Zuständen I = 0. Unser Beispiel-Automat ist immer noch der gleiche, da er nur einen Zustand mit I > 0 hat. 21

22 4.3.4 Entfernung der ɛ-schleifen Im zweiten Schritt eliminieren wir alle ɛ-schleifen, also Übergänge der Form (q, ɛ, q). Bei uns betrifft das nur den Übergang (q 1, ɛ, q 1 ). Dazu verändern wir die Wahrscheinlichkeiten von allen Übergängen, die q 1 verlassen: 1 P (q 1, b, q 0 ) = P (q 1, b, q 0 ) P (q 1, ɛ, q 1 ) P (q, x, q ) = P (q, x, q 1 ) P (q, ɛ, q) in unserem Beispiel allgemein Auch das Endgewicht von q 1 müssen wir anfangs angekündigt anpassen: 1 F (q 1 ) = F (q 1 ) P (q 1, ɛ, q 1 ) 1 F (q) = F (q) P (q, ɛ, q) in unserem Beispiel allgemein Betrachten wir kurz einen Zwischenstand unseres WFSA nun ohne ɛ- Schleifen, aber noch mit ɛ-übergängen: Entfernung der restlichen ɛ-übergänge Nun entfernen wir alle restlichen ɛ-übergänge der Form (q, ɛ, q ), in unserem Automaten also (q 0, ɛ, q 1 ). Dazu müssen wir die von q ausgehenden Übergänge betrachten, welche wiederum einen dritten Zustand q erreichen. Wir fügen falls noch nicht vorhanden einen neuen Übergang (q, x, q ) hinzu. q kann dabei auch gleich q sein, wie bei unserem Beispiel. P (q 0, b, q 0 ) = P (q 0, ɛ, q 1 ) P (q 1, b, q 0 ) P (q, x, q ) = P (q, x, q ) + P (q, ɛ, q ) P (q, x, q ) in unserem Beispiel allgemein 22

23 Schließlich müssen wir noch wie zuvor das Endgewicht von q verändern: F (q 0 ) = F (q 0 ) + P (q 0, ɛ, q 1 ) F (q 1 ) F (q) = F (q) + P (q, ɛ, q ) F (q ) in unserem Beispiel allgemein Damit haben wir einen äquivalenten ɛ-freien WFSA erstellt: 4.4 Schnitt und Komposition Der Schnitt zweier WFSA bzw. WFST auch Automatenprodukt genannt ermöglicht mehrere unterschiedliche Wahrscheinlichkeitsverteilungen performant zu kombinieren. In unserem Kontext ist das insofern von Interesse, als dass uns die Äquivalenz zwischen HMM und WFSA ermöglicht, beliebige solcher Wahrscheinlichkeitsverteilungen, wie sie in der Literatur oft zu finden sind, performant zu kombinieren. Die Komposition zweier Transduktoren ist der Schnitt ihrer inneren Bänder also dem Ausgabeband des ersten und dem Eingabeband des zweiten Transduktors. Sie kann daher auch als Generalisierung des Schnitts aufgefasst werden: A B = Proj 2 (ID(A) ID(B)) Grundlegendes Verfahren Betrachten wir als Beispiel diese beiden WFSA: 23

24 Ihr Schnitt ist dieser WFSA: Beim Schnitt werden die Gewichte aller äquivalenten Zustände und Eingaben miteinander multipliziert: WFSA 1 = (Q 1, Σ 1, δ 1, I 1, P 1, F 1 ) WFSA 2 = (Q 2, Σ 2, δ 2, I 2, P 2, F 2 ) WFSA 1 2 = (Q 1 Q 2, Σ 1 Σ 2, δ, I, F, P ) δ = {( q 1, q 2, a, q 1, q 2 ) : (q 1, a, q 1) δ 1 (q 2, a, q 2) δ 2 } I( q 1, q 2 ) = I 1 (q 1 ) I 2 (q 2 ) P ( q 1, q 2, a, q 1, q 2 ) = P (q 1, a, q 1) P (q 2, a, q 2) F ( q 1, q 2 ) = F 1 (q 1 ) F 2 (q 2 ) Das Gewicht eines Wortes im neuen Automaten ist also auch das abstrakte Produkt der Gewichte in den beiden Ursprungs-Automaten: Ω 1 (ab) = = Ω 2 (ab) = = Ω 1 2 (ab) = = = Ω 1 (ab) Ω 2 (ab) Idempotente Semiringe Bei idempotenten Semiringen gilt: x x = x a b = a oder b Das bedeutet: Bei idempotenten Semiringen ergibt die abstrakte Addition zweier Pfadgewichte a b das Gewicht genau eines (möglichen) Pfades. 24

25 Aufgrund dieser Eigenschaft ist die Komposition zweier Automaten mit idempotenten Semiringen problemlos. Als Beispiel dazu wollen wir folgende Automaten komponieren - zunächst mit einem idempotenten Semiring, einer Abwandlung des tropischen: K = (R, min,,, 1) = Bei der Komposition haben sich mehrere Pfade ergeben (graue Box). Um das Gewicht für die Eingabe abcd, welche in dea umgewandelt wird, zu erhalten, müssen wir die Gewichte aller einzelnen Übergänge entlang der Pfade multiplizieren: Ω 1 (θ(q <0,0>, q <1,1>, q <2,2>, q <3,2>, q <4,3> )) = 1 Ω 2 (θ(q <0,0>, q <1,1>, q <2,1>, q <2,2>, q <3,2>, q <4,3> )) = 1 Ω 3 (θ(q <0,0>, q <1,1>, q <2,1>, q <3,1>, q <3,2>, q <4,3> )) = 1 Ω 4 (θ(q <0,0>, q <1,1>, q <1,2>, q <2,2>, q <3,2>, q <4,3> )) = 1 25

26 All diese einzelnen Pfadgewichte müssen nun abstrakt addiert werden, hier, im Falle des tropischen Semirings, also deren Minimum gefunden werden: 4 Ω i = min(1, 1, 1, 1) = 1 i=1 Die in der grauen Box neu eingeführten Pfade haben also keinen verändernden Einfluss auf das Gesamtgewicht Nicht-idempotente Semiringe Nun komponieren wir mit einem nicht-idempotenten Semiring, dem probabilistischen: K = (R, +,, 0, 1) Für das Gesamtgewicht suchen wir nun nicht dass Minimum, sondern addieren, da so die abstrakte Addition im probabilistischen Semiring definiert ist: 4 Ω i = = 4 i=1 Das Gewicht 4 ist nun ein völlig neues. Das liegt daran, das der probablistische Semiring eben nicht idempotent ist und das die ɛ-übergänge im zweiten Transduktor aus einem Pfad mehrere Pfade machen. Die verschiedenen Pfadgewichte werden durch die nicht-idempotenz miteinander verrechnet und ein neuer Wert entsteht. Mohri [5] liefert ein Verfahren, welches dieses Problem behebt. Die zu komponierenden Transduktoren werden dahingehend modifiziert, dass alle relevanten ɛ-übergänge mit einem speziellen silent transition - Symbol ɛ i versehen werden. Dieses wird im Zuge der Komposition mit einem speziellen Filter- Transduktor dazu verwendet, nur den einen gewünschten Pfad zu erlauben (in unserem Falle den rot markierten). 26

27 5 Schluss In dieser Arbeit haben wir zunächst Hidden Markov Modelle mit ihren typischen Aufgabenstellungen und Algorithmen vorgestellt. Danach haben wir Gewichtete Endliche Automaten und Transduktoren mit Semiringen eingeführt und gezeigt, wie man HMMs als Automaten repräsentieren und die Algorithmen mit Automaten-Algebra berechnen kann. Im letzten Teil haben wir bestimmte Eigenschaften von Automaten betrachtet, die im Zusammenhang mit HMMs relevant sind. Damit haben wir die theoretischen Grundlagen für die Lösung typischer HMM-Problemstellungen mittels Endlicher Automaten präsentiert. Literatur [1] Colin de la Higuera. Why ɛ-transitions are not necessary in probabilistic finite automata. Technical report, University of Saint-Etienne, France, [2] Wikipedia Englisch. Hidden Markov model Online, Zugriff am 11. Januar [3] Karin Haenelt. Kursfolien zu Forward- und Viterbi-Algorithmus [4] Thomas Hanneforth. Finite-State Machines Theory and Applications [5] Mehryar Mohri, Fernando C. N. Pereira, and Michael Riley. A rational design for a weighted finite-state transducer library. In WIA 97: Revised Papers from the Second International Workshop on Implementing Automata, pages , London, UK, Springer-Verlag. [6] Ina Mäurer. Zur Minimalisierung und Determinisierung von sequentiellen Transducern [7] Enrique Vidal, Frank Thollard, Colin de la Higuera, Francisco Casacuberta, and Rafael C. Carrasco. Probabilistic finite-state machines part ii. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(7): ,