Welf Walter

Transkript

1 Universität Ulm Fakultät für Informatik Abteilung Neuroinformatik Seminar 2004 Sehen und Hören Hidden Markov Modelle und Künstliche Neuronale Netze Welf Walter

2 Zusammenfassung Der Traum, des Menschen, mit dem Computer zu sprechen, ist noch lange nicht erreicht. Sowohl die Teilbereiche Sprachgenerierung wie auch Spracherkennung sind noch lange nicht soweit, wie man es aus Hollywood kennt. Dennoch gibt es Fortschritte auf diesem Gebiet, so dass für viele Anwendungen bereits ausreichend gute Systeme der Spracherkennung existieren. Es hat sich herauskristallisiert, dass die Theorie der Hidden-Markov- Modelle (HMM) für die Anwendung in der Spracherkennung sehr geeignet ist. Bereits in den späten 60ern wurden Arbeiten darüber verfasst. Noch bessere Ergebnisse lassen sich erzielen, wenn man HMMs mit Künstlichen Neuronalen Netzen (KNN) kombiniert. Dieser Artikel führt in die Theorie der HMM ein, zeigt ihre Verwendung zur Spracherkennung auf und erläutert die Vorteile der Nutzung von KNN. Inhaltsverzeichnis 1 Einführung in die Spracherkennung Aufbau eines Spracherkennungssystems Vorverarbeitung Subworterkennung Worterkennung Einführung in HMM Markov-Ketten Hidden-Markov-Modelle Die 3 Fragestellungen für HMMs Evaluation Wegsuche Parametereinstellung HMM-Typen Worterkennung mit HMM Verbesserung durch KNN Verwendung Vorteile Richtigstellung Verbesserungsmöglichkeiten

3 1 Einführung in die Spracherkennung Die verbale Kommunikation das Sprechen ist für Viele ein entscheidendes Kriterium der Unterscheidung von Mensch und Tier. Während man darüber streiten kann, wird niemand bezweifeln, dass das Sprechen für uns alle die naheliegendste Art der Kommunikation ist. Somit ist auch verständlich, dass es seit Anbeginn der Computergeschichte ein Ziel war, mit dem Computer sprechen zu können. Auch wenn dieser Traum noch weit von seiner Verwirklichung entfernt ist, so gibt es doch bereits sehr viele Anwendungen, bei denen Spracherekennungssysteme eingesetzt werden. Wie diese aufgebaut sind, soll im Folgenden nun dargestellt werden. 1.1 Aufbau eines Spracherkennungssystems Abbildung 1: Aufbau eines Spracherkennungssystems Ein Spracherkennungssystem für zusammenhängendes Sprechen besteht 2

4 im Allgemeinen aus den im Folgenden aufgeführen Einzelsystemen. Es wird dabei jedoch nicht nur das jeweils bestbewertete Ergebnis geliefert, sondern eine ganze Liste, so dass das nachfolgende Modul noch genauere Analysen durchführen kann. Durch die Modularisierung ist eine höhere Strukturierung und Parallelität möglich. Die Module sind typischerweise: 1. Vorverarbeitung: Die durch Mikrophon aufgenommenen digitalisieren Daten werden tiefpassgeltert und in diskrete Merkmalsvektoren X pro Zeiteinheit 1 zerlegt. Dies können Frequenzbereichsstärken sein oder Cepstralvektoren. 2. Subworterkennung: Die Merkmalsvektoren werden bestimmten Phonemen zugeordnet. Je nach Anwendung kann auch eine Erkennung von Silben vorteilhaft sein. 3. Worterkennung: Die Subwörter werden anhand eines Wörterbuches zu Wörtern zusammengesetzt. 4. Syntaktische Überprüfung: Anhand einfacher grammatikalischer Regeln werden verschiedene Wortarten unterschieden. Z.B. können Artikel nur direkt vor Substantiven erscheinen. 5. Semantische Analyse: Hier werden Homonyme unterschieden, indem überprüft wird, welche Alternative besser in den inhaltlichen Kontext passt. Die syntaktische und die semantische Überprüfung sollen hier nicht im Näheren ausgeführt werden und sind nur der Vollständigkeit halber erwähnt. 1.2 Vorverarbeitung Die analogen Daten, die von einem Mikrophon aufgenommen werden, werden tiefpassgeltert und digitalisiert. In kleinen Zeitfenstern werden die Frequenzspektren unter überschneidenden Hamming-Fenstern ausgewertet. Verschiedene weitere Verarbeitungsschritte sind möglich, die zu unterschiedlich guten Ergebnissen führen. Dies soll jedoch nicht weiter ausgeführt werden. Gemeinsam ist allen Varianten, dass sie ein Tupel an Werten liefern, die sogenannten Merkmalsvektoren. 1.3 Subworterkennung Eine der gröÿten Schwierigkeiten bei herkömmlichen HMM-basierten Spracherkennungssystemen ist die Abbildung der kontinuierlichen 2 Merkmalsvektoren auf die diskrete Menge der Beobachtungen, die man sich als Phoneme 1 Hier sind Zehn-Millisekunden-Zeitintervalle üblich 2 natürlich nur quasi-kontinuierlich, da auf einem Computer nur endliche Wertebereiche möglich sind. 3

5 vorstellen kann. Hierfür wird meist ein Codebuch aus Beobachtungen erstellt und jeweils der Code ausgewählt, der in einem gewissen Sinn die minimale Distanz zum Merkmalsvektor hat. Die Erstellung von guten Codebüchern ist somit entscheidend für die Qualität der Spracherkennung. Eine groÿes Codebuch führt zwar zu einer genaueren Zuordnung der Merkmalsvektoren, erhöht aber gleichzeitig die Schwierigkeit für die folgenden Schichten und verschiebt somit die Probleme. Daher ist es nötig, auf beiden Seiten Zugeständnisse zu machen. 1.4 Worterkennung Wir beschränken uns im Folgenden auf die Kommando-Worterkennung. Das bedeutet, das wir versuchen, ein einzelnes Wort so gut wie möglich aus unserem Wörterbuch auszuwählen. Für höherwertige Spracherkennung müsste eine Liste von maximal guten Wörtern an das nächste Modul weitergeleitet werden. Dort würde dann unter Berücksichtigung von syntaktischen und semantischen Gesichtspunkten das richtige Wort ausgewählt. Die Vorstellung, dass ein Wort aus aufeinanderfolgenden Phonemen aufgebaut ist, führt zu der Idee, die Phoneme als Zustände zu sehen, zwischen denen Übergänge stattnden. Da für derartige serielle Übergangs-Probleme HMM sehr geeignet sind, werden diese nun vorgestellt. 2 Einführung in HMM Hidden-Markov-Modelle sind die am meisten verbreitete Technik für die Spracherkennung. Daher sollen die Grundlagen dieser Theorie kurz vorgestellt werden: 2.1 Markov-Ketten Wir stellen uns ein System vor, das aus N durchnummerierten Zuständen besteht: S = {S 1, S 2,... S N } In jedem Zeitschritt geht das System von einem Zustand q t = S i in einen neuen Zustand q t+1 = S j über, wobei die Wahrscheinlichkeit für einen Übergang in einer Matrix dargestellt werden kann: a ij ist die Wahrscheinlichkeit, dass das System von i nach j übergeht. Die Grundannahme von Markovketten ist hierbei, dass diese Übergangswahrscheinlichkeit lediglich vom aktuellen und neuen Zustand abhängt. Werden die Anfangszustände nun mit den Wahrscheinlichkeiten π i versehen, so kann die Wahrscheinlichkeit jeder Zustandsfolge Q = (q 1, q 2,..., q T ), q t S folgendermaÿen berechnet werden: T 1 P (Q) = P (q 1 ) P (q 2 q 1 ) P (q 3 q 2 )... P (q T q T 1 ) = π q1 a qt+1,q t t=1 4

6 2.2 Hidden-Markov-Modelle Im vorigen Kapitel sind wir davon ausgegangen, dass die Zustände direkt erkennbar sind. Wir erweitern unser Modell insoweit, dass es M Beobachtungen gibt, diese sind eindeutige Symbole der Menge V = {v 1, v 2,..., v M }. Die Wahrscheinlichkeit für eine Beobachtung hängt lediglich vom aktuellen Zustand ab. Somit können wir die Wahrscheinlichkeit, dass im Zustand S j die Beobachtung v k auftritt, denieren als b j (k). O j wird dafür auf k gesetzt. O = (O 1, O 2,..., O T ) ist somit die Folge der wahrgenommenen Beobachtungen. Für uns als Auÿenstehende ist nun nur noch erkennbar, welche Beobachtung eintritt, aber nicht sichtbar, in welchem Zustand wir uns benden. Darüber können nur Annahmen gemacht werden. Und da die Zustände versteckt sind, nennen wir das Modell Hidden-Markov-Modell oder kurz HMM. Eine HMM wird speziziert durch die Anzahlen der Zustände und Beobachtungen N und M, sowie durch die Wahrscheinlichkeitsmaÿe A, B, π. Wir fassen diese zusammen in dem Tupel λ = (A, B, π). Das Tupel λ wird dabei das Modell genannnt. Simulation: Wir können also wie folgt ein HMM simulieren: 1. Eine Initialzustand q 1 durch die Verteilung π wählen 2. t := 1 3. O t nach der Verteilung b wählen 4. q t+1 nach a ij auswählen 5. Falls t < T ist, t inkrementieren und zu Punkt 3 gehen. 2.3 Die 3 Fragestellungen für HMMs Bei einem HMM gibt es nun drei Fragestellungen, die uns interessieren: 1. Wenn eine Beobachtungsfolge O und ein Modell λ gegeben ist, wie lässt sich die Wahrscheinlichkeit P (O λ) berechnen. 2. Wenn die Beobachtungsfolge O und ein Modell λ gegeben ist, wie wählen wir eine optimale Zustandsfolge Q?... und was bedeuted hierbei optimal? 3. Wie können wir unser Modell an eine gegebene Beobachtungsfolge anpassen? Die erste Fragestellung ist die Evaluation. Es wird sowohl als Bewertung einer Beobachtetung unter einem Modell gesehen, aber auch als Bewertung 5

7 eines Modelles unter einer festen Beobachtung. Man kann damit also untersuchen, welches von mehreren Modellen Beobachtungen am besten erklärt. Die zweite Fragestellung heiÿt Wegsuche. Denn es wird der Weg durch den Zustandsgraphen gesucht, der eine gegebene Beobachtung am besten erklärt. Klar ist, dass es hierbei im Allgemeinen keine wirklich richtige Lösung geben kann. Man kann lediglich versuchen, eine einleuchtende Lösung zu nden, die in einem gewissen Sinn optimal ist. Im einfachsten Fall ist optimal die Zustandsfolge, die mit genau dieser Ausgabe am wahrscheinlichsten ist. Fragestellung Nummer drei ist die Parametereinstellung. Wir haben ein Modell und wollen dieses optimieren. Man kann es als Trainieren des HMM sehen. Dies ist meistens unerlässlich, da in einem Modell sehr viele Parameter stecken und es meist nicht möglich ist, diese alle im vorneherein analytisch zu bestimmen. 2.4 Evaluation Gegeben ist eine Beobachtung O = (O 1, O 2,..., O T ) unter einem festen Modell λ. Gesucht ist die Wahrscheinlichkeit für diese Beobachtung, also P (O λ). Für eine feste Zustandsfolge Q = (q 1, q 2,..., q T ) ist wegen der stochastischen Unabhängigkeit folgende Lösung leicht ersichtlich: T T P (O Q, λ) = P (O t q t, λ) = b qt (O t ) t=1 t=1 Mit der Formel für P (Q λ) aus 2.1 ergibt sich hieraus folgende naive Lösung: P (O λ) = Q P (O Q, λ) P (Q λ) = q 1,...,q T S π q1 b q1 (O 1 ) a q1 q 2 b q2 (O 2 )... a qt 1 q T b qt (O T ) Wenn diese Gleichung auch mathematisch interessant ist, da sie implizit darstellbar ist, ist sie für Informatiker aus Komplexitätsgründen indiskutabel: Denn die Summe geht schlieÿlich über N T Zustände, jeweils aus 2T Multiplikationen. Forward-Backward-Procedure: Das Problem lässt sich durch dynamische Programmierung lösen: Wir führen eine Forward-Variable α t (i) ein, die für die Wahrscheinlichkeit steht, dass die Beobachtung bis zum Zeitpunkt t im Zustand i endet: α t (i) := P (O 1 O 2... O t, q t = S i λ) Nun kann α t (i) induktiv berechnet werden: 6

8 1. Initialisierung 2. Induktion α 1 (i) := π i b i (O 1 ) 1 i N N α t+1 (j) := [ α t (i)a ij ] b j (O t+1 ) 1 t < T 1 j N i=1 3. Terminierung N P (O λ) := α T (i) i=1 Es wird also schrittweise für wachsende t die Wahrscheinlichkeit berechnet, dass die Beobachtungsfolge (O 1, O 2,..., O t ) auftritt. Somit haben wir durch diesen Algorithmus eine Komplexität von N 2 T, was durchaus im Rahmen des Machbaren ist. Der Vollständigkeit halber werden wir gleich hier auch die Backward- Variable denieren, auch wenn sie erst später benötigt wird. Analog zur Forward-Variable α wird die Backward-Variable β t (i) deniert: 2.5 Wegsuche β t (i) := P (O t+1 O t+2... O T, q t = S i λ) Im Gegensatz zur Evaluation, bei der selbst mit der naiven Lösung ein eindeutiges Ergebnis existiert, gibt es bei der Wegsuche mehrere Möglichkeiten, da zuerst die Optimalität deniert werden muss. Man könnte z.b. für jede Einzelbeobachtung O t den optimalen Zustand q t bestimmen. Der Nachteil liegt jedoch auf der Hand: Falls nicht alle a ij positiv sind, können so sogenannte ungültige Wege geliefert werden, das sind Wege, deren Wahrscheinlichkeit 0 ist. Eine Verbesserung wäre also beispielsweise, optimale Paare (q t, q t+1 ) zu nden. Im Allgemeinen jedoch wird der optimale Pfad gesucht, also wird P (Q O, λ) maximiert, was gleichbedeutend ist zur Maximierung von P (Q, O λ). Dies wird mit dem sogenannten Viterbi-Algorithmus 3 gelöst: Viterbi-Algorithmus: Wir denieren uns ähnlich wie beim Forward-Backward-Algorithmus eine Variable δ t (i), die die beste Bewertung (also die höchste Wahrscheinlichkeit) hat über alle Pfade der Länge t, die im Zustand i enden. Um den eigentlichen Pfad herauszunden, speichern wir in ψ t (i) jeweils den durch die Maximumbildung ausgewählten Zustand. 3 A.J.Viterbi beschrieb diesen bereits

9 δ t (i) := max P (q 1, q 2,..., q t 1, q t = i, O 1, O 2,... O t λ) q 1,...,q t 1 S Die Berechnung erfolgt wieder iterativ: 1. Initialisierung δ 1 (i) := π i b i (O 1 ) 1 i N ψ t (i) := 0 1 i N 2. Induktion δ t (j) := max 1 i N [δ t 1(i)a ij ] b j (O t ) 1 < t T 1 j N ψ t (j) := argmax[δ t 1 (i)a ij ] 1 < t T 1 j N 1 i N 3. Terminierung P := max 1 i N δ T (i) qt := argmax δ T (i) 1 i N 4. Pfadrückverfolgung (backtracking) q t := ψ t+1 (q t+1) t = T 1, T 2,..., 1 Der im oben denierten Sinn optimale Weg ist nun Q := (q 1, q 2,..., q T ). 2.6 Parametereinstellung Es bleibt noch die dritte Fragestellung. Wie kann man die Parameter eines HMM so einstellen, dass sie die Wahrscheinlichkeit der Beobachtung maximieren? Hierfür gibt es keinen bekannten Weg, dies analytisch zu lösen. Man kann jedoch durch Gradienten-Techniken lokale Maxima nden. Dafür denieren wir uns eine Variable, die die Wahrscheinlichkeit angibt, dass wir beim Wechsel von t auf t + 1 von Zustand S i nach S j wechseln: ξ t (i, j) := P (q t = S i, q t+1 = S j O, λ) Wir können ξ t (i, j) nun eektiv durch die forward-backward-variablen ausrechnen: ξ t (i, j) = α t(i) a ij b j (O t+1 ) β t+1 (j) P (O λ) = α t (i) a ij b j (O t+1 ) β t+1 (j) Ni=1 Nj=1 α t (i) a ij b j (O t+1 ) β t+1 (j) 8

10 Wenn wir jetzt über t summieren, können wir berechnen, wie wahrscheinlich der Übergang von S i nach S j tatsächlich ist. Und genau das soll ja a ij ausdrücken. Also passen wir a ij entsprechend an. Es kann gezeigt werden, dass dies auch wirklich eine Verbesserung darstellt, auÿer, wir benden uns bereits in einem lokalen Maximum. Es können ähnliche Formeln für π i und b j (k) angegeben werden. Somit können alle Parameter des Modells schrittweise verbessert werden. Wie jedoch stets bei Gradienten-Methoden werden hierbei nur lokale Maxima gefunden und es müssen die üblichen Techniken zur globalen Maxiumum- Suche verwendet werden. 2.7 HMM-Typen Bis jetzt wurden HMM betrachtet, bei denen von jedem Zustand aus jeder andere erreichbar ist. Solche Modelle heiÿen das standard-ergodische Modell. Für die Verwendung zum Zweck von zeitgesteuertem Verhalten wie der Spracherkennung sind jedoch andere Modelle viel besser geeignet. Sehr vorteilhaft ist das left-to-right-modell, bei dem man sich die Zustände von links nach rechts sortiert vorstellt und nur Übergänge nach rechts erlaubt sind, also gilt i > j a ij = 0. Auÿerdem gilt π 1 = 1 und π i = 0 i > 1. Oft wird noch zusätzlich gefordert, dass keine groÿen Sprünge gemacht werden, also dass a ij = 0 j i > Θ. Und da bei der Parametereinstellung in der Formel für ξ t (i, j) der Faktor a ij vorkommt, bleiben die Nullen der Übergangsmatrix und damit die Struktur des Modelles bei der Parametereinstellung erhalten. 2.8 Worterkennung mit HMM Für jedes Wort v im Wörterbuch erstellen wir ein HMM λ v. Dabei wird als grundlegendes Modell das left-to-right-modell gewählt, mit etwa fünf Zuständen, wobei jeder Zustand für ein Subwort steht. Durch Parametereinstellung optimieren wir beim Training die Parameter von λ v, so dass sie optimal auf die Trainingswörter reagieren. Bei der Erkennung wird der Merkmalsvektor durch sämtliche HMMs geschickt. Es wird dabei jeweils mit dem Viterbi- Algorithmus P (O λ v ) berechnet. Das Maximum dieser Wahrscheinlichkeiten wird dann als Gewinner-wort ausgewählt. Bei einer höherwertigen Spracherkennung als der Kommandoworterkennung werden die k best-bewertetsten Worte ausgewählt. 3 Verbesserung durch KNN Bei der Subworterkennung hat es sich bewährt, Künstliche Neuronale Netze zu verwenden. Diese werden als Schätzer für die sogenannte a-posteriori- Wahrscheinlichkeit verwendet. 9

11 3.1 Verwendung Es wird ein MLP (Multi-Layer-Perzeptron) mit einer versteckten Schicht verwendet. Als Eingabe bekommt das Netz die Merkmalsvektoren und es wird darauf trainiert, an jedem Ausgang jeweils die Wahrscheinlichkeit für einen Zustand P (q i X), die sogenannte a-posteriori-wahrscheinlichkeit auszugeben. Als Trainingmaterial werden mit Silben gelabelte Merksmalsvektoren verwendet. Die Ausgabe eine KNN stellt natürlich noch keine Wahrscheinlichkeitsverteilung dar, da die Forderung i P (q i X) = 1 nicht notwendigerweise erfüllt ist. Dies lässt sich jedoch durch eine einfache Normalisierung erreichen. Wir haben jetzt die Wahrscheinlichkeit für einen bestimmten Zustand bei gegebenem X (P (q i X)) Was für den Viterbi-Algorithmus jedoch benötigt wird, ist P (X q i ). Dies lässt sich jedoch durch die Formel von Bayes leicht errechnen: P (q i X) = P (X q i) P (q i ) P (X) Hierbei kann P(X) vernachlässigt werden, da es ja konstant ist und P (q i ) lässt sich durch Analyse von gröÿeren Textstücken errechnen, da es ja lediglich eine Häugkeitsverteilung der Phoneme in der Sprache darstellt. 3.2 Vorteile Die Vorteile eines KNN im Gegensatz zu herkömmlichen Codebüchern sind vielfältig: 1. Es müssen keine genauen Vorkenntnisse über die statistische Verteilung der Phoneme bekannt sein, da das Netz ja grade dies lernen kann. 2. Durch Verwendung von Recurrent Neural Networks(RNN), bei denen durch durch Rückkopplung auch vorige Merkmalsvektoren beachtet werden können oder durch Eingabe nicht nur des aktuellen Merkmalsvektors, sondern auch einigen davor und danach, können Unterschiede, die durch nachfolgende Laute entstehen, beachtet werden. 3. Untersuchungen haben ergeben, dass KNN selbst bei geringerer Komplexität weitaus schneller und dennoch korrekter arbeiten. 4. Auÿerdem sind natürlich die allgemeinen Vorteile von KNN vorhanden, wie Stabilität der Ergebnisse und die Möglichkeit zur parallelen Berechnung. 10

12 3.3 Richtigstellung Ein klein wenig komplizierter als bisher dargestellt ist es in soweit, dass man unterscheiden muss zwischen den Phonemen, wie sie von den Linguisten verwendet werden und in den Wörterbüchern stehen und den tatsächlichen klangmäÿig ähnlichen Lauten. Denn die Phoneme müssen noch unterteilt werden in Teilphoneme, da es deutliche Unterschiede in Abhängigkeit vom nachfolgenden/vorigen Phonem gibt. So werden die linguistischen Phoneme in zwei bis drei Zustände eines HMM aufgeteilt. Diese Aufteilung jedoch per Hand zu erstellen ist eine unangenehme Sache, da man als Mensch die Laute viel mehr damit verbindet, wie man sie erzeugt (Phoneme), als was im Endeekt den Klang bestimmt. Ermöglicht wird dies erst durch folgende Verbesserung: 3.4 Verbesserungsmöglichkeiten Bisher wurde das KNN-gestützte HMM-Spracherkennungssystem in zwei seriellen Schritten trainiert. Zuerst wurde dem KNN beigebracht, die Zustände aus den Merkmalen zu schätzen und dann lernte das HMM, aus diesen Phonemen einzelne Wörter zu basteln. Viel eektiver ist es jedoch, die beiden Teilsysteme kombiniert lernen zu lassen. Somit werden die Verbesserungen des HMM auf das KNN zurückgeführt. Natürlich ist dies technisch anspruchsvoller, aber Untersuchungen haben ergeben, dass die Ergebnisse deutlich besser werden. Dies liegt auch daran, dass nun nicht mehr erzwungenermaÿen mit Phonemen gearbeitet werden muss, sondern auf kleinere Einheiten gewechselt werden kann. Fazit: Mit dieser und vielen weiteren Verbesserungsmöglichkeiten kann man Spracherkennungssysteme erstellen, die für viele Anwendungen geeignet sind, auch wenn eine Unterhaltung mit dem Computer noch in weiter Ferne liegt... Literatur [1] Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of the IEEE, Vol. 77, No. 2, Feb. 1989, pages [2] Herv e Bourlard and Nelson Morgan, Hybrid HMM/ANN Systems for Speech Recognition: Overview and New Research Directions [3] Edmondo Trentin and Marco Gori, Robust Comination of Neural Networks and Hidden Markov Models for Speech Recognition, IEEE Transactions on neural networks, vol. 14, No. 6, Nov. 2003, pages