Kombinationen von Neuronalen Netzen und Hidden Markov Modellen in der Spracherkennung

Transkript

1 Kombinationen von Neuronalen Netzen und Hidden Markov Modellen in der Spracherkennung Christian Tomm Zusammenfassung In der Spracherkennung werden vornehmlich Hidden Markov Modelle verwendet. Neuronale Netze liefern nur unzureichende Ergebnisse. Als Alternative werden hybride Systeme aus neuronalen Netzen und Hidden Markov Modellen eingeführt. In dieser Arbeit werden Methoden vorgestellt, die die Erkennungsraten hybrider Systeme verbessern sollen. 12. Juli 2005

2 Inhaltsverzeichnis 1 Einleitung 3 2 Grundlagen Neuronale Netze Hidden Markov Modelle Hybride Systeme 4 3 Das Gradientenverfahren in hybriden Systemen 5 4 Das Divergenzproblem 7 5 Verbesserte hybride Systeme Soft Weight Sharing Lernregel Bayes Training Maximum A Posteriori Kriterium 10 6 Ergebnisse 10 Literatur 13 2

3 1 Einleitung Die automatische Spracherkennung (ASR) ist ein Problem, dass schon längere Zeit untersucht wird. Das Erkennen von gesprochenen Worten ist für den Menschen ohne viel nachzudenken und auch unter erschwerten Bedingungen wie etwa Hintergrundrauschen leicht zu lösen. Für den Rechner ist dies etwas schwerer. Zunächst gibt es hier die akustische Merkmalsfolge Y, die aus Eingabe und Vorverarbeitung stammt. Weiterhin gibt es das, im Allgemeinen unbekannte, Wort W, welches es zu erkennen gilt. Gesucht ist nun also das Wort aus einem Wörterbuch, das die folgende Wahrscheinlichkeit maximiert: P r(w Y ) = P r(y W )P r(w ) P r(y ) Dazu ist noch zu sagen, dass P r(w ) normalerweise als Sprachmodell (language model) und P r(y W ) als akustisches Modell (accoustic model) bezeichnet werden. Die Maximierung von P r(w Y ) kann nun über verschiedenste Mechanismen erfolgen. Hier sollen nun zunächst die bekannten Ansätze dargelegt werden, dann werden neue hybride Systeme aus neuronalen Netzen und Hidden Markov Modellen vorgestellt, die schließlich mit einem Test auf echter, gesprochener Sprache bewertet werden. 2 Grundlagen Um gesprochene Wörter zu erkennen, können verschiedene Techniken verwendet werden. Im Folgenden wird zunächst auf künstliche Neuronale Netze zur Spracherkennung eingegangen, dann werden die Hidden Markov Modelle erläutert. Diese Hidden Markov Modelle sind im Moment am gebräuchlichsten in der Spracherkennung. Als letztes werden schließlich die bisherigen hybriden Systeme betrachtet. 2.1 Neuronale Netze Künstliche neuronale Netze (KNN) schienen anfangs eine gute Lösung zum Problem der Spracherkennung zu sein. Es ist möglich, sie als nicht parametrisierte Wahrscheinlichkeitsdichtefunktionen zu trainieren und sie haben außerdem gute Generalisierungsfähigkeiten. Der Ansatz hier ist, dem Netz eine akustische Beobachtung in geeigneter Form zu präsentieren, um mit der Ausgabe des Netzes eine Klassifikation auf dem Wörterbuch durchzuführen. Für Probleme, in denen kurze akustische Einheiten vorkamen, wie etwa Phoneme oder einzelne, kurze Wörter, erwiesen sich die neuronalen Netze als relativ gut [2]. In den Fällen allerdings, in denen lange Worte 3

4 oder Sätze erkannt werden sollten, stellten sich die neuronalen Netze als ungeeignet heraus [3]. Dies hängt anscheinend stark damit zusammen, dass man mit neuronalen Netzen längerdauernde Zeitabhängigkeiten nicht ausreichend gut modellieren kann. Dies gilt auch für rekurrente Netze [4]. Daher sind neuronale Netze alleine zur Lösung des Problems ungeeignet. 2.2 Hidden Markov Modelle Hidden Markov Modelle (HMM) sind ein anderer Ansatz, das Problem der automatischen Spracherkennung zu lösen. Hier wird versucht, das gesuchte Wort als eine Kette von Zuständen zu erkennen. Das Hidden Markov Modell wird also definiert durch eine Menge von Zuständen Q und den Wahrscheinlichkeiten a ij, mit denen das HMM von einem Zustand i in einen anderen Zustand j übergeht. Zusätzlich werden noch die Emissionswahrscheinlichkeiten b i,t benötigt. Sie geben an, mit welcher Wahrscheinlichkeit welches Zeichen in einem gegebenen Zustand i zum Zeitpunkt t emmitiert wird. Diese Werte sollen für unseren Zweck ausreichen um ein HMM zu beschreiben. Ein Problem der HMMs ist, dass einige Annahmen über statistische Eigenschaften gemacht werden müssen. Beispielsweise wird in Continuous-Density HMMs (CDHMMs) angenommen, dass die Emissionswahrscheinlichkeiten über eine parametrisierte Wahrscheinlichkeitsdichtefunktion dargestellt werden können. Dies stellt eine relativ starke Einschränkung an die Daten dar. Im Allgemeinen lässt sich jedoch sagen, dass HMM s aktuell sehr gerne zur Spracherkennung eingesetzt werden, und dort auch gute, wenn auch nicht perfekte, Ergebnisse liefern [5]. 2.3 Hybride Systeme Einen kombinierten Ansatz aus den beiden Vorherigen bilden die hybriden Systeme. Hier sollen vor allem der Ansatz von Bourlard und Morgan [6], sowie die Optimierung von Bengio [7] betrachtet werden. Im Ansatz von Bourlard und Morgan wird für jeden Zustand q l im Markov Modell M ein Ausgang aus einem Multilayer Perzeptron (MLP) trainiert, um die entsprechende conditional transition probability P r(q l y l k,..., y l+k, q l 1 ) zu schätzen, wobei die y l k,..., y l+k eine Menge von akkustischen Merkmalsvektoren sind. Hier bezeichnet k die so genannte Fenstergröße. Das MLP Training wird mit dem Backpropagation Algorithmus durchgeführt. Allerdings lieferte das System so keine brauchbaren Ergebnisse. Erst nachdem die Ausgaben des MLP mit den passenden a priori Wahrscheinlichkeiten normalisiert wurden, waren die Ergebnisse besser als die der einfachen HMMs. Ein grundlegendes Problem an diesem Ansatz blieb allerdings bestehen. Der Backpropagation Algorithmus ist ein überwachtes Lernverfahren, aber für akustische Signale ist im 4

5 Allgemeinen kein passendes Lehrersignal vorhanden. Bourlard und Morgan verwenden daher eine iterative Trainingsvorschrift: 1. Es wird eine Segmentierung der Daten geschätzt. 2. Der Backpropagation Algorithmus wird entsprechend der geschätzte Segmentierung angewendet. 3. Mit dem trainierten MLP werden neue Wahrscheinlichkeiten gefunden. Mit dem Viterbi Algorithmus wird eine neue (bessere) Segmentierung berechnet. 4. Mit Hilfe dieser Segmentierung wird so wieder der Backpropagation Algorithmus angewendet. Dies wird dann iterativ weitergeführt. Allerdings ist dieses Verfahren stark abhängig von der gewählten Startfolge. Unter Umständen konvergiert der Algorithmus noch nicht einmal. Bengios Modell verwendet ein KNN auf andere Art und Weise. Hier werden die hochdimensionalen Eingabedaten u L auf niedrigdimensionale Merkmalsvektoren x L abgebildet. Da das KNN die Wahrscheinlichkeit P (Y M) maximieren soll, kann auch hier wieder das Gradientenverfahren mit dem Backpropagation Algorithmus angewendet werden. Zum Training des HMM wird dann z.b. der Baum-Welch Algorithmus verwendet. Hier dient das KNN also lediglich als Merkmalsextraktor. Daher bleiben die Nachteile der HMMs bestehen und die Anzahl der zu lernenden Parameter vergrößert sich im Vergleich zum reinen HMM Ansatz. Die nun vorgestellten hybriden Systeme zielen darauf ab, diese beiden Ansätze zu verbinden, um ein System ohne die einzelnen, spezifischen Nachteile zu erhalten. Hier soll das KNN eingesetzt werden, um die Emissionswahrscheinlichkeiten zu schätzen. Dazu wird jedem Zustand in jedem HMM eine korrespondierende Ausgabe im KNN zugewiesen. Die restlichen Parameter des HMM werden dann weiterhin mit dem Baum-Welch Algorithmus trainiert. 3 Das Gradientenverfahren in hybriden Systemen Die vorgestellten hybriden Systeme basieren alle auf dem Gradientenverfahren, welches die folgende Wahrscheinlichkeit maximieren soll: C = P (Y M) = i F α i,t F ist die Menge der Endzustände im HMM. Die α i,t sind die forward Wahrscheinlichkeiten α i,t = P r(q i,t, y 1,..., y t ) mit der akustischen Beobachtung Y = y 1,..., y T. Analog kann man auch die sogenannten backward Wahrscheinlichkeiten definieren: β i,t = P r(y t+1,.., y T q i,t ). Zur Berechnung werden dann folgende 5

6 Rekursionsformeln verwendet: α i,t = b i,t a ji α j,t 1 j und β i,t = j b j,t+1 a ij β j,t+1 mit a i,t und b i,t wie oben definiert. Zur Maximierung des C wird nun der Gradient berechnet: w = η C Es gilt: α i,t = α i,t b i,t b i,t (Ableiten der Rekursionsformel für α i,t ) und C α i,t = β i,t (Beweis in [1]) Damit lässt sich der Gradient umformen: Nun muss noch b j,t Wobei gilt: C = i = i = i t t bestimmt werden: t C b i,t b i,t b j,t = f j(x j (t)) jk jk C α i,t b i,t α i,t b i,t α i,t b i,t β i,t b i,t = f j(x j (t)) i w ji o i (t) jk = f j(x j (t))o k (t) o k (t) = f k (x k (t)) f k (x) ist die Ausgabefunktion des k-ten Ausgangs des KNN. Man definiert ein δ i (j, t) wie folgt: f δ i (j, t) = j(x j (t)) falls i = j 0 sonst 6

7 So kann man die Gleichung b i,t vereinfachen: b i,t = δ i(j, t)o k (t) Damit ist die Lernregel vollständig beschreibbar: w jk = η T i=1 t=1 β i,t α i,t b i,t δ j (i, t)o k (t) (1) 4 Das Divergenzproblem Diese Gradientenlernregel kann nun also eine nicht parametrisierte Dichtefunktion annähern. Allerdings ist nicht sichergestellt, dass eine solche Dichtefunktion gelernt wird. Vielmehr ist es so, dass durch die Maximierung der Zielfunktion große Ausgabewerte im KNN bevorzugt werden. Also werden die Emissionswahrscheinlichkeiten über alle Muster sehr groß und das entstehende Modell sinnlos. Dies passiert natürlich nicht immer, da der Gradient auch in lokalen Maxima bleiben kann, und so nicht immer beliebig groß wird. In den nun vorgestellten Modellen wird versucht, das Divergenzproblem zu beheben. Wobei nun nicht zwingend eine Dichtefunktion gelernt werden muss, es reicht auch, einfach nur die Divergenz der Gewichte zu verhindern. 5 Verbesserte hybride Systeme In diesem Abschnitt werden nun drei verbesserte Hybride Systeme vorgestellt, die versuchen, das Divergenz Problem zu beheben. Die drei Systeme verwenden drei verschiedene Ansätze, die unterschiedlich effektiv sind. Die Ergebnisse aus einem Test auf gesprochener Sprache werden in Kapitel 6 besprochen. 5.1 Soft Weight Sharing Lernregel Die Idee der Soft Weight Sharing Lernregel ist, dass das Divergenzproblem umgangen werden kann, indem man Lösungen mit kleinen Gewichten bevorzugt. Man verändert also die zu maximierende Wahrscheinlichkeit entsprechend: C = P (Y M)P (W M) Wobei L = P (Y M) die Wahrscheinlichkeit der Beobachtung Y unter dem Modell M bezeichnet. W = (w 1,..., w s ) ist ein Zufallsvektor der Kopplungen im KNN. 7

8 Da C maximiert werden soll, wird der Gradient verwendet, um mittels Gradientenaufstieg ein Maximum zu finden. Dabei ist die Form der Verteilung P (W M) sehr wichtig. Falls hier die Gleichverteilung gewählt wird, werden keine Lösungen bevorzugt und das Divergenzproblem tritt weiterhin auf. Sinnvoller wäre also eine Normalverteilung mit Mittelwert 0, bei der kleine Werte bevorzugt werden. Also kann man schreiben: s s P (W M) = P (w j M) = N(w j ; 0, σj 2 ) j=1 j=1 N(w j ; 0, σ 2 j ) ist eine Gaussverteilung mit Mittelwert 0 und Varianz σ 2 j, ausgewertet am Punkt w j. Der Gradient, aus dem die Lernregel gewonnen werden soll, ist: C = P (Y M)P (W M) P (Y M) P (W M) = P (W M) + P (Y M) So kann man nun die Lernregel ausrechnen: T α i,t w jk = ηp (W M) β i,t δ j (i, t)o k (t) P (Y M)λ jk w jk b i,t (2) i=1 t=1 Wobei man die Wahrscheinlichkeit P (W M) wie oben beschrieben berechnet, und P (Y M) die Wahrscheinlichkeit C ist. λ jk ist die inverse Varianz der Gaussverteilung für w jk. Diese Lernregel wird Soft Weight Sharing ML Training (SWS-ML) genannt. 5.2 Bayes Training Hier ist die Idee, die Emissionswahrscheinlichkeiten durch das Bayes sche Theorem umzuschreiben: b j,t = P r(y t q j ) = P r(q j y t )p(y t ) Π j Π j = P r(q j ) ist die a priori Wahrscheinlichkeit des Zustands q j, und p(y t ) ist der Wert der Verteilungsfunktion der akustischen Beobachtungen im Merkmalsraum, ausgewertet über die Eingabe y t. Zum Errechnen der Lernregel müssen nun diese Werte geschätzt werden. p(y) kann als typisches Problem der Schätzung einer Dichtefunktion angesehen werden und mit entsprechenden statistisch parametrischen oder nicht parametrischen Methoden geschätzt werden. Diese Schätzung wird vor dem eigentlichen Lernen des Systems durchgeführt. Falls die Eingabedaten so normiert werden, dass p(y) gleichverteilt ist, kann sie sogar vernachlässigt werden. Die a priori Wahrscheinlichkeiten Π j können vor dem eigentlichen Training auf der gesamtem Trainingsmenge geschätzt werden, unter Berücksichtigung des 8

9 Einsatzfeldes, des Sprachmodells und der Topologie der HMMs. Sie basiert also auf Informationen einer höheren Ebene. Um P r(q j y t ) zu schätzen verwendet man ein KNN, das die Wahrscheinlichkeiten wie folgt berechnet: P r(q j y t ) = f j(x j (t)) Q i=1 f i (x i (t)) Hier ist Q die Anzahl aller Zustände in allen HMMs und f j (x j (t)) ist die j-te Ausgabe des KNN. Durch die Normierung der KNN Ausgaben wird sichergestellt, dass die gesuchten Wahrscheinlichkeiten summiert eins ergeben. Mit diesem Ansatz muss nun nicht mehr das KNN eingeschränkt werden, um die Divergenz zu vermeiden, sondern die Ausgaben des KNN werden nur anders interpretiert. Die Ableitung der neuen Emissionswahrscheinlichkeiten sieht dann so aus: b j,t = { } P r(qj y t )p(y t ) Π j = p(y t) P r(q j y t ) Π j = p(y { } t) fj (x j (t)) Π j Q i=1 f i (x i (t)) = p(y 2 t) f i (x i (t)) f Π j i (x i (t)) f j(x j (t)) i=1 i=1 f j (x j (t)) i=1 f j (x j (t)) Damit wird wieder die Lernregel zusammengesetzt: w jk = η T i=1 t=1 α i,t p(y t ) β i,t b i,t Π i 2 f m (x m (t)) (3) m=1 δ j(i, t)o k (t) f m (x m (t)) f i (x i (t)) δ j (m, t)o k (t) m=1 m=1 Diese Lernregel wird Bayes Training genannt. 9

10 5.3 Maximum A Posteriori Kriterium Der dritte Ansatz ist schließlich, nicht die Wahrscheinlichkeit der akustischen Beobachtung zu maximieren, sondern die a posteriori Wahrscheinlichkeit: C MAP = P (M Y ) = P (Y M)P (M) P (Y ) Hier ist nun P (M) die a priori Wahrscheinlichkeit des Modells und P (Y ) ist die allgemeine Wahrscheinlichkeit der akustischen Beobachtung. P (Y ) ist unabhängig von dem Modell M, und P (M) ist unabhängig von den Ausgaben des KNN. Somit kann P (M) separat berechnet werden. Falls die Wörter gleichverteilt sind, kann P (M) sogar komplett weggelassen werden. Für die Maximierung ergibt sich in jedem Fall folgende Wahrscheinlichkeit: C MAP = P (Y M) P (Y ) Nun muss noch der Gradient berechnet werden: w = η C MAP = η { } P (Y M) P (Y ) { } η P (Y M) P (Y ) = P (Y ) P (Y M) [P (Y )] 2 = η { } P (Y M) P (Y M) P (Y ) P (Y ) P (Y ) P (Y M) und die zugehörige Ableitung werden wie in Kapitel 3 beschrieben berechnet. P (Y ) und die Ableitung werden durch ein unabhängiges Modell auf die gleiche Art berechnet. Das unabhängige Modell ist das gleiche, das später für die Erkennung mit dem Viterbi Algorithmus eingesetzt wird. Also ein Modell, in dem kein äußeres Wissen (prior knowledge) über die Transkription der Audiodaten vorhanden ist. Da hier die a posteriori Wahrscheinlichkeit maximiert wird, bezeichnet man den Algorithmus als Maximum A Posteriori Algorithmus (MAP). 6 Ergebnisse Um die neuen Algorithmen zu testen wurde der cdigits Teil der SPK Datenbank verwendet. Dies sind Sprachsignale, die unter Laborbedingungen mit close-talk Mikrofonen aufgenommen wurden. Die Datenbank enthält 1000 Äußerungen von 8 zusammenhängenden, italienischen Ziffernfolgen. Gesprochen wurden diese von 40 10

11 Sprechern (21 männliche und 19 weibliche). Diese Datenbasis wurde in Trainingsund Testmenge aufgeteilt, jeweils 500 Äußerungen von jeweils 20 Sprechern. Diese Daten wurden mit 20ms Hammingfenstern mit 10ms Überlapp abgetastet. Auf jedem Frame wurden dann 8 Mel Frequency Scaled Cepstral Coefficients [8] extrahiert. Außerdem wurde jeweils die log-energie berechnet und die jetzt insgesamt 9 Features wurden normiert. Nun wurden mehrere, verschiedene Fehlerraten betrachtet. Das wichtigste Kriterium ist die Word Error Rate (WER) und das entsprechende Komplement, die Word Recognition Rate (WRR). und W ER = 100(Ins + Del + Sub)/N words % W RR = 100% W ER N words ist die Gesamtanzahl der Worte in den Äußerungen. Der Fehler bestimmt sich über die Insertionen(Ins), Deletionen (Del) und Substitutionen (Sub). Ein weiteres Fehlerkriterium ist Percent Correct (PC): P C = 100 N words (Sub + Del) N words % Außerdem sei noch die String Recognition Rate (SRR) definiert als die Rate der vollständig richtig erkannten Testsequenzen. Für jedes Wort in der Datenbank (italienische Zahlen von 0 bis 9) wurde ein HMM modelliert. Die Anzahl der Zustände variierte zwischen 3 und 6. Word Phonetic transcription Number of HMM 1 uno u n o 3 due d u e 3 tre t r e 3 quattro k w a tt r o 6 cinque ts i n k w e 6 sei s e i 3 sette s e tt e 4 otto o tt o 3 nove n o v e 4 zero ts e r o 4 Tabelle 1 Phonetische Umschreibungen der verwendeten Worte und die entsprechenden Anzahlen der HMM Zustände 11

12 Das HMM wurde mit 8 Gaussian Mixtures modelliert. Die Initialisierung wurde mit dem segmentellen k-means durchgeführt. Trainiert wurde mit dem Baum-Welch Algorithmus und der Test wurde mit dem Viterbi Algorithmus durchgeführt. Das MLP ist ein 2-Schicht Netz mit 93 sigmoiden Neuronen in der verdeckten Schicht und 40 sigmoiden Neuronen in der Ausgabeschicht. Diese Topologie wurde in vorherigen Tests experimentell so gefunden. Die Initialisierung des MLP geschieht folgendermaßen: 1. Eine initiale Segmentierung wird durch vorhandenes Wissen über das passende HMM und durch den Viterbi Algorithmus auf dem vortrainierten HMM geschätzt 2. Die Lehrersignale werden entsprechend der Segmentierung gesetzt. 3. Das MLP wird nun mit dem Backpropagation Algorithms trainiert. 4. Aus dem hybriden System werden mit dem Viterbi Algorithmus neue Lehrersignale gewonnen. 5. Die beiden letzten Schritte können mehrfach wiederholt werden. Die Ergebnisse auf den Testdaten sind geprägt durch: (a) die geringe Größe des Trainingsdatensatzes und (b) durch die starken Unterschiede zwischen den Sprechern in Test- und Trainingsmenge. Die Ergebnisse sind in Tabelle 2 angegeben. Zu beachten ist die Reduktion der WER um 46.34% gegenüber dem normalen HMM. Architecture/algorithm SRR(%) PC(%) WRR(%) HMM with 8-Gaussian mixtures Bourland and Morgans s hybrid ANN/HMM hybrid trained via SWS-ML ANN/HMM hybrid trained via Bayes ANN/HMM hybrid trained via MAP Tabelle 2 String recognition rate (SRR), percent correct (PC) und word recognition rate (WRR) im SPK Test. Das HMM hat 5869 freie Parameter, die hybriden Systeme haben alle 4823 freie Parameter Im Allgemeinen lässt sich also sagen, dass die drei neu vorgestellten Algorithmen alle die Erkennungsraten des alten Ansatzes und der einfachen HMMs weit übertreffen. Der MAP Ansatz ist der Beste der drei Algorithmen. 12

13 Literatur [1] E. Trentin, M. Gori, Robust Combination of Neural Networks and Hidden Markov Models for Speech Recognition, TNN B541. [2] R.P. Lippmann, Review of neural networks for speech recognition, Neural Computation, vol. 1, pp. 1-38, [3] E. Trentin, M. Gori, A survey of hybrid ANN/HMM models for automatic speech recognition, Neurocomputing, vol. 37, no. 1-4, pp , March [4] Y. Bengio, P. Simard and P. Frasconi, Learning long-term dependencies with gradient descent is difficult, IEEE Transactions on Neural Networks, vol. 5, no. 2, pp , 1994, Special Issue on Recurrent Neural Networks, March 94. [5] X. D. Huang, Y. Ariki and M. Jack, Hidden Markov Models for Speech Recognition, Edinburgh University Press, Edinburgh, [6] H. Bourlard and N. Morgan, Connectionist Speech Recognition. A Hybrid Approach, vol. 247 of the Kluwer international series in engineering and computer science, Kluwer Academic Publishers, Boston, [7] Y. Bengio, R. DeMori, G. Flammia and R. Kompe, Global optimization of a neural network-hidden Markov model hybrid, IEEE TRansactions on Neural Networks, vol. 3, no. 2, pp , [8] S. B. Davis und P. Mermelstein, Comparison of parametric representations of monosyllabic word recognition in continously spoken sentences, IEEE Trans. on Acoustics, Speech and Signal Processing, vol. 28, no. 4, pp ,