2. Die Erkennung gesprochener Sprache. Bei der Verarbeitung gesprochener Sprache gibt es zwei Grundaufgaben:

Transkript

1 64 2. Die Erkennung gesprochener Sprache Bei der Verarbeitung gesprochener Sprache gibt es zwei Grundaufgaben: - Ein gegebenes Sprachsignal ist zu verarbeiten, d.h. das System soll mindestens etwas wie eine Transkription erzeugen, eventuell sogar noch die Struktur der Äußerung ermitteln und sie möglicherweise schließlich auch noch verstehen. - Ein gegebener Inhalt ist in eine gesprochene Äußerung umzusetzen. Die einzelnen Schritte dazu werden "in geschriebener Sprache abgewickelt", so daß das Problem der akustischen Synthese ganz an den Schluß verschoben werden kann: Aus einer bereits fertigen und strukturierten schriftlichen Äußerung ist ein akustischer Output herzustellen. Bei vielen Anwendungen (mit kommunikativer Komponente) benötigt man beides. In ihrer Schwierigkeit unterscheiden sich beide Aufgaben beträchtlich - die Synthese ist wesentlich leichter zu realisieren.

2 65 Weiter unten werden einige für die maschinelle Verarbeitung gesprochener Sprache wichtige Modelle und Prozeduren dargestellt. Dabei wird gezeigt, wie die Phonetik/Phonologie als Grundlagendisziplin einzusetzen ist. Die rein technischen Seiten des Gebiets können hier nicht behandelt werden (schon wegen des apparativen Aufwands, der in die Phonetik und nicht in die Computerlinguistik gehört) Allgemeines zu Spracherkennung Hinsichtlich der Schwierigkeiten bei der Spracherkennung ist zunächst festzuhalten, daß eine bei der Synthese befolgte säuberliche Trennung "das Akustische am Schluß" bei der Erkennung nicht unbesehen umgekehrt werden kann. Es läßt sich durch Versuche, bei denen Personen gehörte "Logatome" niederzuschreiben haben, leicht zeigen, daß der akustische Analysator des Menschen sehr unzuverlässig ist. Dies liegt weniger am Analysator als vielmehr am Signal. Dafür gibt es auch viele Beispiele aus dem täglichen Leben (z.b. beim gegenseitigen Bekanntmachen) Daß die Kommunikation dennoch funktioniert, liegt an der Redundanz der Sprache, die aber nur zu einem geringen Teil in der akusti-

3 66 schen Realisierung zu finden ist. Der Mensch greift beim Verstehen einer Äußerung (das Erkennen ist ein Teil davon) auf viele andere Quellen zurück (etwa in einem Gespräch): - Kenntnis des Sprachsystems - Äußerungssituation - Kotext - Deiktisches, Gesten, Mimik - Kommunikationswissen - Hintergrundwissen - individuelle Merkmale des Sprechers Diese Quellen ermöglichen die "Reparatur" der verschiedensten Unbestimmtheiten, aber auch Fehler und Auslassungen in einer Äußerung. So schwer es ist, eine sinnlose aber "einwandfrei" gesprochene Äußerung aufzuschreiben, so leicht ist es, eine sinnvolle, aber ziemlich fehlerhafte und undeutlich gesprochene Äußerung zu verstehen. Die Schwierigkeiten der automatischen Spracherkennung resultieren aus drei Notwendigkeiten, die damit zusammenhängen: 1. Es ist eine Abgrenzung des Outputs der Erkennung zu treffen, d.h. welche Eigenschaften des Sprachsignals soll der Output

4 enthalten und welche Verarbeitungsschritte werden von späteren Stufen ausgeführt Die genannten Quellen müssen für das System verfügbar gemacht werden. 3. Das System muß in die Lage versetzt werden, in einer Entscheidungssituation auf die relevante Quelle oder Information zuzugreifen. Wenn zu viele Entscheidungen offen bleiben oder zu viele Quellen befragt werden müssen, entsteht eine "kombinatorische Explosion", die insbesondere eine Echtzeitverarbeitung unmöglich macht. Die Spracherkennung ist ein ganz typisches Beispiel für die Notwendigkeit, aber auch für die Schwierigkeit, linguistische und mathematisch-technische Methoden adäquat zu verbinden. Die z.t. bestehenden Gegensätze zwischen einem strukturell-linguistischen und einem stochastisch-konnektionistischen Lager können der Computerlinguistik höchstens schaden, wenn keine Integration zustandekommt.

5 Das klassische Schema der Spracherkennung Es beruht auf einem Ablauf, der im wesentlichen mit der linguistischen Ebenenhierarchie korrespondiert und eine Voranstellung der akustischen Analyse favorisiert. Die einzige Wissensquelle ist das Sprachsystem (s.o.), das Schema enthält jedoch nicht die konkreten Kontrollmechanismen für den Einsatz der einzelnen Komponenten. Es besagt auch nichts über die Tatsache, daß jede in einer Stufe nicht beseitigte Unbestimmtheit als eine Alternative an die folgenden weitergereicht wird. Dabei enstehen oft multiplikative Effekte, die kombinatorische Explosion ist vorprogrammiert, wenn man sie nicht durch heuristische Techniken eindämmt. Erläuterungen zum Schema: Zur Darstellung des Sprachsignals und zur Merkmalextraktion s.o. (Phonetik). Die HMM's kommen in dem Schema nicht explizit vor, sie liefern die Worthypothesen (s. 2.5.). Die restlichen Stufen des Schemas entsprechen einer Anwendung von linguistischen LConstraints und LKontrollstrukturen, die sich aus den verschiedenen Ebenen ergeben und in Richtung Sprachverstehen gehen.

6 69

7 Anwendungen der Spracherkennung Bei der Spracherkennung gibt es eine große Skala von Möglichkeiten des Einsatzes, und daraus folgend, sehr unterschiedliche Ansprüche. Es lassen sich mindestens vier Dimensionen unterscheiden: Wortschatz: Wenige Wörter (etwa 50) bis unbeschränkter Wortschatz. Für bestimmte Einsatzfälle (z.b. Kommandos) genügen kleine Wortschätze, für öffentliche Kommunikation läßt sich der Wortschatz kaum beschränken. Syntax: Von einer stark normierten einfachen Syntax bis zum Dschungel der alltäglichen Kommunikation mit fehlerhaften und unvollständigen Sätzen. Viele Systeme verwenden übrigens sehr generelle aber einfache Syntaxmodelle als Kontrollstrukturen für das Ergebnis. Segmentierung: Obligatorische Pausen zwischen den Wörtern bis fließende Rede. Im ersten Fall handelt

8 71 es sich um einen Einzelworterkenner, bei dem gegebenenfalls ein unmittelbares pattern matching mit abgespeicherten "akustischen Wörtern" erfolgen kann. In jedem Fall ersparen die Pausen jedoch die schwierige Erkennung der Wortgrenzen. Unbestimmtheiten bei der Lösung dieser Teilaufgabe haben besonders negative Auswirkungen für die weitere Verarbeitung. Sprecher(un)abhängigkeit: Kleine Menge von Sprechern, auf die das System angelernt wird, bis Sprecherunabhängigkeit. Als Kompromiß die Möglichkeit, das System durch einen Testtext auf den Sprecher zu trainieren. In diesem Zusammenhang ist auch die Möglichkeit der Sprechererkennung zu nennen (unabhängig vom Inhalt). Dies ist z.b. für die Kriminalpolizei von Wichtigkeit und ergäbe einen "akustischen Fingerabdruck" (Telefonat eines Erpressers).

9 Hidden Markov Models (HMM's) (nach Andrei Andrejewitsch Markow ( , St. Petersburg), Begründer der Theorie der (Markowschen) Zufallsprozesse, auch stochastische Prozesse genannt). Die HMM's stellen das wichtigste mathematische Hilfsmittel bei der Erkennung gesprochener Sprache dar. Ihre Anwendung wurde vor allem in den IBM-Laboratorien in Yorktown Heights durch F. Jelinek (JELINEK 1990) vorangetrieben und erreichte Ende der 80er Jahre einen spektakulären Durchbruch Zufallsprozesse Bei einem stochastischen Prozeß nehmen Funktionen (hier X(.)) zufällige (d.h. vorher nicht bekannte oder bestimmbare) Werte an (sie sind Zufallsgrößen). Die Argumente der Funktionen sind "Stellen" oder "Takte" (bei jedem Takt ergibt sich ein Wert). Dies ist eine Annahme, die durch die späteren Anwendungen gerechtfertigt ist. X(t) ist somit der Wert, der sich für die Stelle/den Takt/

10 73 den Versuch t ergibt. Es wird ferner vorausgesetzt, daß die t's Labgezählt werden können und daß sie eine Reihenfolge aufweisen, was die Bezeichnung t n rechtfertigt. Beispiele: 1. Beim Würfeln ergibt sich in jedem Versuch eine natürliche Zahl (bei drei Würfeln zwischen 1 und 18). Die Werte sind nicht gleich wahrscheinlich, so haben 1 und 18 die geringste Wahrscheinlichkeit, die Zahlen `in der Mitte' dagegen eine viel höhere: 18 = = = etc. Der Ausgang jedes Versuchs ist von dem der vorangegangenen Versuche unabhängig, d.h. bei jedem neuen Versuch kann man nur sagen, daß x mit der Wahrscheinlichkeit p(x) eintreten wird, gleichgültig, was man vorher gewürfelt hatte: x = 18: p(x) = 1:216 = 0,0046 x = 17: p(x) = 3:216 = 0,0139 etc. 2. Beim `buchstabenweisen' Lesen von unbekannten dt. Texten hat man wieder eine Menge

11 74 von Werten, die ebenfalls unterschiedlich wahrscheinlich sind (e ist viel häufiger zu erwarten als q). Jede neue Stelle ist ein neuer Versuch, einen Buchstaben zu erhalten. In diesem Fall sind die Versuchsausgänge jedoch nicht unabhängig voneinander. Auch wenn man den Text nicht kennt, kann man gute Wetten darauf abschließen, daß nach einem q ein u kommen wird und nach einem c ein h. Weiß man sogar, daß man eben nacheinander s und c gelesen hatte, so kann man die Wette auf h als nächsten Wert noch erhöhen. Beide Prozesse (Würfeln, Lesen) haben die Eigenschaft, daß ihre Einbettung in die Zeit keinen Einfluß hat (sie sind stationär): Die Verhältnisse ändern sich nicht, wenn man schon eine Stunde gewürfelt hat oder wenn man den Text irgendwo mittendrin beginnt. Dies gilt z.b. für bestimmte Prozesse in der Natur nicht (Wetter, Organismen). Es gibt auch `abstrakte' Prozesse, die nicht stationär sind (etwa selektive "Reduktion"). Ferner gilt für diese Prozesse, daß man - wenn überhaupt - eine beste Voraussage aus den Ergebnissen der unmittelbar vor dem betrachteten Versuch liegenden Versuche ableiten kann: Was 3 Stellen nach q kommt, läßt sich nur noch sehr schwer sagen. Die

12 Vergangenheit wird immer unwichtiger, je weiter sie entfernt ist. Auch das muß eo ipso nicht gelten: t n sind die Jahre, X(.) die Maikäfer-Populationen. 75 Ein konkretes Würfelspiel oder das Lesen eines bestimmten Textes sind Realisierungen des jeweiligen Prozesses. Die Beschreibung des Prozesses ist ein Modell dessen, was man bei einer Realisierung "erwarten" kann. Je besser das Modell, um so bessere Wetten kann man bei jeder Realisierung abschließen. Für das Würfeln und (mit einer gewissen Unsicherheit, die hier keine Rolle spielt) auch für das Lesen kann man Lbedingte Wahrscheinlichkeiten dafür ermitteln, welche Zahl/welcher Buchstabe x n vorkommen wird, wenn man schon einige vorangehende Zahlen/- Buchstaben kennt: P(X(t n ) = x n * X(t n-1 ) = x n-1, X(t n-2 ) = x n-2,...) Dies ist die Wahrscheinlichkeit dafür, beim n!ten Versuch - die Zahl x n zu würfeln, - den Buchstaben x n zu lesen, wenn man in den vorangegangenen Versuchen

13 - die Zahlen... x n!2, x n!1 gewürfelt - die Buchstaben... x n!2, x n!1 gelesen hat. Die Wahrscheinlichkeiten in den folgenden Beispielen mit "." sind "Schätzungen"! Für das Lesen: 76 P(X(t n ) = u * X(t n-1 ) = q). 0,99 P(X(t n ) = h * X(t n-1 ) = q). 0 P(X(t n ) = h * X(t n-1 ) = c, X(t n-2 ) = s,). 0,95 (nicht = 1 wegen Scala, Script,...!) P(X(t n ) = u * X(t n-1 ) = c, X(t n-2 ) = s,). 0 (nicht = 0 wegen Escudo,...!) Für das Würfeln: P(X(t n ) = 18 * X(t n-1 ) = 1) = P(X(t n ) = 18 * X(t n-1 ) = 2) =... P(X(t n ) = 18 * X(t n-1 ) = 18) = 1:216 Beim Würfeln sind die bedingten Wahrscheinlichkeiten überflüssig, beim Lesen keinesfalls. Das Würfeln wird im folgenden nicht mehr betrachtet, da die Struktur dieses

14 77 Prozesses für das zu behandelnde Problem offensichtlich zu einfach ist. Insbesondere gilt beim Würfeln P(áâ) = P(á)P(â) Motivation der HMM's Man kann für derartige Prozesse wie das Lesen eines unbekannten Textes einer bekannten Sprache ein mathematisches Modell schaffen, in dem man die offensichtlich vorhandenen statistischen Gegebenheiten ausnützt. Dieses Modell soll einerseits aussagekräftig genug sein, um - erfolgreiche Wetten zu gestatten, d.h. die "realen" Erwartungen während des Prozesses zu beschreiben; - bestimmte Buchstabenketten als Ausnahmen oder als ungewöhnlich zu kennzeichnen, ohne sie völlig zu verwerfen; - im Falle eines unkenntlichen oder fehlenden Buchstabens eine Ergänzung vornehmen zu können, und zwar so: "Wahrscheinlich steht hier der Buchstabe..., es könnte aber auch... sein." Das Modell soll andererseits nicht zu kompliziert und aufwendig sein. Betrachtet man die oben bereits angegebenen Eigenschaften des "Leseprozesses", so bietet es sich an, dafür als stochastisches Modell

15 78 gerade eines zu wählen, das auf der Kenntnis der bedingten Wahrscheinlichkeiten beruht: P(X(t n ) = x n * X(t n-1 ) = x n-1 ) (die Wahrscheinlichkeit dafür, daß man x n erwarten kann, wenn man gerade x n-1 hatte) Anders formuliert, das Modell gibt vom gerade vorliegenden Wert (d.h. Buchstaben) ausgehend die Wahrscheinlichkeit der unmittelbar nächsten Werte an, der Prozeß wird als ein Prozeß ohne Gedächtnis modelliert, d.h. die fernere Vergangenheit wird ausgeblendet. Seine Basis sind die Wahrscheinlichkeiten der Buchstabenpaare, die man statistisch ermitteln kann (für das Deutsche einschließlich Leerstelle 31x31 Paare): P(a,a) P(a,b) P(a,c)... = P(a) P(b,a) P(b,b) P(b,c)... = P(b) P(c,a) P(c,b) P(c,c)... = P(c) = P(a) = P(b) = P(c) = 1

16 79 In dieser Matrix beträgt die Summe aller Werte Eins. Daraus ergeben sich zunächst die absoluten Wahrscheinlichkeiten der Buchstaben als P(a) = P(a,a) + P(a,b) + P(a,c) +... (Zeilensumme) oder = P(a,a) + P(b,a) + P(c,a) +... (Spaltensumme) Die bedingten Wahrscheinlichkeiten sind schließlich P(â,á) P(X(t n ) = á * X(t n-1 ) = â) = P(â) oder vereinfacht, da stationär: z.b. P(â,á) P(á*â) = P(â) P(q,u) P(u*q) = ,99 P(q) (qu kommt fast so häufig vor wie q, d.h. fast alle q's haben ein u nach sich)

17 80 Man kann ebenso die Matrix der bedingten Wahrscheinlichkeiten bilden: P(a*a) P(b*a) P(c*a)... = 1 P(a*b) P(b*b) P(c*b)... = 1 P(a*c) P(b*c) P(c*c)... = HINWEIS: Man beachte, daß diese Matrix in ihrer Bezeichnung(!) gegenüber der obigen gestürzt ist, da P(á*â) für â,á steht. Dies ist das endgültige Modell für das Lesen eines Textes in einer Sprache, für die diese Matrix zutrifft. Für die Spracherkennung muß ein solches Modell noch um eine Komponente erweitert werden: Der Spracherkenner "liest" (de facto: hört) ja keine ganzen Phoneme oder Laute, sondern Bruchstücke davon, die sich in bestimmter Weise zu diesen größeren Einheiten kombinieren. Die Statistik ist daher auf derartige Stücke zu beziehen, und ferner ist - wieder statistisch - festzulegen, wovon ein bestimmtes Stück welcher Teil sein könnte.

18 Was ist hidden an den HMM's? Damit man zu einer mathematisch handhabbaren Definition kommt, muß man den Leseprozeß in einen Schreibprozeß umwandeln, d.h. ein Modell für die Produktion von Buchstabenfolgen schaffen (d.h. wie beim Würfeln, wo die Folge ja auch erst geschaffen wird). Dies gelingt, indem Zustände eingeführt werden und die bedingten Übergangswahrscheinlichkeiten auf diese Zustände bezogen werden. Zu jedem Zustand müssen außerdem Wahrscheinlichkeiten dafür angegeben werden, welcher Buchstabe bei welchem Zustand als Output erscheint. Das folgende Beispiel aus WHEDDON/ LINGGARD 1990: 212ff. ist ein solches Modell. Es zeigt einen left-right-ablauf, der für HMM's nicht charakteristisch ist, für die Sprachproduktion und -erkennung aber schon. Die Matrix A ist daher eine Dreiecksmatrix. Außerdem zeigen die Zustände ein gewisses "Beharrungsvermögen" - ebenfalls typisch für die gesprochene Sprache, da die betrachteten Intervalle sehr kurz sind. Die Matrix A = [a ij ] gibt die Übergangswahrscheinlichkeiten zwischen den Zuständen an: P(s n * s n-1 ) = a ij

19 z.b. n * state1@t n-1 ) = 0,3 (= a 12 ) 82 s j,s i 0 {1, 2, 3, 4, 5} Die Matrix B = [b jk ] gibt an, mit welcher Wahrscheinlichkeit in einem Zustand ein Symbol ausgegeben wird: P(outputting v k from state s j ) = b jk z.b. P(outputting A from state2) = 0,3 (= b 21 ) v k 0 {A, B, C, Z} Schließlich wird noch eine "Initialzündung" benötigt, um den stochastischen Prozeß in Gang zu setzen. Dies leistet der Vektor ð, der ausdrückt, daß mit einer Wahrscheinlichkeit von je 0,5 der Startzustand 1 oder 2 sein kann, aber nicht 3, 4 oder 5. Außerdem ist festzulegen, bei welchen Zuständen der Prozeß anhalten darf (hier: 5).

20 83

21 84 Folgende Ketten sind für diesen Prozeß - relativ wahrscheinlich: B B A A C B B C B Z Z C C B B B A B B C B B B B Z - extrem unwahrscheinlich, aber möglich: A C C Z C A A C Z - unmöglich: (Anfangsbedingung ð verletzt) Z , (Matrix A verletzt) (Matrix B verletzt)

22 ... A Z ,4... 2,4 (Endbedingung verletzt)... B Der nächste begriffliche Schritt geht davon aus, daß für mögliche Ketten von Ausgabesymbolen die Zustandsfolgen nicht eindeutig bestimmt sein müssen und daß damit stochastische Bewertungen verbunden sind: 0,8 0, B B.... B B.. 0,7 0,7 0,2 0,7 Die linke Zuordnung ist etwa 10mal besser als die rechte (0,056 vs. 0,006). Wenn die Umgebung von "B B" dies erlaubt (wie z.b. am Beginn einer Kette), wird man die linke wählen, da es nach rechts keine Auswirkungen gibt. Im allgemeinen muß man die gesamte Umgebung der betrachteten Teilkette berücksichtigen. Fazit: Zu möglichen Symbolketten gibt es bessere und schlechtere Zustandsfolgen. Die Aufgabe besteht darin, zu einer vorgegebenen Kette eine beste Zustandsfolge zu finden, wenn es überhaupt eine gibt. Diese zunächst

23 verborgene Folge ist dann die/eine beste Korrespondenz dieser Kette zum Modell Anwendung der HMM's Die Artikulation kann vereinfacht als ein Prozeß betrachtet werden, bei dem - eine (geordnete) Folge von (artikulatorischen) Zuständen durchlaufen wird und - jeder Zustand einen gewissen Output liefert. Was man hört, ist der Output, er kann beobachtet werden, was man nicht unmittelbar beobachten kann, sind die Zustände. Einige Zustände sind partiell beobachtbar (man denke etwa an das Lippenlesen und das Synchron-Sprechen, dies ist jedoch marginal). Sowohl bei der Folge der Zustände als auch beim Verhältnis "Zustand - Output" muß man von probabilistischen Beziehungen ausgehen, u.a. auch wegen folgender Aspekte: - individuelle Sprechermerkmale - Unterschiedliches Sprechtempo - prosodische Merkmale (Wort im Satz!) Aufgrund der Komplexität der Artikulation muß die Anzahl der Zustände als sehr groß angenommen werden, insbesondere wenn man in

24 87 einem Modell artikulatorische Übergänge, Assimilationen etc. angemessen berücksichtigen will. Die folgenden Betrachtungen gehen davon aus, daß HMM's auf einzelne Worte bezogen werden. Dabei kann man die Zustandsmenge für das gesamte Vokabular "universell" definieren (bestimmte Zustände kommen bei bestimmten Wörtern dann eben nicht vor). Die Modelle werden in einer Trainingsphase entwickelt. Die entscheidende Voraussetzung dafür ist die `Merkmalisierung' der akustischen Parameter im Sprachsignal (durch Merkmalvektoren). Dies wird u.a. durch eine Quantifizierung von Formanten erreicht (Zuordnung zwischen Frequenzbändern und Intensitäten). Pro Wort gibt es ein HMM (oder mehrere, hier ignoriert), und die Modelle werden bei der Erkennungsphase eingesetzt.

25 88

26 89 Die Anwendung der HMM's geschieht nach folgendem Schema: Es sind (nach der Trainingsphase) vorgegeben: 1. die HMM's M 1, M 2,... M r,... für die Elemente W 1, W 2,... W r,... des Vokabulars. Jedes M r ist als Tripel [A r, B r, ð r ] definiert. Sei M eines dieser HMM's. Für M existieren 2. die Zustandmenge {s 1,... s i,... s j,...}, 3. das Output-Aphabet {v 1,... v k,...}, 4. die Matrix A = [a ij ], 5. die Matrix B = [b jk ], 6. der Vektor ð. Die Output-Symbole v k von M werden in Beziehung gesetzt zu Vektoren O 1,... O m,... d.h. jedes Auftreten eines O m wird als ein v k in das HMM M eingeordnet. Es sei O = O 1,... O t,... O T eine Folge von

27 90 Vektoren, die eine gesprochene Realisierung eines Wortes repräsentiert. Bei Annahme eines M r (oder "universell", s.o.) entsteht daraus eine Folge V von v's mit T Stellen. Für jedes M r ist zu ermitteln, ob diese Folge V bei M r möglich ist und, wenn ja, welche Wahrscheinlichkeiten sich für die einzelnen Zustandsfolgen ergeben. Es sei P(O * M r ) diese Wahrscheinlichkeit bei einer besten Zustandsfolge in M r. Die Sequenz O wird denjenigen Wörtern (gewöhnlich natürlich nur einem) W r zugeordnet, für die P(O * M r ) einen maximalen Wert erreicht, der oberhalb einer gewissen Schwelle liegt (letzteres kann entfallen, wenn O ein Wort aus dem gelernten Vokabular repräsentiert). Die Berechnung von P(O * M r ) (und vorher: für die einzelnen Zustandsfolgen) ergibt bei der realen Anwendung einen sehr hohen Rechenaufwand. Es gibt verschiedene Verfahren, dies abzukürzen. Bei der Erkennung über die Wortgrenzen hinaus kann man sich nicht darauf beschränken, nur die Zuordnung zu berücksichtigen, die auf der Maximierung von P(O * M r ) basiert.

28 91 Andere Kriterien (z.b. Grammatik) können das Ergebnis des Erkenners umstoßen, so daß man dann auf suboptimale Zuordnungen zurückgreifen muß - wie bei der menschlichen Spracherkennung übrigens auch! Die Methode der HMM's hat in den letzten Jahren unerwartet gute Ergebnisse für die Spracherkennung geliefert. Auf dieser Basis gibt es relativ leistungsfähige Systeme. Die Szene ist gegenwärtig etwas unübersichtlich, da sehr in Bewegung. Es gibt bereits relativ leistungsfähige Erkenner auf der Basis von Windows-95. Von besonderer Bedeutung ist das bei IBM in Yorktown Heights von F. Jelinek entwickelte System Tagora, von dem auch eine bei IBM Deutschland entwickelte Version für das Deutsche existiert, deren Leistungsparameter bemerkenswert sind (auch PC-Version von VoiceType) Es gibt auf diesem Gebiet sogar regelmäßige Wettbewerbe zwischen den Systemen. Bei dieser Aufgabe ist dies sinnvoll und objektiv ausführbar.

29 Worthypothesengraphen Wenn es um die Erkennung ganzer Sätze und fließender Rede geht, müssen die im klassischen Schema der Spracherkennung (s. 2.2.) aufgeführten letzten Stufen durchlaufen werden. Die HMM's haben als Output Wortformen mit einer Gewichtung/Bewertung. Jede der Wortformen ist einem oder mehreren Zeitintervallen zugeordnet. Man kehrt die Beziehung besser um und definiert die für den Zweck benötigten Graphen so: Vorgegeben: Ein Zeitintervall T, aufgeteilt in Abschnitte t 1, t 2, t 3,... t N. (konkret: wie üblich 10 ms). Ein Hypothesengraph über T sei eine Menge P von Indexpaaren {[x1,y1], [x2,y2],... [xm,ym]} mit 1 # xm < ym # N für alle 1 # m # M, für die folgendes gilt: Es sei A m das durch t xm, t ym begrenzte Teilintervall und A = {A 1,... A m }. Dann gibt es zu jedem A 0 A Teilintervalle A 1, A 2,... aus A, so daß A, A 1, A 2,... paarweise disjunkt sind und A c A 1 c A 2 c... = T ist (A, A 1, A 2,... ist eine Zerlegung von T). n (=N)

30 m 1 x----x----x (t x1 = 1, t y1 = 3) A 1 2 x----x----x----x----x A 2 3 x----x A 3 4 x----x----x A 4 5 x----x A 5 6 x----x----x A 6 7 x----x A 7 (= M) 93 x x x----x (Störenfried) (Störenfried) Es gibt insgesamt folgende Durchläufe: x----x----x x----x x----x x----x x----x----x x----x----x x----x----x x----x----x----x----x x----x x----x Die harte Bedingung "die A m bilden ein Zerlegung" muß im praktischen Fall abschwächen oder fallen lassen, sie ist nur als Tendenz zu verstehen (s. Beispiel). Ein Worthypothesengraph sei ein Hypothesengraph, bei dem jedem Teilintervall A m eine Wortform zugeordnet ist. Diese Graphen sind ein formales Mittel zur Darstellung des Outputs des Spracherkenners.

31 94 Jedes t entspricht einem Abtastintervall. Die HMM's liefern für bestimmte Intervalle mögliche Phonemketten (hier gleich graphematisch dargestellt) und eine Wahrscheinlichkeit dafür, daß diese Hypothese zutrifft. Die anschließende Analyse muß eine Kette finden, die die gesamte Äußerung überschneidungsfrei abdeckt und den vorgegebenen Beschränkungen hinsichtlich Korrektheit genügt. Das folgende Ergebnis stammt von einem Spracherkenner an der Hamburger Universität und entstand im Projekt ASL (Architectures for Speech and Language). -SIL steht für Stille. Die Bewertungen sind Logarithmen zur Basis von Modellwahrscheinlichkeiten, näher an 0 sind bessere Bewertungen. Die Bewertungen sind längennormalisiert, also direkt vergleichbar.

32 95

33 96

34 97