Institut für Technische Informatik und Kommunikationsnetze Eidgenössische Technische Hochschule Zürich Swiss Federal Institute of Technology Zurich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Skript zur Vorlesung Sprachverarbeitung I Departement Informationstechnologie und Elektrotechnik Herbstsemester 2007 Beat Pfister und René Beutler Institut für technische Informatik und Kommunikationsnetze ETH Zürich
Inhaltsverzeichnis Vorbemerkungen 1 1 Grundsätzliches zur Sprache 3 1.1 Sprache als Kommunikationsmittel...................... 3 1.1.1 Lautsprachliche Kommunikation.................... 3 1.1.2 Geschriebene vs. gesprochene Sprache................. 4 1.2 Die Beschreibung von Sprache......................... 5 1.2.1 Die linguistischen Ebenen....................... 1.2.2 Die phonetische Schrift......................... 7 1.2.3 Die akustisch-phonetische Ebene................... 7 1.2.4 Die Prosodie der Sprache........................ 9 1.3 Die menschliche Sprachproduktion...................... 10 1.3.1 Übersicht über den Sprechapparat................... 10 1.3.2 Die Funktion des Sprechapparates................... 10 1.3.3 Die Artikulation der Sprachlaute................... 11 1.4 Das menschliche Gehör............................. 12 1.4.1 Die Wahrnehmung der Schallintensität................ 13 1.4.2 Periodizität und Tonhöhe....................... 13 1.4.3 Die Phasenwahrnehmung........................ 15 1.4.4 Der Verdeckungseffekt......................... 15 1.4.5 Wahrnehmung der Sprachlaute.................... 1 1.5 Komplexität der Sprache............................ 17 2 Übersicht über die Sprachverarbeitung 19 2.1 Was in einem Sprachsignal steckt....................... 19 2.2 Teilgebiete der Sprachverarbeitung...................... 20 2.3 Sprachcodierung................................. 21 i
ii Vorlesung Sprachverarbeitung I HS 2007 2.3.1 Signalformcodierung.......................... 23 2.3.1.1 Logarithmischer Kompander................. 23 2.3.1.2 Differenz-Codierer...................... 24 2.3.2 Modellierung von Sprachsignalen................... 25 2.4 Sprachsynthese................................. 2 2.5 Spracherkennung................................ 27 2. Sprecheridentifikation.............................. 28 3 Darstellung und Eigenschaften des Sprachsignals 31 3.1 Digitalisieren von Sprachsignalen....................... 31 3.1.1 Bandbegrenzungsfilter......................... 31 3.1.2 Zeit- und Amplitudendiskretisierung................. 33 3.1.3 Rekonstruktionsfilter.......................... 33 3.2 Darstellung digitaler Sprachsignale im Zeitbereich.............. 35 3.3 Darstellung im Frequenzbereich........................ 3 3.4 Kombinierte Zeit-Frequenz-Bereichs-Darstellungen.............. 39 3.5 Sprachmerkmale und ihre Darstellung..................... 41 3.5.1 Grundfrequenz............................. 42 3.5.2 Formanten................................ 42 3.5.3 Dauer der Laute............................ 44 3.5.4 Intensität der Laute.......................... 44 4 Analyse des Sprachsignals 45 4.1 Kurzzeitanalyse................................. 45 4.2 Kurzzeitspektrum................................ 4 4.2.1 Diskrete Fouriertransformation.................... 4 4.2.2 Eigenschaften der DFT......................... 49 4.2.3 Fensterfunktionen............................ 49 4.2.4 Die Frequenzauflösung der DFT.................... 52 4.2.5 Zeitabhängige Fouriertransformation................. 54 4.3 Das Leistungsdichtespektrum......................... 5 4.3.1 Schätzung des Leistungsdichtespektrums mittels DFT........ 5 4.3.2 Eigenschaften des Periodogramms................... 5 4.4 Die Autokorrelation............................... 57 4.4.1 Definition der Autokorrelationsfunktion................ 57
Vorlesung Sprachverarbeitung I HS 2007 iii 4.4.2 Eigenschaften der Autokorrelationsfolge................ 58 4.4.3 Kurzzeit-Autokorrelation........................ 59 4.5 Lineare Prädiktion............................... 2 4.5.1 Herleitung der LPC-Analyse...................... 2 4.5.1.1 Autokorrelationsmethode.................. 4 4.5.1.2 Kovarianzmethode...................... 4.5.2 Sprachmodellierung mittels linearer Prädiktion............ 4.5.3 Interpretation der linearen Prädiktion................. 73 4.5.4 Die Präemphase............................. 74 4. Homomorphe Analyse............................. 75 4..1 Das verallgemeinerte Superpositionsprinzip.............. 75 4..2 Homomorphe Systeme......................... 75 4..3 Das DFT-Cepstrum........................... 7 4..4 Das LPC-Cepstrum........................... 79 4..5 Das Mel-Cepstrum........................... 80 4.. Das Delta-Cepstrum.......................... 82 4..7 Mittelwertfreie Cepstren........................ 83 4..8 Die cepstrale Distanz.......................... 85 4.7 Vektorquantisierung............................... 85 4.7.1 Realisation der Vektorquantisierung.................. 8 4.7.2 Generieren eines Codebuches...................... 88 4.7.2.1 K-means-Algorithmus.................... 88 4.7.2.2 LBG-Algorithmus...................... 89 5 Einführung in die Sprachsynthese 91 5.1 Zusammenhang zwischen Lautsprache und Schrift.............. 92 5.2 Teile der Sprachsynthese............................ 93 5.2.1 Die Transkription............................ 94 5.2.2 Die phonoakustische Stufe....................... 95 5.3 Lautinventar für die Sprachsynthese...................... 9 5.3.1 Linguistische Grundlagen........................ 9 5.3.2 Festlegen der Lautdifferenzierung................... 97 5.4 Verfahren für die Sprachsignalproduktion................... 98 5.4.1 Der artikulatorische Ansatz...................... 98 5.4.2 Der Signalmodellierungsansatz..................... 99
iv Vorlesung Sprachverarbeitung I HS 2007 5.4.2.1 Wichtige Eigenschaften von Sprachsignalen........ 99 5.4.2.2 Sprachsignalerzeugung mit dem LPC-Modell........ 100 5.4.2.3 Sprachsignalerzeugung mit dem Formantmodell...... 101 5.4.3 Der Verkettungsansatz......................... 102 5.5 Sprachsynthese nach dem Verkettungsansatz................. 103 5.5.1 Wahl der Grundelemente........................ 104 5.5.2 Ausschneiden von Grundelementen.................. 104 5.5.3 Veränderung der prosodischen Grössen................ 107 5.5.3.1 Dauer- und F 0 -Veränderung mittels LPC.......... 108 5.5.3.2 Dauer- und F 0 -Veränderung mittles Fourier-Analyse- Synthese............................ 109 5.5.3.3 Dauer- und F 0 -Veränderung mittels PSOLA........ 111 5. Steuerung der Prosodie............................. 114 5..1 Dauersteuerung............................. 115 5..1.1 Die Lautdauer beeinflussende Faktoren........... 11 5..1.2 Dauersteuerung mit einem linearen Ansatz......... 118 5..1.3 Dauersteuerung mit einem neuronalen Netz........ 121 5..2 Grundfrequenzsteuerung........................ 123 5..2.1 Die Tonhöhe beeinflussende Faktoren............ 124 5..2.2 Stilisierung von Grundfrequenzverläufen.......... 125 5..2.3 Linearer Ansatz der Grundfrequenzsteuerung....... 127 5..2.4 Steuerung der Grundfrequenz mit einem neuronalen Netz. 130 5..3 Intensitätssteuerung.......................... 133 5..4 Umsetzung der prosodischen Grössen auf die Laute......... 134 5..5 Prosodische Veränderung der Grundelemente............. 135 Einführung in die Spracherkennung 137.1 Die Aufgabe der Spracherkennung....................... 137.2 Probleme der Spracherkennung........................ 139.3 Anwendungen.................................. 142.4 Einteilung der Spracherkennungssysteme................... 143.5 Historischer Rückblick............................. 145. Merkmalsextraktion............................... 147..1 Mel-Frequency Cepstral Coefficients (MFCC)............ 148..2 Geglättete Mel-Spektren von Vokalen und Frikativen........ 150
Vorlesung Sprachverarbeitung I HS 2007 v..3 Plosivlaute im geglätteten Mel-Spektrogramm............ 151..4 Spektrale Variabilität.......................... 152..5 Rekonstruktion des Signals....................... 152.7 Spracherkennung mittels Sprachmustervergleich............... 154.7.1 Zeitliche Anpassung zweier Sprachmuster............... 15.7.2 Dynamische Programmierung..................... 157.7.3 Dynamische Zeitanpassung (DTW).................. 159.7.4 Anwendungen des DTW-Algorithmus................. 13.8 Statistischer Ansatz der Spracherkennung................... 1 4.8.1 Einleitung................................ 1 4.8.2 Statistische Sicht............................ 1 4.8.3 Hidden-Markov-Modelle (HMM).................... 1 5.8.3.1 Phonetisch-akustische Modelle................ 1.8.3.2 Ein einfaches Lautmodell.................. 1.8.3.3 Ein realistisches Lautmodell................. 1 8.8.3.4 Hidden-Markov-Modelle................... 1 8.8.3.5 HMM als akustisches Modell................ 170.8.3. Parameter eines HMM.................... 171.8.3.7 Grundlegende Algorithmen................. 172.8.4 Aufbau von Spracherkennern mit HMM................ 172.8.4.1 Einzelworterkenner...................... 172.8.4.2 Spracherkenner mit Erkennungsnetzwerk.......... 174.8.4.3 Erkennung kontinuierlicher Sprache............. 17.9 Evaluation der Erkennungsleistung...................... 177.9.1 Wortfehlerrate.............................. 177.9.2 Algorithmus zur Bestimmung der Wortfehlerrate........... 177 A Fourieranalyse und -synthese von Sprachsignalen 181 A.1 Prinzip der Fourier-Analyse-Synthese..................... 182 A.2 Das wirkliche Spektrum eines Signals..................... 184 A.2.1 Die Wahl der Fensterfunktion..................... 185 A.2.2 Analyse eines instationären Signals.................. 187 A.2.2.1 Vermindern der Instationarität eines Signals durch Umtastung............................. 189 A.2.2.2 Fouriertransformation für instationäre Signale....... 190
vi Vorlesung Sprachverarbeitung I HS 2007 A.3 Schätzung des Sprachspektrums........................ 191 A.3.1 Ermittlung schwacher spektraler Komponenten........... 192 A.3.2 Elimination unechter spektraler Maxima............... 194 A.4 Bestimmung der Grundfrequenz........................ 197 A.4.1 Berechnung der Autokorrelation.................... 197 A.4.2 Detektion des AKF-Maximums.................... 199 A.4.3 Erhöhung der Genauigkeit....................... 199 A.5 Rekonstruktion des Sprachsignals....................... 200 B Veränderung der prosodischen Parameter im Kurzzeitspektrum 203 B.1 Dauerveränderung............................... 203 B.1.1 Grundsätzliches zur Dauerveränderung................ 203 B.1.2 Minimale Phasenkorrektur....................... 205 B.2 Grundfrequenzveränderung........................... 20 B.2.1 Prinzip der Grundfrequenzveränderung................ 20 B.2.2 Frequenzskalierung und Formanten.................. 207 B.2.3 Rekonstruktion der Formanten..................... 208 B.2.3.1 Approximation des Spektrums durch lineare Prädiktion.. 208 B.2.3.2 Cepstrale Methode...................... 209 B.2.3.3 Interpolation des wirklichen Spektrums........... 210 B.2.4 Frequenzskalierung und Signalbandbreite............... 211 B.2.4.1 Kompensation der Bandbreitenreduktion.......... 212 B.2.4.2 Erläuterungen zur Bandbreitenkompensation....... 213 C Abtastratenwandler 215 C.1 Stationarisierung von Signalausschnitten................... 215 C.2 Ermitteln von Zwischenabtastwerten..................... 217 C.2.1 Abtastratenvervielfacher........................ 217 C.2.2 Interpolator............................... 218 C.2.3 Abtastratendezimator......................... 219 C.3 Veränderung des Spektrums.......................... 219 C.3.1 Veränderung der Frequenz....................... 220 C.3.2 Veränderung der Amplitude...................... 220 C.3.3 Veränderung der Phase......................... 220 D Grundlagen der Wahrscheinlichkeitstheorie 223
Vorlesung Sprachverarbeitung I HS 2007 vii Literaturverzeichnis 225 Glossar 227 Index 233
viii Vorlesung Sprachverarbeitung I HS 2007
Vorbemerkungen Im Deutschen wird unter dem Begriff Sprache sowohl lautliche als auch geschriebene Sprache (Text) verstanden. 1 Da es in dieser Vorlesung hauptsächlich um den Zusammenhang zwischen lautlicher und textlicher Form von Sprache geht, bzw. um die Umsetzung lautlicher Sprache in Text oder umgekehrt, wird konsequent zwischen den beiden Formen unterschieden: Lautsprache bezieht sich stets mehr oder weniger direkt auf das Sprechen oder Hören und wird je nach Zusammenhang auch als akustische oder gesprochene Sprache oder im technischen Sinne auch als Sprachsignal bezeichnet. Text bezeichnet die normale geschriebene Form der Sprache, für die auch Begriffe wie orthographische oder graphemische Form der Sprache verwendet werden. Die technische Umsetzung von Text in Lautsprache wird als Sprachsynthese bezeichnet. Der quasi umgekehrte Prozess, die Spracherkennung, ermittelt aus der Lautsprache den entsprechenden textlichen Inhalt. Die Zielsetzung dieser zweisemestrigen Vorlesung (SPV I und SPV II) besteht darin, die im Zusammenhang mit Sprachsynthese und -erkennung relevanten Grundlagen zu vermitteln. Dazu gehören insbesondere: - Grundkenntnisse über die menschliche Sprachproduktion und -wahrnehmung 2 - Eigenschaften von Sprachsignalen und ihre Darstellung - Grundkenntnisse in Linguistik, insbes. Phonetik, Morphologie und Syntax - die wichtigsten Transformationen und Methoden der digitalen Sprachsignalverarbeitung - statistische Ansätze zur Beschreibung vieldimensionaler Grössen und komplexer Zusammenhänge (Markov-Modelle und neuronale Netze) - Formulierung und Anwendung von Wissen in der Form von Regeln 1 Im Gegensatz dazu gibt es beispielsweise im Englischen die Begriffe speech und language, wobeimit dem ersten ausschliesslich die lautliche Form der Sprache gemeint ist und der zweite sich hauptsächlich auf die geschriebene Form der Sprache bezieht. Der zweite Begriff wird auch dann verwendet, wenn die Unterscheidung zwischen Lautsprache und Text nicht relevant ist. 2 Physiologische Aspekte werden nur soweit behandelt, als sie für das Verständnis der vorgestellten Modellansätze nötig sind. Das Wesentliche ist dabei nicht das Wie, sondern das Was wir hören. 1
2 Vorlesung Sprachverarbeitung I HS 2007 Ein Teil dieser Grundlagen, insbesondere die in den beiden letzten Punkten aufgeführten Gebiete, werden in SPV II behandelt. Auf kognitive Theorien dafür, wie beim Menschen der Spracherwerb (das Lernen, insbesondere bei Kindern), die Sprachgenerierung (Umsetzung von Gedanken in Sprache) und das Sprachverstehen vor sich gehen, wird jedoch nicht eingegangen, weil sie, zumindest mit dem heutigen Stand des Wissens, keine wesentliche Hilfe zur Lösung der Probleme im Zusammenhang mit der Sprachsynthese und der -erkennung bieten. Aufbauend auf diesen Grundlagen werden die wichtigsten Ansätze zur Sprachsynthese und -erkennung behandelt. In der Sprachsynthese sind dies: - die Umwandlung von Text in eine phonologische Beschreibung, wie sie im ETH- Sprachsynthesesystem SVOX verwirklicht ist, - einfachere und ausgeklügeltere Ansätze zur Steuerung der Prosodie - und verschiedene Möglichkeiten zum Generieren von Sprachsignalen. In der Spracherkennung werden zwei Prinzipien behandelt: - der ältere Mustererkennungsansatz, der primär in einfachen Systemen zur Anwendung kommt - und die moderne statistische Spracherkennung mittels Hidden-Markov-Modellen und N-Grams (Wortfolgestatistik). Der erste Band des Skripts Sprachverarbeitung umfasst sechs Kapitel zu den folgenden Themen: Das erste Kapitel enthält einführende Angaben zur Sprache als Kommunikationsmittel, zur Beschreibung von Sprache, zur Sprachproduktion und zur akustischen Wahrnehmung. Kapitel 2 vermittelt einen Überblick über die verschiedenen Bereiche der Sprachverarbeitung. Dabei werden auch einige der im Rahmen dieser Vorlesung nicht eingehend behandelten Bereiche gestreift. Das 3. Kapitel zeigt wichtige Darstellungen und Eigenschaften von Sprachsignalen. Im Kapitel 4 werden dann die mathematischen Grundlagen der Verarbeitung von Sprachsignalen behandelt, die in den beiden Kapiteln 5 und gebraucht werden, also für die Sprachsynthese und die Spracherkennung.