Sprachverarbeitung I

Ähnliche Dokumente
Sprachsynthese und Spracherkennung

Spracherkennung. 8. Sitzung 3. November 2008

Digitale Signalverarbeitung

Lesen von Sonagrammen I: Grundlagen. Uwe Reichel IPS, LMU München 16. November 2007

Biosignalverarbeitung

Einführung in die Signalverarbeitung

Spracherkennung und Sprachsynthese

Einführung in die Signalverarbeitung Übung I

Sprachsynthese - ein Überblick

Sprachdialogsystem mit robuster automatischer Spracherkennung

Äquivokationen. In der Spracherkennung. Michael Baumann Seminar (mit Bachelorarbeit)

V1/2.S Sprachwissenschaft

Technische Beschreibung der akustischen Signalkette

Inhaltsverzeichnis 1 Vorbemerkungen zur Sprachkommunikation Wahrnehmung und Messung von Schall... 9

Spracherkennung. Gliederung:

Digitale Verarbeitung analoger Signale

Inhaltsverzeichnis. Daniel von Grünigen. Digitale Signalverarbeitung. mit einer Einführung in die kontinuierlichen Signale und Systeme

Signale, Transformationen

Burkhard Röscher. Meßverfahren zur Analyse DQPSK-modulierter OFDM-Signale

Spanisch: Phonetikund Phonologie

Grundlagen der Analyse von Sprachdatenbanken. Jonathan Harrington

Messung & Darstellung von Schallwellen

Prof. Dr. Marcus Spies Institut f. Informatik LMU München

9.1.3 Der Verkettungsansatz

Numerische Methoden. Thomas Huckle Stefan Schneider. Eine Einführung für Informatiker, Naturwissenschaftler, Ingenieure und Mathematiker.

Einführung in die Phonologie und Graphematik

Automatische Spracherkennung

Sitzung 5. Spektrogramm

Digitale Signalverarbeitung. mit MATLAB

Akustische Phonetik. Uwe Reichel, Phil Hoole IPS, LMU München

Gunnar Fant (1960): Acoustic theory of speech production. Gerold Ungeheuer (1962): Elemente einer akustischen Theorie der Vokalartikulation

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick

Einführung in die automatische Spracherkennung. SS 2007 Klaus Kasper

Digitale Signalverarbeitung

Einführung in die Signalverarbeitung

RelAtive SpecTrAl (RASTA) Processing of Speech

Sprachverstehen. Vorlesung an der TU Chemnitz Wintersemester 2012/2013 Dr. Johannes Steinmüller

Signale und Systeme. Grundlagen und Anwendungen mit MATLAB

Spracherkennung Hauptseminar Interaktion von Mensch und Roboter

Inhalt. Vorwort Einführung 15

Martin Meyer. Signalverarbeitung. Analoge und digitale Signale, Systeme und Filter 5. Auflage STUDIUM VIEWEG+ TEUBNER

Digitale Signalverarbeitung Bernd Edler

Mustererkennung. Termine: Montag 9:45-11:15, F138 Mittwoch 11:30-13:00, D108 Freitag 11:30-13:00, A210. Skript, Literatur, Anmeldung im Netz

Spektrumanalyse. Inhalt. I. Einleitung 2. II. Hauptteil 2-8

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Algorithmen & Datenstrukturen Blatt 0 HS 17

System- und Signaltheorie

Vorwort. I Einführung 1. 1 Einleitung Signale Systeme Signalverarbeitung Struktur des Buches 9. 2 Mathematische Grundlagen 11

Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT)


R. Oldenbourg Verlag München Wien 1997

Puls-Code-Modulation. Thema: PCM. Ziele

Einführung in die Signalverarbeitung

Phonetische Beiträge zur maschinellen Spracherkennung. ExInTra. "Extrem wertintervallgestützte Transkription",

Digitale Signalverarbeitung Bernd Edler

Einführung in die automatische Spracherkennung. SS 2007 Klaus Kasper

Kapitel 2: Spracherkennung Automatisches Verstehen gesprochener Sprache

Adaptive Systeme. Sommersemester Prof. Dr. -Ing. Heinz-Georg Fehn. Prof. Dr. rer. nat. Nikolaus Wulff

Einführung in die Systemtheorie

Seminar Akustik. Aufgaben zu Teil 1 des Skripts Uwe Reichel, Phil Hoole

Digitale Signalverarbeitung

Spracherkennung. 4. Sitzung 23. Oktober 2008

bonn.de bonn.de

Verfahren zur robusten automatischen Spracherkennung

Einführung in die automatische Spracherkennung

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 17/18 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Administratives. Beat Siebenhaar

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Digitale Signalverarbeitung Bernd Edler

Die akustische Analyse von Sprachlauten.

Merkmalsextraktion mit Hilfe des LPC-Modells

Prosodie Variation und Inferenz Phonologische Grundlagen

4. Beschreibung von LTI-Systemen mit der Fourier-Transformation

Erkennung und Erzeugung gesprochener Sprache

Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16

Akustische basierte Kommunikation

Einführung in die Phonetik und Phonologie. Grundbegriffe

Konsonanten: Artikulationsart

Digitale Signalverarbeitung mit MATLAB

Sprachproduktion- und Sprachperzeption. Jonathan Harrington

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Signale und Systeme Reaktion linearer Systeme auf stationäre stochastische Signale

Transkript:

Institut für Technische Informatik und Kommunikationsnetze Eidgenössische Technische Hochschule Zürich Swiss Federal Institute of Technology Zurich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Skript zur Vorlesung Sprachverarbeitung I Departement Informationstechnologie und Elektrotechnik Herbstsemester 2007 Beat Pfister und René Beutler Institut für technische Informatik und Kommunikationsnetze ETH Zürich

Inhaltsverzeichnis Vorbemerkungen 1 1 Grundsätzliches zur Sprache 3 1.1 Sprache als Kommunikationsmittel...................... 3 1.1.1 Lautsprachliche Kommunikation.................... 3 1.1.2 Geschriebene vs. gesprochene Sprache................. 4 1.2 Die Beschreibung von Sprache......................... 5 1.2.1 Die linguistischen Ebenen....................... 1.2.2 Die phonetische Schrift......................... 7 1.2.3 Die akustisch-phonetische Ebene................... 7 1.2.4 Die Prosodie der Sprache........................ 9 1.3 Die menschliche Sprachproduktion...................... 10 1.3.1 Übersicht über den Sprechapparat................... 10 1.3.2 Die Funktion des Sprechapparates................... 10 1.3.3 Die Artikulation der Sprachlaute................... 11 1.4 Das menschliche Gehör............................. 12 1.4.1 Die Wahrnehmung der Schallintensität................ 13 1.4.2 Periodizität und Tonhöhe....................... 13 1.4.3 Die Phasenwahrnehmung........................ 15 1.4.4 Der Verdeckungseffekt......................... 15 1.4.5 Wahrnehmung der Sprachlaute.................... 1 1.5 Komplexität der Sprache............................ 17 2 Übersicht über die Sprachverarbeitung 19 2.1 Was in einem Sprachsignal steckt....................... 19 2.2 Teilgebiete der Sprachverarbeitung...................... 20 2.3 Sprachcodierung................................. 21 i

ii Vorlesung Sprachverarbeitung I HS 2007 2.3.1 Signalformcodierung.......................... 23 2.3.1.1 Logarithmischer Kompander................. 23 2.3.1.2 Differenz-Codierer...................... 24 2.3.2 Modellierung von Sprachsignalen................... 25 2.4 Sprachsynthese................................. 2 2.5 Spracherkennung................................ 27 2. Sprecheridentifikation.............................. 28 3 Darstellung und Eigenschaften des Sprachsignals 31 3.1 Digitalisieren von Sprachsignalen....................... 31 3.1.1 Bandbegrenzungsfilter......................... 31 3.1.2 Zeit- und Amplitudendiskretisierung................. 33 3.1.3 Rekonstruktionsfilter.......................... 33 3.2 Darstellung digitaler Sprachsignale im Zeitbereich.............. 35 3.3 Darstellung im Frequenzbereich........................ 3 3.4 Kombinierte Zeit-Frequenz-Bereichs-Darstellungen.............. 39 3.5 Sprachmerkmale und ihre Darstellung..................... 41 3.5.1 Grundfrequenz............................. 42 3.5.2 Formanten................................ 42 3.5.3 Dauer der Laute............................ 44 3.5.4 Intensität der Laute.......................... 44 4 Analyse des Sprachsignals 45 4.1 Kurzzeitanalyse................................. 45 4.2 Kurzzeitspektrum................................ 4 4.2.1 Diskrete Fouriertransformation.................... 4 4.2.2 Eigenschaften der DFT......................... 49 4.2.3 Fensterfunktionen............................ 49 4.2.4 Die Frequenzauflösung der DFT.................... 52 4.2.5 Zeitabhängige Fouriertransformation................. 54 4.3 Das Leistungsdichtespektrum......................... 5 4.3.1 Schätzung des Leistungsdichtespektrums mittels DFT........ 5 4.3.2 Eigenschaften des Periodogramms................... 5 4.4 Die Autokorrelation............................... 57 4.4.1 Definition der Autokorrelationsfunktion................ 57

Vorlesung Sprachverarbeitung I HS 2007 iii 4.4.2 Eigenschaften der Autokorrelationsfolge................ 58 4.4.3 Kurzzeit-Autokorrelation........................ 59 4.5 Lineare Prädiktion............................... 2 4.5.1 Herleitung der LPC-Analyse...................... 2 4.5.1.1 Autokorrelationsmethode.................. 4 4.5.1.2 Kovarianzmethode...................... 4.5.2 Sprachmodellierung mittels linearer Prädiktion............ 4.5.3 Interpretation der linearen Prädiktion................. 73 4.5.4 Die Präemphase............................. 74 4. Homomorphe Analyse............................. 75 4..1 Das verallgemeinerte Superpositionsprinzip.............. 75 4..2 Homomorphe Systeme......................... 75 4..3 Das DFT-Cepstrum........................... 7 4..4 Das LPC-Cepstrum........................... 79 4..5 Das Mel-Cepstrum........................... 80 4.. Das Delta-Cepstrum.......................... 82 4..7 Mittelwertfreie Cepstren........................ 83 4..8 Die cepstrale Distanz.......................... 85 4.7 Vektorquantisierung............................... 85 4.7.1 Realisation der Vektorquantisierung.................. 8 4.7.2 Generieren eines Codebuches...................... 88 4.7.2.1 K-means-Algorithmus.................... 88 4.7.2.2 LBG-Algorithmus...................... 89 5 Einführung in die Sprachsynthese 91 5.1 Zusammenhang zwischen Lautsprache und Schrift.............. 92 5.2 Teile der Sprachsynthese............................ 93 5.2.1 Die Transkription............................ 94 5.2.2 Die phonoakustische Stufe....................... 95 5.3 Lautinventar für die Sprachsynthese...................... 9 5.3.1 Linguistische Grundlagen........................ 9 5.3.2 Festlegen der Lautdifferenzierung................... 97 5.4 Verfahren für die Sprachsignalproduktion................... 98 5.4.1 Der artikulatorische Ansatz...................... 98 5.4.2 Der Signalmodellierungsansatz..................... 99

iv Vorlesung Sprachverarbeitung I HS 2007 5.4.2.1 Wichtige Eigenschaften von Sprachsignalen........ 99 5.4.2.2 Sprachsignalerzeugung mit dem LPC-Modell........ 100 5.4.2.3 Sprachsignalerzeugung mit dem Formantmodell...... 101 5.4.3 Der Verkettungsansatz......................... 102 5.5 Sprachsynthese nach dem Verkettungsansatz................. 103 5.5.1 Wahl der Grundelemente........................ 104 5.5.2 Ausschneiden von Grundelementen.................. 104 5.5.3 Veränderung der prosodischen Grössen................ 107 5.5.3.1 Dauer- und F 0 -Veränderung mittels LPC.......... 108 5.5.3.2 Dauer- und F 0 -Veränderung mittles Fourier-Analyse- Synthese............................ 109 5.5.3.3 Dauer- und F 0 -Veränderung mittels PSOLA........ 111 5. Steuerung der Prosodie............................. 114 5..1 Dauersteuerung............................. 115 5..1.1 Die Lautdauer beeinflussende Faktoren........... 11 5..1.2 Dauersteuerung mit einem linearen Ansatz......... 118 5..1.3 Dauersteuerung mit einem neuronalen Netz........ 121 5..2 Grundfrequenzsteuerung........................ 123 5..2.1 Die Tonhöhe beeinflussende Faktoren............ 124 5..2.2 Stilisierung von Grundfrequenzverläufen.......... 125 5..2.3 Linearer Ansatz der Grundfrequenzsteuerung....... 127 5..2.4 Steuerung der Grundfrequenz mit einem neuronalen Netz. 130 5..3 Intensitätssteuerung.......................... 133 5..4 Umsetzung der prosodischen Grössen auf die Laute......... 134 5..5 Prosodische Veränderung der Grundelemente............. 135 Einführung in die Spracherkennung 137.1 Die Aufgabe der Spracherkennung....................... 137.2 Probleme der Spracherkennung........................ 139.3 Anwendungen.................................. 142.4 Einteilung der Spracherkennungssysteme................... 143.5 Historischer Rückblick............................. 145. Merkmalsextraktion............................... 147..1 Mel-Frequency Cepstral Coefficients (MFCC)............ 148..2 Geglättete Mel-Spektren von Vokalen und Frikativen........ 150

Vorlesung Sprachverarbeitung I HS 2007 v..3 Plosivlaute im geglätteten Mel-Spektrogramm............ 151..4 Spektrale Variabilität.......................... 152..5 Rekonstruktion des Signals....................... 152.7 Spracherkennung mittels Sprachmustervergleich............... 154.7.1 Zeitliche Anpassung zweier Sprachmuster............... 15.7.2 Dynamische Programmierung..................... 157.7.3 Dynamische Zeitanpassung (DTW).................. 159.7.4 Anwendungen des DTW-Algorithmus................. 13.8 Statistischer Ansatz der Spracherkennung................... 1 4.8.1 Einleitung................................ 1 4.8.2 Statistische Sicht............................ 1 4.8.3 Hidden-Markov-Modelle (HMM).................... 1 5.8.3.1 Phonetisch-akustische Modelle................ 1.8.3.2 Ein einfaches Lautmodell.................. 1.8.3.3 Ein realistisches Lautmodell................. 1 8.8.3.4 Hidden-Markov-Modelle................... 1 8.8.3.5 HMM als akustisches Modell................ 170.8.3. Parameter eines HMM.................... 171.8.3.7 Grundlegende Algorithmen................. 172.8.4 Aufbau von Spracherkennern mit HMM................ 172.8.4.1 Einzelworterkenner...................... 172.8.4.2 Spracherkenner mit Erkennungsnetzwerk.......... 174.8.4.3 Erkennung kontinuierlicher Sprache............. 17.9 Evaluation der Erkennungsleistung...................... 177.9.1 Wortfehlerrate.............................. 177.9.2 Algorithmus zur Bestimmung der Wortfehlerrate........... 177 A Fourieranalyse und -synthese von Sprachsignalen 181 A.1 Prinzip der Fourier-Analyse-Synthese..................... 182 A.2 Das wirkliche Spektrum eines Signals..................... 184 A.2.1 Die Wahl der Fensterfunktion..................... 185 A.2.2 Analyse eines instationären Signals.................. 187 A.2.2.1 Vermindern der Instationarität eines Signals durch Umtastung............................. 189 A.2.2.2 Fouriertransformation für instationäre Signale....... 190

vi Vorlesung Sprachverarbeitung I HS 2007 A.3 Schätzung des Sprachspektrums........................ 191 A.3.1 Ermittlung schwacher spektraler Komponenten........... 192 A.3.2 Elimination unechter spektraler Maxima............... 194 A.4 Bestimmung der Grundfrequenz........................ 197 A.4.1 Berechnung der Autokorrelation.................... 197 A.4.2 Detektion des AKF-Maximums.................... 199 A.4.3 Erhöhung der Genauigkeit....................... 199 A.5 Rekonstruktion des Sprachsignals....................... 200 B Veränderung der prosodischen Parameter im Kurzzeitspektrum 203 B.1 Dauerveränderung............................... 203 B.1.1 Grundsätzliches zur Dauerveränderung................ 203 B.1.2 Minimale Phasenkorrektur....................... 205 B.2 Grundfrequenzveränderung........................... 20 B.2.1 Prinzip der Grundfrequenzveränderung................ 20 B.2.2 Frequenzskalierung und Formanten.................. 207 B.2.3 Rekonstruktion der Formanten..................... 208 B.2.3.1 Approximation des Spektrums durch lineare Prädiktion.. 208 B.2.3.2 Cepstrale Methode...................... 209 B.2.3.3 Interpolation des wirklichen Spektrums........... 210 B.2.4 Frequenzskalierung und Signalbandbreite............... 211 B.2.4.1 Kompensation der Bandbreitenreduktion.......... 212 B.2.4.2 Erläuterungen zur Bandbreitenkompensation....... 213 C Abtastratenwandler 215 C.1 Stationarisierung von Signalausschnitten................... 215 C.2 Ermitteln von Zwischenabtastwerten..................... 217 C.2.1 Abtastratenvervielfacher........................ 217 C.2.2 Interpolator............................... 218 C.2.3 Abtastratendezimator......................... 219 C.3 Veränderung des Spektrums.......................... 219 C.3.1 Veränderung der Frequenz....................... 220 C.3.2 Veränderung der Amplitude...................... 220 C.3.3 Veränderung der Phase......................... 220 D Grundlagen der Wahrscheinlichkeitstheorie 223

Vorlesung Sprachverarbeitung I HS 2007 vii Literaturverzeichnis 225 Glossar 227 Index 233

viii Vorlesung Sprachverarbeitung I HS 2007

Vorbemerkungen Im Deutschen wird unter dem Begriff Sprache sowohl lautliche als auch geschriebene Sprache (Text) verstanden. 1 Da es in dieser Vorlesung hauptsächlich um den Zusammenhang zwischen lautlicher und textlicher Form von Sprache geht, bzw. um die Umsetzung lautlicher Sprache in Text oder umgekehrt, wird konsequent zwischen den beiden Formen unterschieden: Lautsprache bezieht sich stets mehr oder weniger direkt auf das Sprechen oder Hören und wird je nach Zusammenhang auch als akustische oder gesprochene Sprache oder im technischen Sinne auch als Sprachsignal bezeichnet. Text bezeichnet die normale geschriebene Form der Sprache, für die auch Begriffe wie orthographische oder graphemische Form der Sprache verwendet werden. Die technische Umsetzung von Text in Lautsprache wird als Sprachsynthese bezeichnet. Der quasi umgekehrte Prozess, die Spracherkennung, ermittelt aus der Lautsprache den entsprechenden textlichen Inhalt. Die Zielsetzung dieser zweisemestrigen Vorlesung (SPV I und SPV II) besteht darin, die im Zusammenhang mit Sprachsynthese und -erkennung relevanten Grundlagen zu vermitteln. Dazu gehören insbesondere: - Grundkenntnisse über die menschliche Sprachproduktion und -wahrnehmung 2 - Eigenschaften von Sprachsignalen und ihre Darstellung - Grundkenntnisse in Linguistik, insbes. Phonetik, Morphologie und Syntax - die wichtigsten Transformationen und Methoden der digitalen Sprachsignalverarbeitung - statistische Ansätze zur Beschreibung vieldimensionaler Grössen und komplexer Zusammenhänge (Markov-Modelle und neuronale Netze) - Formulierung und Anwendung von Wissen in der Form von Regeln 1 Im Gegensatz dazu gibt es beispielsweise im Englischen die Begriffe speech und language, wobeimit dem ersten ausschliesslich die lautliche Form der Sprache gemeint ist und der zweite sich hauptsächlich auf die geschriebene Form der Sprache bezieht. Der zweite Begriff wird auch dann verwendet, wenn die Unterscheidung zwischen Lautsprache und Text nicht relevant ist. 2 Physiologische Aspekte werden nur soweit behandelt, als sie für das Verständnis der vorgestellten Modellansätze nötig sind. Das Wesentliche ist dabei nicht das Wie, sondern das Was wir hören. 1

2 Vorlesung Sprachverarbeitung I HS 2007 Ein Teil dieser Grundlagen, insbesondere die in den beiden letzten Punkten aufgeführten Gebiete, werden in SPV II behandelt. Auf kognitive Theorien dafür, wie beim Menschen der Spracherwerb (das Lernen, insbesondere bei Kindern), die Sprachgenerierung (Umsetzung von Gedanken in Sprache) und das Sprachverstehen vor sich gehen, wird jedoch nicht eingegangen, weil sie, zumindest mit dem heutigen Stand des Wissens, keine wesentliche Hilfe zur Lösung der Probleme im Zusammenhang mit der Sprachsynthese und der -erkennung bieten. Aufbauend auf diesen Grundlagen werden die wichtigsten Ansätze zur Sprachsynthese und -erkennung behandelt. In der Sprachsynthese sind dies: - die Umwandlung von Text in eine phonologische Beschreibung, wie sie im ETH- Sprachsynthesesystem SVOX verwirklicht ist, - einfachere und ausgeklügeltere Ansätze zur Steuerung der Prosodie - und verschiedene Möglichkeiten zum Generieren von Sprachsignalen. In der Spracherkennung werden zwei Prinzipien behandelt: - der ältere Mustererkennungsansatz, der primär in einfachen Systemen zur Anwendung kommt - und die moderne statistische Spracherkennung mittels Hidden-Markov-Modellen und N-Grams (Wortfolgestatistik). Der erste Band des Skripts Sprachverarbeitung umfasst sechs Kapitel zu den folgenden Themen: Das erste Kapitel enthält einführende Angaben zur Sprache als Kommunikationsmittel, zur Beschreibung von Sprache, zur Sprachproduktion und zur akustischen Wahrnehmung. Kapitel 2 vermittelt einen Überblick über die verschiedenen Bereiche der Sprachverarbeitung. Dabei werden auch einige der im Rahmen dieser Vorlesung nicht eingehend behandelten Bereiche gestreift. Das 3. Kapitel zeigt wichtige Darstellungen und Eigenschaften von Sprachsignalen. Im Kapitel 4 werden dann die mathematischen Grundlagen der Verarbeitung von Sprachsignalen behandelt, die in den beiden Kapiteln 5 und gebraucht werden, also für die Sprachsynthese und die Spracherkennung.