Spracherkennung Hauptseminar Interaktion von Mensch und Roboter

Größe: px

Ab Seite anzeigen:

Download "Spracherkennung Hauptseminar Interaktion von Mensch und Roboter"

Erika Schumacher
vor 5 Jahren
Abrufe

1 Spracherkennung Hauptseminar Interaktion von Mensch und Roboter Vladislav Lazarov

2 Was ist Spracherkennung?

3 Was ist (automatische) Spracherkennung? Identifikation und Analyse gesprochener Sprache aus gesprochene Äußerung unbekannten Inhaltes die Wörter zu Rekonstruieren Digitalisierung eines analoges Sprachsignals Benutzung verschiedener Algorithmen/Verfahren

4 Einsatzgebiete Quelle: Automatische Spracherkennung von Schukat-Talamazinni

5 Einsatzgebiete Sprachdialogsysteme (Telefonische Auskunft) Diktierfunktionen Steuerung von Geräten Automatisierte Datenerfassung (Call centers) Medizinische Unerstützung bei Krankheiten Spiele / Entertainment Suche in Audioarchiven Maschinelles Dolmetschen Sprecheridentifikation und -verifikation Vladislav.Lazarov@in.tum.de 5

6 Probleme bei Spracherkennung Kontinuierität der Äußerungen Großer Wortschatz, Kombinatorik der Satzbildung Störquellen (Umgebungsgeräusche) Sprechweise (Tempo, Emotion, Aussprache, Artikulationsdruck)

7 Probleme bei Spracherkennung individuelle Sprechermerkmale (Alter, Geschlecht, Gesundheitszustand, etc.) habituelle Sprechermerkmale (Dialekt, nicht native Sprache) Homophone (Meer / Mehr) Vladislav.Lazarov@in.tum.de 7

8 Anforderungen Robustheit Sprecherunabhängigkeit Akustische Variabilität Unterschiede in der Sprechweise Identifizierung von Mehrdeutigkeit (Homophone, Wortgrenzen, syntaktische Mehrdeutigkeit, etc.) Echtzeitverhalten

9 Voraussetzungen für automatische Spracherkennung

10 Gesprochene Sprache Erzeugung eines Sprachschalls durch eine folge von artikulatorische Bewegungen Bandpasssignal (Hauptspekralanteile im Frequenzbereich von ca Hz) Phoneme kleinste bedeutungsunterscheidende Lauteinheit

11 Gesprochene Sprache Silbe: kleinste Lautgruppe im natürlichen Sprechfluss, phonetische Einheit Intonation: Akzentuierung sprachlicher Einheiten zum Zweck der Wortunterscheidung Ausspracheverschleifung: Reduktionskette von der Standardaussprache

12 Spracherkennungsarten einzelne Wörter Gleichwahrscheinlichkeit der Wörter Sprachsteuerung kontinuierliche Sprache Wahrscheinlichkeitstheoretische Ansätze Diktiersysteme spontan gesprochene Sprache Höchste Komplexität

13 Allgemeiner Prozeß Quelle: Automatische Spracherkennung von Schukat-Talamazinni

14 Vorverarbeitung

15 Vorverarbeitung Quelle: Automatische Spracherkennung von Schukat-Talamazinni

16 Abtastung und Quantisierung Aufzeichnung des Sprachsignals (z.b. mittels Mikrofon) Überführung des kontinuierlichen Signals in diskrete Wertefolge Informationsverlust möglich wg. geringe Abtastrate oder Verzerrungen

17 Abtastung und Quantisierung Quelle: Dissertation von Daniel Willett

18 Merkmalgewinnung Quelle: Automatische Spracherkennung von Schukat-Talamazinni

19 Merkmalgewinnung Extraktion einer diskreten zeitlichen Folge von Merkmalsvektoren x(m) digitale Repräsentation des Sprachschalls Reduktion der Datenmenge Erhaltung von wichtige Information für Sprachlautunterscheidung Herausfilterung von sprecherabhängige Informationsanteile und nicht-relevante Umgebungsinformationen

26 Hidden-Markov-Modelle Typen von HMM: Diskrete Hidden-Markov-Modelle Kontinuierliche Hidden-Markov-Modelle Hybride Hidden-Markov-Modelle Schätzung der Parameter duch Algorithmen (Baum- Welch, Viterbi) Optimierung durch Maximum Likelihood Verfahren Trainingskriterium, um Pr[X W] der Beobachtungen bzgl. des Modells zu maximieren

27 Hidden-Markov-Modelle: Probleme Wie kann die Wahrscheinlichkeit der beobachteten Sequenz effizient ermittelt werden? Wie kann für eine Beobachtungssequenz ein optimalen Zustandspfad festgelegt werden? Wie können Parameter eines HMMs angepasst werden, so dass sie die Wahrscheinlichkeit der Sequenz bei gegebenem Modell optimal ist?

28 Alternative: Neuronale Netze Radiale-Basisfunktionsnetze Quelle: Dissertation von Daniel Willett

29 Sprachmodellierung

30 Akustische Modellierung Quelle: Automatische Spracherkennung von Schukat-Talamazinni

31 Sprachmodellierung Bestimmung der a-priori Auftrittswahrscheinlichkeit P[W] beliebiger Wortsequenzen W typische Wortkombinationen für Sprache/Anwendung unwahrscheinliche Wortfolgen Information über Struktur der Sprache Vladislav.Lazarov@in.tum.de 31

32 Sprachmodellierung Wortpaar Grammatiken N-Gramm Grammatiken Backoff-N-Gramm Grammatiken

33 Dekodierung der wahrscheinlichsten Wortfolge Wahrscheinlichkeitstheoretischer Ansatz W* = argmax(pr[w X]) Pr[X W] Auftrittswahrscheinlichkeit der akustischen Beobachtung X der Worfolge W (HMM) Pr[W] absolute, unbedingte Wahrscheinlichkeit der Wortfolge W (Sprachmodell) mit Bayes-Formel: W* = argmax(pr[w].pr[x W]) Vladislav.Lazarov@in.tum.de 33

34 Zusammenfassung und Ausblick

35 Zusammenfassung Quelle: Dissertation von Daniel Willett

36 Ausblick Gesprochene Sprache verstehen Semantische Netze: Knoten, Kanten, verschiedene Beziehungen Scripts: Vorwissen über Abläufe (z.b. Restaurant- Script) Erkennung und Analyse spontan gesprochener Sprache

37 Speech is the mirror of the mind - Seneca (5BC - 65AD) Vladislav.Lazarov@in.tum.de 37

38 Quellen Ernst Günter Schukat-Talamazzini Automatische Spracherkennung Lawrence R. Rabiner A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition Daniel Willet Beiträge zur statistischen Modellierung und effizienten Dekodierung in der automatischen Spracherkennung Stephan Euler Grundkurs: Spracherkennung Vladislav.Lazarov@in.tum.de 38

39 Backup

40 Hamming Fensterfunktion Quelle: Wikipedia

41 Inverse DCT

42 Mel Frequency Cepstral Coefficients Mel: Maßeinheit für die psychoakustische Größe Tonheit trennen von Anregungssignal und Impulsantwort

43 Mel Frequency Cepstral Coefficients Mel: Maßeinheit für die psychoakustische Größe Tonheit trennen von Anregungssignal und Impulsantwort

44 Hidden-Markov-Modelle Beispiel: Wetter S = (s1=regnerisch, s2=bewölkt, s3=sonnig) Startwahrscheinlichkeit = (0, 0, 1) Wahrscheinlichkeit für O:={s3,s3,s1,s1,s3,s2,s3}? P=(O,λ)=π 3 *a 33 *a 33 *a 13 *a 11 *a 31 *a 23 *a 32 = 0, Quelle: A Tutorial on Hidden Markov Models... von Lawrence Rabiner Vladislav.Lazarov@in.tum.de 44

45 Baum-Welch Algorithmus Instanz des EM-Algorithmus benutzt um unbekannten Parameter von HMM zu finden erwartungsmaximierender Algorithmus Maximalwahrscheinlichkeitsschätzungen posterior mode Schätzungen Übergangs- und Emissionswahrscheinlichkeit, wenn nur die Emissionsdaten als Trainingsdaten gegeben

46 Baum-Welch Algorithmus 2. Schritte: forward probability und backward probability Frequenz der Übergangs-Emissions-Paar-Werte dividiert durch die Wahrscheinlichkeit des Gesamtstrings damit Wahrscheinlichkeit wegen Unterlauf nicht 0 wird kann man deren Logarithmen addieren Vladislav.Lazarov@in.tum.de 46

47 Viterbi-Algorithmus v[0][0] = 1.0 for k = 1 to K v[k][0] = 0.0 end for for i = 1 to length do for j = 1 to number_states do maxindex = 1; max = NEGATIVE_INFINITY; for k = 0 to number_states do result = ek(xi) * v[k][i 1] * t[k][j]; if result > max max = result; maxindex = k; endif endfor endfor endfor Vladislav.Lazarov@in.tum.de 47

48 Bayes Formel

Ähnliche Dokumente

Spracherkennung. Gliederung:

Spracherkennung. Gliederung: Spracherkennung Gliederung: - Einführung - Geschichte - Spracherkennung - Einteilungen - Aufbau und Funktion - Hidden Markov Modelle (HMM) - HMM bei der Spracherkennung - Probleme - Einsatzgebiete und