Musterlösung zur Probeklausur Multilinguale Mensch Maschine Kommunikation 2013

Aufgabe 1: Divers (10 Punkte) Kreuzen Sie für die folgenden Aussagen an, ob sie wahr oder falsch sind. Hinweis: Für jede richtige Antwort gibt es einen Punkt, für jede falsche Antwort wird ein Punkt abgezogen. Wenn Sie kein Kreuz setzen, bekommen Sie weder Plus- noch Minuspunkt, für das Ankreuzen beider Möglichkeiten wird ein Punkt abgezogen. Die gesamte Aufgabe wird mit mindestens 0 Punkten bewertet. a) Morpheme-basierte Sprachmodelle sind besonders hilfreich bei Sprachen mit wenig Flexion wie z.b. bei Englisch. (für Sprachen mit hoher Morphologie) wahr: falsch: 2

b) In der Spracherkennung werden normalerweise ergodische HMMs verwendet. (Left-to-right model) wahr: falsch: 3

c) Man benötigt mehr Textdaten um ein Trigramm-Sprachmodell angemessen zu trainieren als ein Bigramm-Sprachmodell angemessen zu trainieren. ( angemessen bedeutet dass alle Parameter ausreichend gut geschätzt werden mit maximal 1% Abweichung ihres tatsächlichen Wertes). wahr: falsch: 4

d) Triphone modellieren Phoneme basierend auf deren drei linken und drei rechten Nachbarn. (Triphone basierend auf dem linken und dem rechten Nachbarn) wahr: falsch: 5

e) Für eine gegebene Menge an Audiodaten eines Sprechers ist ein Sprecherunabhängiges System besser als ein Sprecher-abhängiges System, weil es robuster ist. (Adaption) wahr: falsch: 6

f) Die Wortfehlerrate basiert auf der Summe der Fehler durch Wort-Einfügungen, Löschungen und Substitutionen. wahr: falsch: 7

g) Ein typisches 3-State Phonem-HMM (wie in der Vorlesung definiert) zu durchlaufen dauert mindestens 30ms (wenn kein Zustand mit einer Kante übersprungen werden kann). wahr: falsch: 8

h) Bei der Adaption mit MAP (maximum a posteriori) werden nur die Parameter geändert, für die Adaptionsdaten vorhanden sind. wahr: falsch: 9

i) Der DTW (Dynamic Time Warp) Algorithmus eignet sich gut für die Erkennung von kontinuierlicher Sprache. (generalisiert nicht, Sprecher-abhängig, Beispiele für jedes Wort von jedem Sprecher benötigt, hoher Rechenaufwand bei großen Vokabularen) wahr: falsch: 10

j) Die z-transformation ist ein Spezialfall der diskreten Fouriertransformation. (Generalisierung der diskreten Fouriertransformation) wahr: falsch: 11

k) Logographische Schriftzeichen stellen für die automatische datengetriebene Aussprachegenerierung ein Problem dar. wahr: falsch: 12

Aufgabe 2: Vorverarbeitung (5 Punkte) 1) In der Vorverarbeitung wird ein akustisches Signal in eine Sequenz von Merkmalsvektoren transformiert. Geben Sie eine Sequenz von Schritten an, die nötig sind, um aus dem Audiosignal eine Sequenz von spektralen Merkmalsvektoren zu extrahieren. [2 Punkte] Lösung: (a) Sampling (b) Quantisierung (c) Fensterung (d) Fouriertransformation 13

2) Was muss beim Sampling eines analogen Zeitsignals beachtet werden. [1 Punkt] Lösung: Nyquist-Shannon Sampling Theorem: T >= 2B, wobei T die Samplingrate ist und B die Bandbreite des Signals. 14

3) Wie kann diese Bedingung erfüllt werden, ohne eine sehr hohe sampling rate? [1 Punkt] Lösung: Begrenzung der Bandbreite durch zum Beispiel einen Tiefpassfilter oder Bandpassfilter. 15

4) Warum wird bei der Fensterung anstelle eines Rechteckfensters zum Beispiel ein Hamming Window benutzt? [1 Punkt] Lösung: Fensterung im Zeitbereich verursacht eine Verwischung (blurring) im Frequenzbereich. Wobei die Verwischung beim Hamming Window gegenüber einem Rechteckfenster geringer ausfällt. 16

Aufgabe 3: Gauß-Mischverteilungen und DTW (6 Punkte) 1) Notieren Sie die Formel einer mehrdimensionalen Gauß-Mischverteilung mit D Dimensionen. [1 Punkt] Lösung: N(x µ, Σ 2 ) = 1 (2π) D/2 Σ 1/2 exp[ 1 2 (x µ)t Σ 1 (x µ)] 17

2) Beschreiben Sie alle Schritte des k-mean Algorithmus. [2 Punkte] Lösung: (a) Initialisieren: Gegeben eines Wertes für k und Beispielsvektoren v 1,..., v T, initialisiere k Mittelwertvektoren (z.b. µ i = v i ) (b) Nächste-Nachbar-Klassifikation: Ordne jeden Vektor v i dem nächstgelegenen Mittelwert µ f(i) zu (c) Codebook-Aktualisierung: Ersetze jeden Mittelwertvektor µ i durch den Mittelwert aller Beispielsvektoren, die ihm zugeordnet wurden (d) Wiederhole ab Schritt 2 bis ein Abbruchkriterium erfüllt ist. Mögliche Abbruchkriterien sind: ˆ eine feste Anzahl Iterationen ˆ die durchschnittliche (maximale) Distanz v i µ f(i) fällt unter einen festen Wert ˆ die Ableitung der Distanz fällt unter einen festen Wert (d.h. es ändert sich nichts mehr) 18

3) Welche Probleme können sich ergeben, wenn man zwei unterschiedliche Sprachsegmente miteinander vergleichen will? Nennen Sie zwei Ihrer Wahl. [1 Punkt] Lösung: Mögliche Probleme sind: (a) Man weiß nicht, wann die Sprache anfängt (Endpoint-Detection nötig) (b) Die Sprachsignale können unterschiedliche Länge haben (andere Sprechraten, Pausen vor oder nach der eigentlichen Sprache) 19

4) Berechnen Sie die Levinshtein Distanz zwischen S A M S T A G S und S O N N T A G. Notieren Sie alle Zwischenschritte. (Die Distanz für Ersetzen, Einfügen und Löschen ist jeweils 1.) [2 Punkte] Lösung: G 7 6 6 6 6 5 4 3 4 A 6 5 5 5 5 4 3 4 5 T 5 4 4 4 4 3 4 5 6 N 4 3 3 3 3 4 5 6 7 N 3 2 2 2 3 4 5 6 7 O 2 1 1 2 3 4 5 6 7 S 1 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 S A M S T A G S Die Levinshtein Distanz beträgt 4 (1 Einfügen, 3 Ersetzen). 20

Aufgabe 4: Hidden-Markov-Modelle (7 Punkte) Betrachten Sie folgendes HMM: ˆ Zwei Zustände S1, S2 ˆ Zwei Ausgabesymbole X, Y ˆ Emissionswahrscheinlichkeiten: B S1 (X) = 1 B S1 (Y) = 0 B S2 (X) = 4/10 B S2 (Y) = 6/10 ˆ Übergangswahrscheinlichkeiten: A S1,S1 = A S1,S2 = A S2,S1 = A S2,S2 = 1/2. ˆ Anfangswahrscheinlichkeiten: π S1 = 1, π S2 = 0 (das HMM beginnt immer in Zustand S1) 1) Die Ausgabe des HMMs sei XYX. Wie viele Pfade mit von null verschiedener Wahrscheinlichkeit gibt es, die diese Ausgabe erzeugt haben können? Welche sind das? [2 Punkte] Lösung: Es gibt zwei Pfade: S1, S2, S1 und S1, S2, S2. (Begründung: Wir benötigen drei Zustände, der erste Zustand ist nach Voraussetzung immer S1, der zweite muss S2 sein, weil S1 keine Ausgabe Y erzeugen kann. Nur im dritten Zustand gibt es überhaupt zwei Möglichkeiten. 21

Betrachten Sie folgendes HMM: ˆ Zwei Zustände S1, S2 ˆ Zwei Ausgabesymbole X, Y ˆ Emissionswahrscheinlichkeiten: B S1 (X) = 1 B S1 (Y) = 0 B S2 (X) = 4/10 B S2 (Y) = 6/10 ˆ Übergangswahrscheinlichkeiten: A S1,S1 = A S1,S2 = A S2,S1 = A S2,S2 = 1/2. ˆ Anfangswahrscheinlichkeiten: π S1 = 1, π S2 = 0 (das HMM beginnt immer in Zustand S1) 2) Berechnen Sie die Gesamtwahrscheinlichkeit der Ausgabe XYX. [2 Punkte] Lösung: Pfad S1,S2,S1: P (XYX S1, S2, S1) = π S1 B S1 (X) A S1,S2 B S2 (Y) A S2,S1 B S1 (X) = 1 1 1 2 6 10 1 2 1 = 6 40 Entsprechend ergibt sich für den Pfad S1,S2,S2: P (XYX S1, S2, S2) = 24 400. Die Gesamtwahrscheinlichkeit ergibt sich durch aufsummieren, also P (XYX) = 6 40 + 24 400 = 84 400. 3) Die Ausgabe des HMMs sei wie oben XYX. Welche Abfolge von Zuständen ist bei dieser Ausgabe am wahrscheinlichsten durchlaufen worden?[1 Punkt] Lösung: Aus der Lösung der letzten Teilaufgabe ergibt sich, dass der Pfad S1,S2,S1 von den beiden überhaupt möglichen Pfaden am wahrscheinlichsten ist. 22

4) Erläutern Sie, warum HMMs bei der kontinuierlichen Spracherkennung ermöglichen, auch Wörter zu erkennen, die im Trainingsmaterial nicht vorgekommen sind. [2 Punkte] Lösung: Jedes Wort setzt sich aus Phonemen zusammen. Da bei HMMs Phonemmodelle trainiert werden, kann man jedes beliebige Wort aus diesem Modellen zusammensetzen, auch wenn das betreffende Wort im Training nicht vorgekommen ist. 23

Aufgabe 5: Akustische Modellierung (5 Punkte) 1) Nennen Sie zwei mögliche Spracheinheiten, die man für akustische Modellierung verwenden kann. [1 Punkt] Lösung: z.b. Wörter, Silben, Monophone, Biphone, Triphone,... 24

2) Welche Clustering-Methoden gibt es um Kontexte zu clustern? Beschreiben alle Schritte von einer Methode Ihrer Wahl. [2 Punkte] Lösung: Es gibt Bottom-up und top-down Methoden sowie die Möglichkeit, einen Entscheidungsbaum zu verwenden. Beschreibung der Bottom-up-Methode: (a) Beginne mit einer Klasse pro Phonem: C i = {P hone i } (b) Vergleiche alle möglichen Klassenpaare: C i mit C j (j > i) (c) Wenn wir ein C i und C j finden, die ähnlich genug sind, ersetze C i durch C i + C j und lösche C j (d) Wiederhole ab Schritt 2 bis ein Abbruchkritierium erfüllt ist 25

3) Stellen Sie sich vor, dass Sie einen Entscheidungsbaum für die Phonemekontexte trainieren wollen. Welche Methode nehmen Sie um die Frage für den Entscheidungsbaum zu bestimmen? [1 Punkt] Lösung: Es gibt verschiedene Möglichkeiten: ˆ wissensbasiert ˆ automatisch erlernt ˆ zufällige Auswahl 26

4) Was ist der Unterschied zwischen überwachtem und unüberwachtem Adaptieren? [1 Punkt] Lösung: Im überwachten Fall weiß das System, welche Wörter gesprochen wurden (d.h. die Transkriptionen der Adaptionsdaten sind bekannt), im unüberwachten Fall nicht. Im unüberwachten Fall muss man daher das System selbst benutzen, um die Adaptionsdaten zu transkribieren. 27

Aufgabe 6: Sprachmodellierung (10 Punkte) 1) Welche Wahrscheinlichkeit liefert das Sprachmodell bei der Spracherkennung? [1 Punkt] Lösung: Es berechnet die A Priori Wahrscheinlichkeit P(W) 28

2) Warum ist ein Sprachmodell bei der Spracherkennung sinnvoll? Nennen Sie drei Gründe. [3 Punkte] Lösung: reduziert die Wortfehlerrate - indem eine andere Wissensquelle hinzugezogen wird, hilft Homophone zu unterscheiden, reduziert den Suchraum 29

3) Nennen Sie eine Motivation für Smoothing bei der Sprachmodellierung und zwei Smoothing-Techniken. [2 Punkte] Lösung: ˆ Motivationen: Data sparseness - Schlechte Schätzungen für N-Gramme, deren Historien in den Trainingstexten nicht häufig auftreten. Wenn die Wahrscheinlichkeit einer N-Gramm-Wahrscheinlichkeit gleich 0 ist, wird die Wahrscheinlichkeit für die gesamte Äußerung gleich 0. Um das zu verhindern, möchte man allen N-Grammen eine Wahrscheinlichkeit zuweisen, die ungleich 0 ist. ˆ Smoothing-Techniken: Backoff-Smoothing (z.b. Absolute Discounting, Katz, Kneser-Ney), Linear Interpolation. 30

4) Wählen Sie die richtige Antwort aus indem Sie eine Antwort ankreuzen. [1 Punkt] Ein Trigramm-Sprachmodell bestimmt die Häufigkeit mit der ein Wort w i auftritt basierend auf dessen Historie w (i 1), w (i 2),..., w (i n). n hat dabei eine Größe von: (a) 1 (b) 2 (c) 3 Lösung: (b) 31

5) Nennen Sie 2 Gründe, wegen denen es sinnvoll ist, das Sprachmodell zu adaptieren. [1 Punkt] Lösung: ˆ... wenn das Sprachmodell nicht in der Zieldomäne ist (Topic relevance). ˆ... wenn das Sprachmodell zeitlich nicht passt (z.b. Sprachstil veraltet, andere Eigennamen für den Task wichtig) (Time relevance) ˆ... wenn der Sprachstil der ASR-Anwender nicht zu dem Sprachmodell passt. 32

6) Nennen Sie einen Vorteil und einen Nachteil für der Verwendung einer Grammatik als Sprachmodell, die nur Sätze akzeptiert, die in der Grammatik definiert sind. [2 Punkte] Lösung: ˆ Vorteil: funktioniert gut, wenn die Domäne stark eingeschränkt ist und man wenig Trainingstexte zur Verfügung hat. Sätze, die in der Grammatik definiert sind, werden akzeptiert. ˆ Nachteil: Sprache in offeneren Domänen folgt nicht immer grammatischen Regeln, aber die Grammatik akzeptiert nur Sätze, die in der Grammatik definiert sind. 33

Aufgabe 7: Suche (9 Punkte) 1) Welche Probleme ergeben sich bei kontinuierlicher Spracherkennung gegenüber isolierter Worterkennung? Nennen Sie drei Punkte. [3 Punkte] Lösung: (a) Kombinatorische Explosion möglicher Wortfolgen, die gesagt worden sein könnten. (b) Segmentierung: Wo sind die Wortübergänge? (c) Koartikulation (going to > gonna...) (d) Wortwiederholungen (restarts) (e) Wortfragmente (f) Hohe Sprechrate 34

2) Erklären Sie kurz den Unterschied zwischen time-synchronous und timeasynchronous Suchstrategien. [1 Punkt] Lösung: In der time-synchronous Suche wird jede Hypothese simultan (Frame für Frame) expandiert, während bei time-asynchronous Suche Teilhypothesen mit unterschiedlicher Länge expandiert werden. 35

3) In der Vorlesung wurde zur Optimierung der Suche die Tree Search vorgestellt. Erstellen Sie aus folgenden fünf Wörtern mit Aussprachen den in der Vorlesung definierten prefix-tree für die Tree Search: a) Baum - b a u m b) Bahnhof - b a n h o f c) Banane - b a n a n e d) Bank - b a ng k e) Brot - b r o t [3 Punkte] Lösung: 36

4) Wie wird das Language Model bei der Tree Search integriert? [1 Punkt] Lösung: Die Wahrscheinlichkeit für das erkannte Wort wird erst im letzten Zustand hinzuaddiert (, wenn wir uns im log Bereich finden, ansonsten multipliziert). 37

5) Erkären Sie was man unter Unigram-Lookahead versteht. [1 Punkt] Lösung: Für jeden Knoten im Suchbaum werden die Unigramwahrscheinlichkeiten für alle Wörter, die in dem aktuellen Teilbaum noch zu erkennen sind aufaddiert und anstelle der Sprachmodelwahrscheinlichkeit benutzt. Sobald das Wort eindeutig erkannt wurde, wird die Unigramwahrscheinlichkeit durch die Bigramwahrscheinlichkeit ersetzt. 38

Aufgabe 8: Transferaufgabe (8 Punkte) 1) Nennen Sie drei Herausforderungen die bei der Entwicklung eines Spracherkenners für eine neue Sprache auftreten können. [3 Punkte] Lösung: (a) Aussprachewörterbuch erstellen (b) Segmentierung (c) Textnormalisierung (d) Modellierung von Tönen in tonalen Sprachen (e) Verschriftung, falls keine Schrift in der betreffenden Sprache existiert (f) Sammeln von Audiodaten, bzw. erstellen von Transkriptionen (g) Kulturelle Herausforderungen 39

2) Sie wurden beauftragt einen Spracherkenner zur Erkennung von Telefonnummern in einem Callcenter zu entwickeln. a) Welche Komponenten benötigen Sie für Ihren Erkenner? [3 Punkte] Lösung: i. Vorverarbeitung ii. Akustisches Model iii. Aussprachewörterbuch iv. Language Model v. Dekoder b) Worauf müssen Sie achten, wenn der Service einerseits für eine möglichst große Menge von Nutzern funktionieren soll und andererseits auch vom Mobiltelefon aus angerufen wird? [2 Punkte] Lösung: Dem Service muss ein sprecherunabhängiges akustisches Model zugrunde liegen. Außerdem sind gute Modelle für Nebengeräusche erforderlich. 40