Musterlösung zur Probeklausur Multilinguale Mensch Maschine Kommunikation 2013

Ähnliche Dokumente
Praktikum Maschinelle Übersetzung Language Model

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Künstliche Intelligenz Maschinelles Lernen

Wissensbasierte Systeme

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Wissensbasierte Systeme

Versuch 3: Anwendungen der schnellen Fourier-Transformation (FFT)

Modulationsanalyse. Amplitudenmodulation

Anmerkungen zur Übergangsprüfung

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 1. Dezember 2014

Datenstrukturen & Algorithmen

Aufabe 7: Baum-Welch Algorithmus

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Algorithmen und Datenstrukturen

Longitudinale und transversale Relaxationszeit

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Vorlesung 3 MINIMALE SPANNBÄUME

13. Binäre Suchbäume

Quelle: Ganzkörper- Gestensteuerung. Mit 3-D Sensor (z.b. MS Kinect, ASUS Xtion) Zwischenpräsentation

Algorithmen und Datenstrukturen Balancierte Suchbäume

1 Part-of-Speech Tagging

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Balancierte Bäume. Martin Wirsing. in Zusammenarbeit mit Moritz Hammer und Axel Rauschmayer. SS 06

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

Wissensbasierte Systeme

Maximizing the Spread of Influence through a Social Network

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Part-Of-Speech-Tagging mit Viterbi Algorithmus

YouTube: Video-Untertitel übersetzen

Algorithmen und Datenstrukturen Suchbaum

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Unterscheidung: Workflowsystem vs. Informationssystem

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

ABITURPRÜFUNG 2009 LEISTUNGSFACH INFORMATIK

Moderne Methoden der KI: Maschinelles Lernen

Kompakte Graphmodelle handgezeichneter Bilder

Wiederholung ADT Menge Ziel: Verwaltung (Finden, Einfügen, Entfernen) einer Menge von Elementen

Folge 19 - Bäume Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

EndTermTest PROGALGO WS1516 A

Kapiteltests zum Leitprogramm Binäre Suchbäume

DFT / FFT der Titel der Präsentation wiederholt (Ansicht >Folienmaster) Dipl.-Ing. Armin Rohnen, Fakultät 03, rohnen@hm.edu

Der linke Teilbaum von v enthält nur Schlüssel < key(v) und der rechte Teilbaum enthält nur Schlüssel > key(v)

Fakultät Wirtschaftswissenschaft

Heuristiken im Kontext von Scheduling

Data Mining Anwendungen und Techniken

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Vorlesung : Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

2.7 Baum-Welch-Training

Kompakte Graphmodelle handgezeichneter Bilder. Einbeziehung in Autentizierung und Bilderkennung

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

Neuronale Netze (I) Biologisches Neuronales Netz

Algorithmen II Vorlesung am

Kap. 4.2: Binäre Suchbäume

Datenstruktur, die viele Operationen dynamischer Mengen unterstützt

Jan Parthey, Christin Seifert. 22. Mai 2003

Klausur für Studiengänge INF und IST

Fachhochschule Düsseldorf. Simulation der Eigenschaften eines CDMA- Systems mittels ADS

WS 2009/10. Diskrete Strukturen

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Numerisches Programmieren

Algorithmen und Datenstrukturen 2

Data Mining-Modelle und -Algorithmen

Theoretische Grundlagen der Informatik

Wie Google Webseiten bewertet. François Bry

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Wasserfall-Ansätze zur Bildsegmentierung

Technische Universität München SS 2006 Fakultät für Informatik 12. Oktober 2006 Prof. Dr. A. Knoll. Aufgabe 1 Transferfragen (Lösungsvorschlag)

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Lineare Gleichungssysteme

Grundlagen der Informatik. Prof. Dr. Stefan Enderle NTA Isny

x 2 x 1 x Lernen mit Entscheidungsbäumen

Vortrag. Suchverfahren der Künstlichen Intelligenz. Sven Schmidt (Technische Informatik)

Suchen und Sortieren

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Einführung in die automatische Spracherkennung

Statistik I für Wirtschaftswissenschaftler Klausur am ,

Standardisierte kompetenzorientierte schriftliche Reifeprüfung. Mathematik. Probeklausur März Teil-1-Aufgaben

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Eine Baumstruktur sei folgendermaßen definiert. Eine Baumstruktur mit Grundtyp Element ist entweder

Formeln. Signatur. aussagenlogische Formeln: Aussagenlogische Signatur

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den

Nutzerhandbuch Softwaresystem Inspirata. Benutzerhandbuch Softwaresystem Inspirata

Pfinder: Real-Time Tracking of the Human Body

Nichtlineare Optimierung ohne Nebenbedingungen

Bearbeitungshinweise. (20 Punkte)

Maschinelles Lernen. Kapitel 5

Algorithms for Regression and Classification

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

MINT-Circle-Schülerakademie

Monte-Carlo-Simulation

4 Greedy-Algorithmen (gierige Algorithmen)

Suchbäume. Annabelle Klarl. Einführung in die Informatik Programmierung und Softwareentwicklung

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

Kombinatorische Optimierung

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10


Transkript:

Musterlösung zur Probeklausur Multilinguale Mensch Maschine Kommunikation 2013

Aufgabe 1: Divers (10 Punkte) Kreuzen Sie für die folgenden Aussagen an, ob sie wahr oder falsch sind. Hinweis: Für jede richtige Antwort gibt es einen Punkt, für jede falsche Antwort wird ein Punkt abgezogen. Wenn Sie kein Kreuz setzen, bekommen Sie weder Plus- noch Minuspunkt, für das Ankreuzen beider Möglichkeiten wird ein Punkt abgezogen. Die gesamte Aufgabe wird mit mindestens 0 Punkten bewertet. a) Morpheme-basierte Sprachmodelle sind besonders hilfreich bei Sprachen mit wenig Flexion wie z.b. bei Englisch. (für Sprachen mit hoher Morphologie) wahr: falsch: 2

b) In der Spracherkennung werden normalerweise ergodische HMMs verwendet. (Left-to-right model) wahr: falsch: 3

c) Man benötigt mehr Textdaten um ein Trigramm-Sprachmodell angemessen zu trainieren als ein Bigramm-Sprachmodell angemessen zu trainieren. ( angemessen bedeutet dass alle Parameter ausreichend gut geschätzt werden mit maximal 1% Abweichung ihres tatsächlichen Wertes). wahr: falsch: 4

d) Triphone modellieren Phoneme basierend auf deren drei linken und drei rechten Nachbarn. (Triphone basierend auf dem linken und dem rechten Nachbarn) wahr: falsch: 5

e) Für eine gegebene Menge an Audiodaten eines Sprechers ist ein Sprecherunabhängiges System besser als ein Sprecher-abhängiges System, weil es robuster ist. (Adaption) wahr: falsch: 6

f) Die Wortfehlerrate basiert auf der Summe der Fehler durch Wort-Einfügungen, Löschungen und Substitutionen. wahr: falsch: 7

g) Ein typisches 3-State Phonem-HMM (wie in der Vorlesung definiert) zu durchlaufen dauert mindestens 30ms (wenn kein Zustand mit einer Kante übersprungen werden kann). wahr: falsch: 8

h) Bei der Adaption mit MAP (maximum a posteriori) werden nur die Parameter geändert, für die Adaptionsdaten vorhanden sind. wahr: falsch: 9

i) Der DTW (Dynamic Time Warp) Algorithmus eignet sich gut für die Erkennung von kontinuierlicher Sprache. (generalisiert nicht, Sprecher-abhängig, Beispiele für jedes Wort von jedem Sprecher benötigt, hoher Rechenaufwand bei großen Vokabularen) wahr: falsch: 10

j) Die z-transformation ist ein Spezialfall der diskreten Fouriertransformation. (Generalisierung der diskreten Fouriertransformation) wahr: falsch: 11

k) Logographische Schriftzeichen stellen für die automatische datengetriebene Aussprachegenerierung ein Problem dar. wahr: falsch: 12

Aufgabe 2: Vorverarbeitung (5 Punkte) 1) In der Vorverarbeitung wird ein akustisches Signal in eine Sequenz von Merkmalsvektoren transformiert. Geben Sie eine Sequenz von Schritten an, die nötig sind, um aus dem Audiosignal eine Sequenz von spektralen Merkmalsvektoren zu extrahieren. [2 Punkte] Lösung: (a) Sampling (b) Quantisierung (c) Fensterung (d) Fouriertransformation 13

2) Was muss beim Sampling eines analogen Zeitsignals beachtet werden. [1 Punkt] Lösung: Nyquist-Shannon Sampling Theorem: T >= 2B, wobei T die Samplingrate ist und B die Bandbreite des Signals. 14

3) Wie kann diese Bedingung erfüllt werden, ohne eine sehr hohe sampling rate? [1 Punkt] Lösung: Begrenzung der Bandbreite durch zum Beispiel einen Tiefpassfilter oder Bandpassfilter. 15

4) Warum wird bei der Fensterung anstelle eines Rechteckfensters zum Beispiel ein Hamming Window benutzt? [1 Punkt] Lösung: Fensterung im Zeitbereich verursacht eine Verwischung (blurring) im Frequenzbereich. Wobei die Verwischung beim Hamming Window gegenüber einem Rechteckfenster geringer ausfällt. 16

Aufgabe 3: Gauß-Mischverteilungen und DTW (6 Punkte) 1) Notieren Sie die Formel einer mehrdimensionalen Gauß-Mischverteilung mit D Dimensionen. [1 Punkt] Lösung: N(x µ, Σ 2 ) = 1 (2π) D/2 Σ 1/2 exp[ 1 2 (x µ)t Σ 1 (x µ)] 17

2) Beschreiben Sie alle Schritte des k-mean Algorithmus. [2 Punkte] Lösung: (a) Initialisieren: Gegeben eines Wertes für k und Beispielsvektoren v 1,..., v T, initialisiere k Mittelwertvektoren (z.b. µ i = v i ) (b) Nächste-Nachbar-Klassifikation: Ordne jeden Vektor v i dem nächstgelegenen Mittelwert µ f(i) zu (c) Codebook-Aktualisierung: Ersetze jeden Mittelwertvektor µ i durch den Mittelwert aller Beispielsvektoren, die ihm zugeordnet wurden (d) Wiederhole ab Schritt 2 bis ein Abbruchkriterium erfüllt ist. Mögliche Abbruchkriterien sind: ˆ eine feste Anzahl Iterationen ˆ die durchschnittliche (maximale) Distanz v i µ f(i) fällt unter einen festen Wert ˆ die Ableitung der Distanz fällt unter einen festen Wert (d.h. es ändert sich nichts mehr) 18

3) Welche Probleme können sich ergeben, wenn man zwei unterschiedliche Sprachsegmente miteinander vergleichen will? Nennen Sie zwei Ihrer Wahl. [1 Punkt] Lösung: Mögliche Probleme sind: (a) Man weiß nicht, wann die Sprache anfängt (Endpoint-Detection nötig) (b) Die Sprachsignale können unterschiedliche Länge haben (andere Sprechraten, Pausen vor oder nach der eigentlichen Sprache) 19

4) Berechnen Sie die Levinshtein Distanz zwischen S A M S T A G S und S O N N T A G. Notieren Sie alle Zwischenschritte. (Die Distanz für Ersetzen, Einfügen und Löschen ist jeweils 1.) [2 Punkte] Lösung: G 7 6 6 6 6 5 4 3 4 A 6 5 5 5 5 4 3 4 5 T 5 4 4 4 4 3 4 5 6 N 4 3 3 3 3 4 5 6 7 N 3 2 2 2 3 4 5 6 7 O 2 1 1 2 3 4 5 6 7 S 1 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 S A M S T A G S Die Levinshtein Distanz beträgt 4 (1 Einfügen, 3 Ersetzen). 20

Aufgabe 4: Hidden-Markov-Modelle (7 Punkte) Betrachten Sie folgendes HMM: ˆ Zwei Zustände S1, S2 ˆ Zwei Ausgabesymbole X, Y ˆ Emissionswahrscheinlichkeiten: B S1 (X) = 1 B S1 (Y) = 0 B S2 (X) = 4/10 B S2 (Y) = 6/10 ˆ Übergangswahrscheinlichkeiten: A S1,S1 = A S1,S2 = A S2,S1 = A S2,S2 = 1/2. ˆ Anfangswahrscheinlichkeiten: π S1 = 1, π S2 = 0 (das HMM beginnt immer in Zustand S1) 1) Die Ausgabe des HMMs sei XYX. Wie viele Pfade mit von null verschiedener Wahrscheinlichkeit gibt es, die diese Ausgabe erzeugt haben können? Welche sind das? [2 Punkte] Lösung: Es gibt zwei Pfade: S1, S2, S1 und S1, S2, S2. (Begründung: Wir benötigen drei Zustände, der erste Zustand ist nach Voraussetzung immer S1, der zweite muss S2 sein, weil S1 keine Ausgabe Y erzeugen kann. Nur im dritten Zustand gibt es überhaupt zwei Möglichkeiten. 21

Betrachten Sie folgendes HMM: ˆ Zwei Zustände S1, S2 ˆ Zwei Ausgabesymbole X, Y ˆ Emissionswahrscheinlichkeiten: B S1 (X) = 1 B S1 (Y) = 0 B S2 (X) = 4/10 B S2 (Y) = 6/10 ˆ Übergangswahrscheinlichkeiten: A S1,S1 = A S1,S2 = A S2,S1 = A S2,S2 = 1/2. ˆ Anfangswahrscheinlichkeiten: π S1 = 1, π S2 = 0 (das HMM beginnt immer in Zustand S1) 2) Berechnen Sie die Gesamtwahrscheinlichkeit der Ausgabe XYX. [2 Punkte] Lösung: Pfad S1,S2,S1: P (XYX S1, S2, S1) = π S1 B S1 (X) A S1,S2 B S2 (Y) A S2,S1 B S1 (X) = 1 1 1 2 6 10 1 2 1 = 6 40 Entsprechend ergibt sich für den Pfad S1,S2,S2: P (XYX S1, S2, S2) = 24 400. Die Gesamtwahrscheinlichkeit ergibt sich durch aufsummieren, also P (XYX) = 6 40 + 24 400 = 84 400. 3) Die Ausgabe des HMMs sei wie oben XYX. Welche Abfolge von Zuständen ist bei dieser Ausgabe am wahrscheinlichsten durchlaufen worden?[1 Punkt] Lösung: Aus der Lösung der letzten Teilaufgabe ergibt sich, dass der Pfad S1,S2,S1 von den beiden überhaupt möglichen Pfaden am wahrscheinlichsten ist. 22

4) Erläutern Sie, warum HMMs bei der kontinuierlichen Spracherkennung ermöglichen, auch Wörter zu erkennen, die im Trainingsmaterial nicht vorgekommen sind. [2 Punkte] Lösung: Jedes Wort setzt sich aus Phonemen zusammen. Da bei HMMs Phonemmodelle trainiert werden, kann man jedes beliebige Wort aus diesem Modellen zusammensetzen, auch wenn das betreffende Wort im Training nicht vorgekommen ist. 23

Aufgabe 5: Akustische Modellierung (5 Punkte) 1) Nennen Sie zwei mögliche Spracheinheiten, die man für akustische Modellierung verwenden kann. [1 Punkt] Lösung: z.b. Wörter, Silben, Monophone, Biphone, Triphone,... 24

2) Welche Clustering-Methoden gibt es um Kontexte zu clustern? Beschreiben alle Schritte von einer Methode Ihrer Wahl. [2 Punkte] Lösung: Es gibt Bottom-up und top-down Methoden sowie die Möglichkeit, einen Entscheidungsbaum zu verwenden. Beschreibung der Bottom-up-Methode: (a) Beginne mit einer Klasse pro Phonem: C i = {P hone i } (b) Vergleiche alle möglichen Klassenpaare: C i mit C j (j > i) (c) Wenn wir ein C i und C j finden, die ähnlich genug sind, ersetze C i durch C i + C j und lösche C j (d) Wiederhole ab Schritt 2 bis ein Abbruchkritierium erfüllt ist 25

3) Stellen Sie sich vor, dass Sie einen Entscheidungsbaum für die Phonemekontexte trainieren wollen. Welche Methode nehmen Sie um die Frage für den Entscheidungsbaum zu bestimmen? [1 Punkt] Lösung: Es gibt verschiedene Möglichkeiten: ˆ wissensbasiert ˆ automatisch erlernt ˆ zufällige Auswahl 26

4) Was ist der Unterschied zwischen überwachtem und unüberwachtem Adaptieren? [1 Punkt] Lösung: Im überwachten Fall weiß das System, welche Wörter gesprochen wurden (d.h. die Transkriptionen der Adaptionsdaten sind bekannt), im unüberwachten Fall nicht. Im unüberwachten Fall muss man daher das System selbst benutzen, um die Adaptionsdaten zu transkribieren. 27

Aufgabe 6: Sprachmodellierung (10 Punkte) 1) Welche Wahrscheinlichkeit liefert das Sprachmodell bei der Spracherkennung? [1 Punkt] Lösung: Es berechnet die A Priori Wahrscheinlichkeit P(W) 28

2) Warum ist ein Sprachmodell bei der Spracherkennung sinnvoll? Nennen Sie drei Gründe. [3 Punkte] Lösung: reduziert die Wortfehlerrate - indem eine andere Wissensquelle hinzugezogen wird, hilft Homophone zu unterscheiden, reduziert den Suchraum 29

3) Nennen Sie eine Motivation für Smoothing bei der Sprachmodellierung und zwei Smoothing-Techniken. [2 Punkte] Lösung: ˆ Motivationen: Data sparseness - Schlechte Schätzungen für N-Gramme, deren Historien in den Trainingstexten nicht häufig auftreten. Wenn die Wahrscheinlichkeit einer N-Gramm-Wahrscheinlichkeit gleich 0 ist, wird die Wahrscheinlichkeit für die gesamte Äußerung gleich 0. Um das zu verhindern, möchte man allen N-Grammen eine Wahrscheinlichkeit zuweisen, die ungleich 0 ist. ˆ Smoothing-Techniken: Backoff-Smoothing (z.b. Absolute Discounting, Katz, Kneser-Ney), Linear Interpolation. 30

4) Wählen Sie die richtige Antwort aus indem Sie eine Antwort ankreuzen. [1 Punkt] Ein Trigramm-Sprachmodell bestimmt die Häufigkeit mit der ein Wort w i auftritt basierend auf dessen Historie w (i 1), w (i 2),..., w (i n). n hat dabei eine Größe von: (a) 1 (b) 2 (c) 3 Lösung: (b) 31

5) Nennen Sie 2 Gründe, wegen denen es sinnvoll ist, das Sprachmodell zu adaptieren. [1 Punkt] Lösung: ˆ... wenn das Sprachmodell nicht in der Zieldomäne ist (Topic relevance). ˆ... wenn das Sprachmodell zeitlich nicht passt (z.b. Sprachstil veraltet, andere Eigennamen für den Task wichtig) (Time relevance) ˆ... wenn der Sprachstil der ASR-Anwender nicht zu dem Sprachmodell passt. 32

6) Nennen Sie einen Vorteil und einen Nachteil für der Verwendung einer Grammatik als Sprachmodell, die nur Sätze akzeptiert, die in der Grammatik definiert sind. [2 Punkte] Lösung: ˆ Vorteil: funktioniert gut, wenn die Domäne stark eingeschränkt ist und man wenig Trainingstexte zur Verfügung hat. Sätze, die in der Grammatik definiert sind, werden akzeptiert. ˆ Nachteil: Sprache in offeneren Domänen folgt nicht immer grammatischen Regeln, aber die Grammatik akzeptiert nur Sätze, die in der Grammatik definiert sind. 33

Aufgabe 7: Suche (9 Punkte) 1) Welche Probleme ergeben sich bei kontinuierlicher Spracherkennung gegenüber isolierter Worterkennung? Nennen Sie drei Punkte. [3 Punkte] Lösung: (a) Kombinatorische Explosion möglicher Wortfolgen, die gesagt worden sein könnten. (b) Segmentierung: Wo sind die Wortübergänge? (c) Koartikulation (going to > gonna...) (d) Wortwiederholungen (restarts) (e) Wortfragmente (f) Hohe Sprechrate 34

2) Erklären Sie kurz den Unterschied zwischen time-synchronous und timeasynchronous Suchstrategien. [1 Punkt] Lösung: In der time-synchronous Suche wird jede Hypothese simultan (Frame für Frame) expandiert, während bei time-asynchronous Suche Teilhypothesen mit unterschiedlicher Länge expandiert werden. 35

3) In der Vorlesung wurde zur Optimierung der Suche die Tree Search vorgestellt. Erstellen Sie aus folgenden fünf Wörtern mit Aussprachen den in der Vorlesung definierten prefix-tree für die Tree Search: a) Baum - b a u m b) Bahnhof - b a n h o f c) Banane - b a n a n e d) Bank - b a ng k e) Brot - b r o t [3 Punkte] Lösung: 36

4) Wie wird das Language Model bei der Tree Search integriert? [1 Punkt] Lösung: Die Wahrscheinlichkeit für das erkannte Wort wird erst im letzten Zustand hinzuaddiert (, wenn wir uns im log Bereich finden, ansonsten multipliziert). 37

5) Erkären Sie was man unter Unigram-Lookahead versteht. [1 Punkt] Lösung: Für jeden Knoten im Suchbaum werden die Unigramwahrscheinlichkeiten für alle Wörter, die in dem aktuellen Teilbaum noch zu erkennen sind aufaddiert und anstelle der Sprachmodelwahrscheinlichkeit benutzt. Sobald das Wort eindeutig erkannt wurde, wird die Unigramwahrscheinlichkeit durch die Bigramwahrscheinlichkeit ersetzt. 38

Aufgabe 8: Transferaufgabe (8 Punkte) 1) Nennen Sie drei Herausforderungen die bei der Entwicklung eines Spracherkenners für eine neue Sprache auftreten können. [3 Punkte] Lösung: (a) Aussprachewörterbuch erstellen (b) Segmentierung (c) Textnormalisierung (d) Modellierung von Tönen in tonalen Sprachen (e) Verschriftung, falls keine Schrift in der betreffenden Sprache existiert (f) Sammeln von Audiodaten, bzw. erstellen von Transkriptionen (g) Kulturelle Herausforderungen 39

2) Sie wurden beauftragt einen Spracherkenner zur Erkennung von Telefonnummern in einem Callcenter zu entwickeln. a) Welche Komponenten benötigen Sie für Ihren Erkenner? [3 Punkte] Lösung: i. Vorverarbeitung ii. Akustisches Model iii. Aussprachewörterbuch iv. Language Model v. Dekoder b) Worauf müssen Sie achten, wenn der Service einerseits für eine möglichst große Menge von Nutzern funktionieren soll und andererseits auch vom Mobiltelefon aus angerufen wird? [2 Punkte] Lösung: Dem Service muss ein sprecherunabhängiges akustisches Model zugrunde liegen. Außerdem sind gute Modelle für Nebengeräusche erforderlich. 40