Äquivokationen. In der Spracherkennung. Michael Baumann Seminar (mit Bachelorarbeit)

Ähnliche Dokumente
Spracherkennung Hauptseminar Interaktion von Mensch und Roboter

Spracherkennung TAREQ HASCHEMI HAW-SEMINAR WS16

Spracherkennung. Gliederung:

Sprachverstehen. Vorlesung an der TU Chemnitz Wintersemester 2012/2013 Dr. Johannes Steinmüller

Sprachsynthese und Spracherkennung

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Einführung in die Computerlinguistik

Einführung in die automatische Spracherkennung. SS 2007 Klaus Kasper

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Sarah Bosch,

Spracherkennung und Sprachsynthese

Signalverarbeitung 2. Volker Stahl - 1 -

6.5 Statistische Spracherkennung

Wortdekodierung. Vorlesungsunterlagen Speech Communication 2, SS Franz Pernkopf/Erhard Rank

Hidden Markov Modelle

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Automatisches Verstehen gesprochener Sprache

NLP - Analyse des Wissensrohstoffs Text

Musterlösung zur Probeklausur Multilinguale Mensch Maschine Kommunikation 2013

Automatisches Verstehen gesprochener Sprache

NLP - Analyse des Wissensrohstoffs Text

Hidden Markov Modelle

Prof. Dr. Marcus Spies Institut f. Informatik LMU München

Sprachdialogsystem mit robuster automatischer Spracherkennung

Wie ein Rechner aus Schallwellen Wörter erkennt

Einführung in die Computerlinguistik

Automatische Spracherkennung

Einführung in die Spracherkennung & Sprachsynthese. Lucia D. Krisnawati

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Spracherkennung. 2. Sitzung 16. Oktober 2008

LI07: Hidden Markov Modelle und Part-of-Speech Tagging

Elementare Wahrscheinlichkeitslehre

Ihr Computer gehorcht auf s Wort

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Kommunikation mit gesprochener Sprache...

Sprachverarbeitung I

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)

Modellbildung und Simulation

Automatische Spracherkennung

Einführung in die Computerlinguistik Überblick

1 Erkennung von Wortfolgen. 2 Bewertung von Wortfolgen. 3 Sprachmodelle in der Praxis. Erkennung von Wortfolgen

Hidden Markov Models in Anwendungen

Einführung und Anwendungen. Sebastian Stüker

Inhaltsverzeichnis 1 Einleitung Mensch-Maschine-Kommunikation in der Informations- und Kommunikationstechnik Grundbegriffe der Mensch-M

Warum haben es Schnellsprecher schwerer?

Natural Language Processing

Digitale Verarbeitung von natürlicher Sprache

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Anwendung Rechnernetze Thema: Spracheingabe. Michael Pöhnert Matrikel: INF04 Kennnummer: 12538

2 Sprachliche Einheiten

Aufgabe 1 Probabilistische Inferenz

Einführung in die Computerlinguistik D IALOGSYSTEME WS 2009/2010. Bojan Georgievski Prashanna Thangeswaran David Höfig

Die Sprache der Musik die Musik der Sprache

Orientierungspraktikum Linguistik

HMM/KNN zur Spracherkennung

Einführung in die Computerlinguistik: Gesprochene Sprache. Dr. Marc Schröder, DFKI

Hidden Markov Models in Anwendungen

Projektseminar "Texttechnologische Informationsmodellierung"

HMM-Synthese (Grundzüge)

Kapitel 2: Spracherkennung Automatisches Verstehen gesprochener Sprache

Automatische Spracherkennung

RelAtive SpecTrAl (RASTA) Processing of Speech

Sprachgestützte Prozesse in Lagerbereichen. PrismaVoice

Mehrdeutigkeiten finden, auflösen, vermeiden. tekom Jahrestagung Wiesbaden November 2013

Hidden Markov Models (HMM)

Semester Dauer Art CP Studentische Arbeitsbelastung

bonn.de bonn.de

Lehrstuhl für Mustererkennung

Beispiel für Anwendung eines VST-Plugins auf eine Stereo-Wave-Datei

Gestenerkennung. Yannick Jonetzko Yannick Jonetzko

Vorlesung: Einführung in die Computerlinguistik. VL: Einführung in die Computerlinguistik

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Projektgruppe. Text Labeling mit Sequenzmodellen

Übung Automatische Spracherkennung

Mit Computerlinguistik und Sprachtechnologie in die Zukunft: Die Technik

Hidden Markov Model (HMM)

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Automatische Spracherkennung

Grundlagen und Definitionen

Störgeräuschreduktion bei stimmhaften Sprachsignalen

Proseminar, wozu? Proseminar, wozu? Proseminar, wozu? Verarbeitung gesprochener Sprache

Spracherkennung. 4. Sitzung 23. Oktober 2008

NLP Eigenschaften von Text

Inhaltsverzeichnis. Vorwort... 11

Tools für Computerlinguisten. Dialogsysteme. Theresa Schmidt

Spracherkennung. 8. Sitzung 3. November 2008

Digitale Signalverarbeitung (DSV)

Phonetische Beiträge zur maschinellen Spracherkennung. ExInTra. "Extrem wertintervallgestützte Transkription",

>> Die Mathematik hinter den Tönen >>

Diskriminatives Training, Neue Wort Problem. Sebastian Stüker

GÜNTHER ÖLSCHLÄGER 3.3 MEHRDEUTIGKEIT SPRACHLICHER AUSDRÜCKE

Interdisziplinäre Fachdidaktik: Natürliche Sprachen und Formale Sprachen. Wie verstehen Computer natürliche Sprachen?

2. Die Erkennung gesprochener Sprache. Bei der Verarbeitung gesprochener Sprache gibt es zwei Grundaufgaben:

Der VITERBI-Algorithmus

Hidden Markov Models

Aufgabe 1 Probabilistische Inferenz

Beleg Spracheingabe für VR- Anwendungen

Sprachentwicklung beim Kind

Einführung in die Phonetik und Phonologie. Allgemeiner Überblick

Transkript:

Äquivokationen In der Spracherkennung Michael Baumann 532 0225336 michael.baumann@student.tuwien.ac.at Seminar (mit Bachelorarbeit)

Inhalt Einführung Äquivokation, Ambiguität, Prosodie Signale Beispiele: Schüttelreim, Homograph und Homophon Spracherkennungssystem ASR, Schematischer Aufbau Methoden HMM, Neuronale Netze Anwendung 2

Äquivokationen Aus der Philosophie: Als Äquivokation bezeichnet man eine Aussage, bei der ein äquivoker Begriff zu Missdeutungen führen kann. Z.B.: Die Birne ist rot. Kann eine Frucht aber auch eine Glühbirne gemeint sein. Die Äquivokation kann die Grundlage eines logischen Fehlschlusses sein, wenn ein äquivoker Begriff in verschiedener Bedeutung verwendet wird. In welchem Bereich kommt dies in Computerlinguistik vor? 3

Äquivokationen = Mehrdeutigkeit gleichlautender (äquivoker) Begriffe Homonyme Unterschiedliche Bedeutung und auch oft unterschiedliche Herkunft, z.b.: Morphem Tau Polysemie Gemeinsame sprachliche Wurzel und/oder abgeleitete Bedeutung Homographie Dieselbe Schreibweise bei unterschiedlicher Aussprache Homophonie Unterschiedliche Schreibweise bei dieselber Aussprache 4

Ambiguität Von Ambiguität sprechen wir, wenn Äußerungen auf mehrere Weisen interpretiert werden können. Mehrdeutigkeiten oder Ambiguität (lat. ambiguus, zweifelhaft) Wenn genau zwei: auch Doppeldeutig bzw. Zweideutig Hat nicht mit Wörtern bzgl. gleichlautender Begriffe zu tun (sondern in der Semantik) 5

Prosodie Sprachliche Eigenschaften hinsichtlich: Wortakzent Silbenbetonung Satzmelodie Hilfreich für Auflösung von homographen Wörtern Beispiel (Satzmelodie): Du gehst in dein Zimmer? (Frage) Du gehst in dein Zimmer! (Befehl) 6

Signale Spracherkennungsysteme Für eingeschränkte Bereiche mit gutem Trainer-Modell wie z.b. Berichte/Protokolle diktieren sind sie ideal. Aber der Vergleich von äquivoker Wörter und unpräzisen Sätze bereiten schon die besten Systeme die Probleme. (sowie Polysemie oder ihre Vagheit) Beispiele: Zungenbrecher Lerche und Lärche (Homophon) modern und modern (Homograph) 7

Signale Beispiel: Zungenbrecher Fischers Fritze fischt frische Fische. Frische Fische fischt... 8

Signale Zungenbrecher: Fischers Fritze fischt frische Fische. Perspectogram (Achsen: x-y-z in Zeit - Frequenz - Amplitude) 9

Signale Homograph: modern [modn] (und) modern [modn] Sonogram: modérn und módern 10

Signale Homophon (1): Lärche [lerc] (und) Lerche Sonogram: Lärche und Lerche 11

Signale Homophon (2): Lärche / Lerche Sonogram: Lärche und Lerche (Sonic Visualiser) 12

Spracherkennungssysteme Automatic Speech Recognitions ASR Vorverarbeitung, Normierung, Training Klassifikationen Nichtlineare Zeitanpassung Mustererkennung HMM Hidden Markov Model Neuronale Netze 13

Spracherkennungssystem Artikulation des Sprechers Spracherkennungssystem (ASR) Sprach- Produktion (Vokaltrakt) biologische Parameter Akustische Analyse Ermittlung charakteristischer Merkmale Linguistische Ausprägung Vorwissen, Stimmung, Umgebung, etc... Sprachschall (+Störungen) Merkmalsfolge A Nach der besten Hypothese suchen Ermittlung Maximum von P(A W) P(W) Akustisches Modell P(A W) Sprachmodell P(W) Wortfolge W Wortfolge W* Intention des Sprechers Erkannter Text 14

Spracherkennungssystem ASR Analyse Merkmalsfolge (Vektoren) + Sprachmodell kann statistische, grammatikalische oder auch syntaktische Regeln berücksichtigen, sortiert (unpassende) Wortpaare aus + Akustisches Modell hoch, tief, schnell, ambiente, bzw. Sprecher-Verfassung, etc. Beste Hypothese 15

Spracherkennungssystem Einzelworterkenner einfach Vokabular: zwischen einem und ca. hundert Wörter Anwendung: Steuerung Kontinuierliche Erkennung komplex Zwei Anwendungsfälle: Kleines Vokabular, sprecherabhängig, kein Sprachmodell Großes Vokabular, sprecherunabhängig, mit Sprachmodell 16

Methoden Eine Methode zu finden um die identischen Klang -Wörter (vom Intention des Sprechers) richtig deuten zu können, ist aufwändig und kostenintensiv und zum teil noch weit entfernt. Methoden mit gute (phonetische) Annäherungsergebnisse sind eingeschränkt Häufigste Anwendungen: HMM Hidden Markov Model Neuronale Netze 17

Spracherkennungssystem HMM hidden markov model (verborgene) Zustände, Übergangswahrscheinlichkeiten, Emissionswahrscheinlichkeiten, (sichtbare) Ausgabesymbole Beispiel: heben 0,4 0,9 0,5 0,7 0,8 Zustände Übergangsw. Emissionw. 0,6 0,1 0,3 0,3 /h/ /e/ /b/ /e/ /n/ 0,2 1,0 0,2 Ausgabe [h] [e] 1,0 [b] 1,0 [e] 1,0 [n] 0,7 [m] 0,3 18

Spracherkennungssystem Neuronale Netze 19

Anwendung Sprachverstehen in Dialog-Systemen Auskunft Feedbacksystem Nebeneffekt: Verfassung des Sprechers erkennen Müde (langsam), Munter/Fit (schnell) 20

Zusammenfassung Erkennen von Mehrdeutigkeiten nach wie vor: sehr Schwer (aber nicht unmöglich ;-) Vorwissen und Gedächtnis des Spracherkenners vorhanden? Abhängig vom aktuellen Rechnerleistung im Consumer- Bereich ( Rentabilität der Software / Hardware Anwendung) 21

Quellen Wendemuth A., Grundlagen d. Stochastischen Sprachverarbeitung, 2004 Eppinger/Herter, Sprachverarbeitung, 1993 Carstenssen, Computerlinguistik Eine Einführung, 2004 Wu Chou, Pattern Recognition in Speech and Language Processing, 2003 Schukat-Talamazzini, Automatische Spracherkennung, 1995 Daniel v. Grünigen, Digitale Signalverarbeitung, 2001 Verwendete Software (alle Freeware): Sonogram v2.80 (sonogram, perspectogram) WavePad Sound Editor v4.02 (editor, noise reduction) Wavosaur v1.0.3.0 (record, PCM 22.050kHz, mono) Sonic Visualiser v1.3 (sonogram) Weitere Zungenbrecher siehe: http://de.wikiquote.org/wiki/zungenbrecher 22