Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachportale Tobias Scheffer

2 Motivation Es gibt, grob geschätzt: 1.15 Md Mrd. 15Mrd 1.5 Mrd. 668 Mio. Die wenigsten Computer verfügen über Bildschirm und Tastatur. Telefone einfacher zu benutzen, erreichen mehr Menschen. Sprache als Mensch-Maschine-Schnittstelle! 2

3 Motivation Ubiquitäre, allgegenwärtige Information. Fernbedienung mit einem Knopf, Location-based Services, Auch Grauen erregende Anwendungen vorstellbar: Joghurtbecher belehrt über wertvolle Inhaltsstoffe. Werbeplakate sprechen Passanten an. 3

4 Überblick Spachtechnologien: Spracherkennung, Spracherzeugung. Anwendungsentwicklung: SRGS, SSML, VoiceXML, Beispiel. Anwendungen. Forschung und weitere Entwicklung: woran hängt es? 4

5 Spracherkennung: Mathematisches Prinzip Komponenten: Akustisches und Sprachmodell. argmax: beste Posterior: wie wahrscheinlich Wortfolge. ist Wortfolge gegeben Signal? arg max arg max Bayes (Wortfolge) (Wortfolge) P (Wortfolge Signal) P(Signal Wortfolge) P(Wortfolge) Akustisches Modell Sprachmode ll Likelihood: wie gut passt Signal zu Wortfolge? Prior: wie wahrscheinlich ist Wortfolge generell? 5

6 Spracherkennung: Mathematisches Prinzip arg max arg max (Wortfolge) (Wortfolge) P (Wortfolge Signal) P(Signal Wortfolge) P(Wortfolge) Akustisches Modell Sprachmode ll Anpassung des Erkenners an neue Domäne: Sprachmodell aus Texten lernen. Durch (probabilistische) Grammatik spezifiziert. 6

7 Spracherkennung: Mathematisches Prinzip arg max arg max (Wortfolge) (Wortfolge) P (Wortfolge Signal) P(Signal Wortfolge) P(Wortfolge) Akustisches Modell Sprachmode ll Akustisches Modell: Aus annotierten Sprachproben trainiert. Phonemische Modelle: Signal Phone. Aussprachenetze: Phone Wörter. 7

8 Spracherkennung: Mathematisches Prinzip Dekodierung (Prozess der Spracherkennung): Suche im Raum der möglichen Wortfolgen. Suchalgorithmen, Viterbi Beam Search. arg max arg max (Wortfolge) (Wortfolge) P (Wortfolge Signal) P(Signal Wortfolge) P(Wortfolge) Akustisches Modell Sprachmode ll 8

9 Spracherkennung: Akustisches Modell Ganze Wörter: Erkennung weniger, isolierter Wörter (z.b. Ziffern). Keine Generalisierung unbekannter Wörter. Gemeinsame Phone in verschiedenen Wörtern. Silben: Gut für Japanisch (50 Silben), sonst schlecht (Englisch: Silben). Phon: Kleinste Einheit einer sprachlichen Äußerung. Phonem: Bedeutungsunterscheidende Einheit. 50 Phone im Englischen. Aber Aussprache kontextabhängig. 9

10 Spracherkennung: akustisches Modell Short-Time-Fourier-Transformation: Signal Sinus (Frequenz ) = Anteil am Signal. Zu jedem Zeitpunkt: Amplituden von ca. 24 Bändern. Dekorrelation, Reduktion: Cepstral-Attribute. Ergebnis: ca kontinuierliche Attribute. Zeitabhängige Überlagerung von Schwingungen X[ k] n X[ k] e 2 ink / N

11 Spracherkennung: Akustisches Modell Triphon-Klassenmodelle. Aussprache des Phons hängt von Nachbarphonen ab. b b und p p haben denselben Einfluss auf einen folgenden Vokal, ebenso r und w. Solche Kontexte werden zu Klassen zusammen gefasst um die Anzahl der Modellparameter zu reduzieren. Senone: Cluster von ähnlichen subphonetischen Einheiten, gemeinsame Modellparameter. 11

12 Spracherkennung: Akustisches Modell Hidden-Markov-Modell: Probabilistischer endlicher Automat. Probabilistische Zustandsübergänge ij. Jeder Zustand hat Emissionswahrscheinlichkeiten b i ( Ot ) Ein Phon/Senon wird durch Zustände repräsentiert. Struktur repräsentiert Aussprachevarianten. Meist lineare Struktur, aber Verkürzungen (Kanten, die Zustände überspringen). Aussprachevarianten. a ij 12

13 Spracherkennung: Hidden-Markov-Modell Folge der Zustände ist nicht sichtbar, nur die emittierten Beobachtungen (akustische Merkmale). Emissionswahrscheinlichkeiten als Mischung multivariater Gaußverteilungen modelliert. Zustand 1 P Zustand 1 P( x S ) b ( k ) N μ, Σ ( x ) ( t j k j k k t 10% 90% 1 Zustand 2 5% Zustand % 1% 15% 80% 4% 4% 1% Zustand 4 Zustand 5 P( q S q S ( t 1 j t i ) 13

14 Spracherkennung: Aussprachenetzwerke Abbildung von Phonen auf Wörter. Probabilistischer endlicher Automat. Transitionswahrscheinlichkeiten aus annotiertem Korpus schätzen. Scheffer: Sprachtec hnologie 14

15 Spracherkennung: Hidden-Markov-Modell Schätzung der Modellparameter: Aus annotierten Sprachdaten, mit Baum-Welch-Algorithmus Algorithmus, EM-Variante Variante. Finde arg max (Trainingsdaten Parameter ) P Scheffer: Sprachtec Wiederhole bis Konvergenz: Forward-Backward berechnet Berechne Schätze Schätze b Schätze t ( i, j) ( k ) ( i 1 i) ( k ) ij t t t t ( k ) i ( O) t ( i) t : O O t a (, i j) () i t ( i) t,, hnologie 15

16 Spracherkennung: Akustisches Modell Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus Algorithmus. n wahrscheinlichste Senone, Wörter. Aussprachenetz Senonische HMMs Zustand 1 10% 1 90% Zustand Zustand 4% 2 4 1% 1% 5% 15% 90% Zustand 3 4% Zustand 5 80% 1 Signal / Merkmale 16

17 Spracherkennung: Akustisches Modell Dekodierung des akustischen Modells: Finde Zustandsfolge gegeben akustisches Signal. n-best Viterbi-Algorithmus Algorithmus. n wahrscheinlichste Senone, Wörter. Aussprachenetz 1 Senonische HMMs Zustand 1 10% 90% Zustand Zustand 4% 2 4 1% 1% 5% 15% 90% Zustand 3 4% Zustand 5 80% 1 Signal / Merkmale 17

18 Spracherkennung: Sprachmodell Modellierung von P(Wortfolge) ) Wissen über Sprache: P( Ich pflücke Bären ) = sehr gering. P( Ich pflücke Beeren ) = schon größer. Häufig verwendete Sprachmodelle: N-Gramm-Modelle. Kontextfreie ee Grammatiken. a Probabilistische Kontextfreie Grammatiken. 18

19 Spracherkennung: Sprachmodell N-Gramm-Modell: P( Ich pflücke Bären) P(Ich) P(pflücke Ich) P(Bären Ich pflücke) Markov-Annahme n. Ordnung: Nur Abhängigkeiten zwischen bis zu n aufeinanderfolgenden Wörtern. Längere Abhängigkeiten werden ignoriert. Modellparameter: Für alle Wortkombinationen: P Wortn Wort Parameter werden aus Korpus geschätzt. ( 1,..., Wortn- 1) Häufig anwendungsspezifische Korpora (z.b. WSJ). 19

20 Spracherkennung: Sprachmodell Probabilistische, kontextfreie Grammatik. Jede Regel ist mit Wahrscheinlichkeit belegt. Schätzung der Parameter aus Baum-Bank Bank oder anwendungsbezogene Festlegung. Scheffer: Sprachtec hnologie j j ( p, q) P( w N, G) pq pq j j ( p, q) P( w1 ( p 1), N pq, w( q 1) m G) 20

21 Spracherkennung: Sprachmodell Probabilistische, kontextfreie Grammatik. Dekodierung: wahrscheinlichster Pars-Baum mit Viterbi-Algorithmus in O(n 3 ). Höchste Inside-Wahrscheinlichkeit für einen i Pars des Teilbaumes N pq : i ( p, q) i Initialisierung: i( p, p) P( N wp) Induktion: (, ) max,, ( i j k i p q q j k n p r q P N N N ) j( p, r) k( r 1, q) Bester Weg: (, ) arg max (,, ) ( i j k i p q j k r P N N N ) j( p, r) k( r 1, q) Parse-Baum rekonstruieren: wenn i ( p, q) ( j, k, r) dann sind links N j und rechts N k ( r 1) q im Baum. pr 21

22 Spracherkennung: Dekodierung Beam Search: Suche im Raum aller Wortfolgen. Speichere k beste Satzanfänge der Länge t. Akustisches Modell: n wahrscheinlichste nächste Wörter. Bestimme k beste Satzanfänge der Länge t+1. arg max arg max (Wortfolge) P(Wortfolge Signal ) (Wortfolge) P(Signal Wortfolge) P(Wortfolge) Akustisches Modell Sprachmodell 22

23 Überblick Sprachtechnologien: Spracherkennung, Spracherzeugung. Anwendungsentwicklung: SRGS, SSML, VoiceXML, Beispiel. Anwendungen. Forschung und weitere Entwicklung: woran hängt es? 23

24 Spracherzeugung: Textanalyse Vorverarbeitung: Expandieren von Abkürzungen. Expandieren von Zahlen, Sonderzeichen. Satzzeichen: Identifizieren von Sätzen, Satzenden. Morphologische Analyse: Morpheme, Silbengrenzen, Wortakzente. Morphemlexikon + Grammatik. Wortartenerkennung und syntaktische Analyse: Syntaxbaum, Phrasierung, Gliederung in prosodische Gruppen. 24

25 Spracherzeugung: Phonetisierung Abbildung Wörter Phone. Aussprachelexikon für Grundformen. Aussprache abhängig von Wortart und Syntax ( read / read ). Verwandt mit und ähnlich komplex wie Übersetzung. Lexika und Regeln verbreitet. Statistischer Ansatz: arg max Phonfolge P(Phonfolge Wortfolge) t P(Wortt Phonet, Kontext,Syntax) P(Phonfolge) 25

26 Spracherzeugung: Prosodiegenerierung Prosodische Information aus syntaktischen Gruppen. Prosodie aus Meta-Information (SSML). Modifikation von Tonhöhe, Geschwindigkeit. Scheffer: Sprachtec hnologie 26

27 Spracherzeugung: Signalerzeugung Konkatenation: Aussprache eines Phons hängt von Nachbarn ab. Alle Phone werden in der Mitte geteilt. Für jedes benachbarte Paar aus halben Phonen wird ein Sample aufgenommen. Scheffer: Sprachtec hnologie 27

28 Spracherzeugung: Signalerzeugung Formantsynthese: Formanten: Langsam variierende Frequenzbereiche, in denen bei Aussprache Energiegipfel gp auftreten. Modellbasierte Synthese des Signals. Artikulatorische Synthese: Simulation der Schallerzeugungsmechanik. Häufig konkatenative Systeme mit Wellenformmodifikation. Glattere Übergänge, natürlicherer Klang. 28

29 Überblick Sprachtechnologie: Spracherkennung, Text-to-Speech to Speech. Anwendungsentwicklung: SRGS, SSML, VoiceXML, Beispiel. Anwendungen. Forschung und weitere Entwicklung: woran hängt es? 29

30 Sprachportale Anwendungsentwicklung VoiceXML: Ablaufsteuerung SALT: Speech Application Language Tags SRGS: Speech N-GRAM: Stochastic ti SSML: Speech Recognition Language Models Synthesis Markup Grammar Specification Language Specification Spracherkennung Sprachtechnologie Spracherzeugung 30

31 Speech Recognition Grammar Specification Version 2.1 W3C Recommendation. Syntax für probabilistische, kontextfreie Grammatiken: Augmented BNF oder XML. Sprache und DTMF-Eingaben. Kernelemente: Regeldefinitionen, Regelexpansionen. 31

32 SRGS: Elemente Regeldefinition: Assoziiert Regel mit Bezeichner. <rule id = bestellung> [Regelexpansion] </rule> Scheffer: Sprachtechnologie 32

33 SRGS: Elemente Regeldefinition: Regelreferenz: Assoziiert Regel mit Bezeichner. Referenz auf Regel oder N-GRAM. VOID, NULL, GARBAGE. <rule id = bestellung> <ruleref uri = #begrüßung/> </rule> 33

34 SRGS: Elemente Regeldefinition: Regelreferenz: Assoziiert Regel mit Bezeichner. Referenz auf Regel oder N-GRAM. VOID, NULL, GARBAGE. <one-of> of> Alternativen: <item>caipirinha</item> <item>mojito</item> <item>zombie</item> </one-of> Akzeptiert jede der Varianten. 34

35 SRGS: Elemente <one-of> <item weight=10 >Caipirinha </item> <item weight=5>mojito</item> <item weight=1>b52</item> </one-of> f Regelreferenz: Referenz auf Regel oder N-GRAM. VOID, NULL, GARBAGE. Gewichtungen: Alternativen: In Wahrscheinlichkeiten umzurechnen. PCFG. Akzeptiert jede der Varianten. 35

36 N-GRAM: Stochastic Language Models W3C Working Draft. Syntaktisches Schema zur Repräsentation von Wörterbüchern, Zählern für Auftretenshäufigkeit von N-Grammen. Elemente <lexicon> Lexikondeklaration, <token> Tokendeklaration, a o <tree> Zähler für Auftretenshäufigkeiten, <interpolation> Lineare Interpolationsgewichte, 36

37 SSML: Speech Synthesis Markup Version 2.1 W3C Recommendation. Markup-Konventionen für Stufen der Spracherzeugung. ACSS: Aural Cascading Style Sheets. Komplexe Markup-Definitionen, Auswahl von Sprechern e für Markup-Tags, ags, Räumliche Anordnung der Schallquellen. 37

38 SSML: Elemente Normierung (Expansion von Abkürzungen, Währungen: <say-as>- und <sub>-elemente. <p>- und <s>-elemente (Absatz, Satz). Konvertierung Text Phonem: <phoneme>-element. Beschreibung im IPA-Alphabet. Prosodie-Analyse: <emphasis>-, <break>- und <prosody>-elemente. Signalerzeugung: g g <voice>-element, Stimm-Auswahl. Attribute gender, age, variant, name. 38

39 VoiceXML Version 2.0 W3C Recommendation. VoiceXML Forum: Intel, AT&T, HP, Oracle, TellMe, IBM, Motorola, Ziele: Trennung von Awendung und Sprachtechnologie. Elemente: Dialogsteuerung, Spracherkennung und Synthese, DTMF, Aufzeichnung und Wiedergabe. <vxml version="2.0"> <form> <block> <prompt> Hello world! </prompt> </block> </form> </vxml> 39

40 VoiceXML: Konzepte Dialoge und Subdialoge: Menüs: Verzweigungspunkte. Forms: ausfüllbare Formulare. Events: Behandlung von Ausnahmesituationen. Links: Grammatik, die in einem Gültigkeitsbereichaktiv ist. Löst Event aus oder verweist e auf Ziel-URI. Prozedurale Elemente: <var>, <assign>, <goto>, <if> <else/> </if>. <objekt>: Aufruf eines plattformabhängigen Objekts. 40

41 VoiceXML: Erzeugung von Dokumenten VoiceXML-Dokument wird meist generiert, genau wie HTML, z.b. mit XSLT aus XML-Beschreibung der Inhalte. <cocktailkarte> <cocktail> <name>caipirinha</name> <beschr>nationalgetränk Brasiliens</beschr> </cocktail> </cocktailkarte> <voice gender=male>caipirinha </voice> <voice gender=female> Nationalgetränk Brasiliens</voice> <xsl:template match= cocktailkarte > Cocktailkarte <xsl:template match= cocktail > <voice gender = male> <xsl:value-of select= name /> </voice> <p/> <voice gender = female> <xsl:value-of select= beschr /> </voice> </xsl:template> </xsl:template> 41

42 VoiceXML Elemente: Forms <form>: Formular; <field>: auszufüllendes Feld. Attribute und Methoden: Bezeichner, dient später als Referenz. Mit Eingabe zu belegende Variablen, Scope: lokal für Dialog oder global, Event-Handler, Aktionen wie Rufweiterleitung. Bedingungen g für Felder. 42

43 VoiceXML Elemente: Forms Interpretation: Solange nicht jedes <field> aufgefüllt, wähle <field>, lies <prompt>, warte auf Eingabe. <form id=bestellung> <block>sie können jetzt bestellen.</block> <field name= getränk > <prompt>was möchten Sie trinken? </prompt> <grammar src= cocktail.grxml cocktail grxml type= application/srgs+xml application/srgs+xml /> /> </field> </form> 43

44 VoiceXML Forms: Mixed Initiative <initial>, initiales Element: Prompt bei erster Iteration über Form. Benutzer kann ein oder gleich mehrere Felder füllen. Interpreter spielt danach Prompt des ersten jetzt noch freien Feldes ab. > Wohin dürfen wir den Cocktail liefern? Bitte in die Rudower Chaussee 25, mein Name ist Scheffer. > Wie lautet Ihre Postleitzahl? 44

45 Scheffer: Sprachtechnologie 45 VoiceXML - Beispiel

46 SALT: Speech Application Language Tags Erweiterung von HTML um sprach-orientierte Tags. Sprachsteuerung von Browsern. Multimodale Browser. Basiert auf SRGS und SSML. Microsoft Speech Server. OpenSALT. 46

47 Überblick Unter der Haube: Spracherkennung, Text-to-Speech to Speech. Anwendungsentwicklung: SRGS, SSML, VoiceXML, Beispiel. Anwendungen. Forschung und weitere Entwicklung: woran hängt es? 47

48 Sprachportale: Anwendungen Bankgeschäfte: Statusabfragen, Aufträge, Wertpapierhandel. Scheffer: Sprachtec hnologie 48

49 Sprachportale: Anwendungen Bankgeschäfte: Wirtschaft und Statusabfragen, Handel: Aufträge, Versandhandel, Wertpapierhandel. Bestellungen. Scheffer: Sprachtec hnologie 49

50 Sprachportale: Anwendungen Bankgeschäfte: Wirtschaft und Statusabfragen, Handel: Aufträge, Versandhandel, Wertpapierhandel. Bestellungen. Information Retrieval: Wetterauskunft, Telefonauskunft, Kino, Sport. 50

51 Sprachportale: Anwendungen Wirtschaft und Handel: Versandhandel, Bestellungen. Unified Messaging: Information Retrieval: Vorlesen von SMS, Wetterauskunft, -Portale Portale, Telefonauskunft, Voice-Office. Kino, Sport. 51

52 Überblick Unter der Haube: Spracherkennung, Text-to-Speech to Speech. Anwendungsentwicklung: SRGS, SSML, VoiceXML, Beispiel. Anwendungen. Forschung und weitere Entwicklung: woran hängt es? 52

53 Woran hängt es? Spracherkennung ist eine Schwachstelle: Benutzerspezifisch oder Thematisch fokussiert. Mensch gegen Maschine Mensch Maschine WSJ 0.90% 4.50% WSJ, verrauscht 1.10% 10% 8.60% WSJ, Trigramm-Texte 7.60% 4.40% Perfektes Sprachmodell: Spracherkenner schlagen Sekretärinnen! [Huang et al., 2001]. Argument: Brauchen bessere Sprachmodelle. 53