Statistische Sprachmodelle

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick

2 Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache. Durch Grammatik einer Sprache beschrieben. Wie wahrscheinlich ist ein bestimmter Satz in einem Kontext: P( ich pflücke Beeren ) ist vielleicht 0.000, P( ich pflücke Bären ) ist vielleicht Statistische Sprachmodelle: N-Gramme, Probabilistische kontextfreie Grammatiken. 2

3 Statistische Sprachmodelle Wozu? Spracherkennung: Akustisches Modell + Sprachmodell. Phone Wörter ich Sprachmodell bleibe heute Abend hier du bist krank 3

4 Statistische Sprachmodelle Wozu? Handschrifterkennung: Schreibmodell + Sprachmodell. Schreibmodell Sprachmodell

5 Statistische Sprachmodelle Wozu? Rechtschreibkorrektur: Fehler- / Vertippmodell + Sprachmodell. Vertippmodell Gauß-Blob ich Sprachmodell bleibe heute Abend hier du bist krank 5

6 Statistische Sprachmodelle Wozu? ext Übersetzung: Übersetzungsmodell + Sprachmodell der Zielsprache. Übersetzungsmodell delete file x ( delete Verb) ( file Noun) ( x ID) VP Verb delete S Noun file NP ID x ich Sprachmodell bleibe heute Abend hier du bist krank Unix rm i x 6

7 Statistische Sprachmodelle Wozu? Smartphone-astatureingabe : Normalverteilte Fingerposition + Sprachmodell. Normalverteilte Fingerposition Gauß-Blob ich Sprachmodell bleibe heute Abend hier du bist krank 7

8 Statistische Sprachmodelle Die Formel Satz von Bayes ( DIE Formel ): X Likelihood Prior ich bleibe hier heute Aben d du bist krank 8

9 N-Gramm-Modelle Wahrscheinlichkeit für einen gegebenen Satz: P( ich pflücke Beeren im Wald ) = P( ich ) x P( pflücke ich ) x P( Beeren ich pflücke ) x P( im ich pflücke Beeren ) x P( Wald ich pflücke Beeren im ). Problem: Zu viele Wahrscheinlichkeiten. Markov-Annahme (N-). Ordnung (bsp: 2. Ordnung): P( Wald ich pflücke Beeren im ) = P( Wald Beeren im ). 9

10 N-Gramm-Modelle Markov-Annahme (N-). Ordnung (bsp: 2. Ordnung): P( Wald ich pflücke Beeren im ) = P( Wald Beeren im ). Modell speichert Wahrscheinlichkeiten für Wortfolgen der Länge maximal N. N=: Unigramm, N=2: Bigramm, N=3: rigramm. 0

11 N-Gramm Modelle Vorhersage Vorhersage des nächsten Wortes: Bestimme P(w t w,..., w t- ). Die meisten Wortfolgen w,..., w t tauchen in einem Korpus nur einmal auf, wie können wir dafür Wahrscheinlichkeiten ermitteln? Markov-Annahme (N-)-ter Ordnung: Nur die letzten N- Wörter sind entscheidend für das nächste (N-te) Wort. P(w t+n w t+n-,..., w ) = P(w t+n w t+n-,..., w t ) Ignoriere Wörter w t bis w

12 N-Gramm-Modelle Markov-Annahme Wahrscheinlichkeit für Wort t+n ergibt sich aus Wörtern t bis t+n-. ich pflücke heute Nachmittag wieder... [Beeren], N = 5 ich jage heute Nachmittag wieder... [Bären] N = 4 N = 4 N = 5 N4: Etwa gleiche Wahrscheinlichkeiten für nächstes Wort; N5: Unterschiedliche Wahrscheinlichkeiten. 2

13 N-Gramm-Modelle Wahl von N Großes N: Wenige Beispiele für jedes N-Gramm; Schätzen der Wahrscheinlichkeiten schwierig. Vorteil: Wenig Kontextinformation geht verloren. Nachteil: Viele Wahrscheinlichkeiten müssen geschätzt werden (viele 0). Kleines N: Viele Beispiele, aber Vorhersage ungenau da verschiedene Wortfolgen als gleich behandelt werden. Vorteile: Wenige Wortfolgen, die häufig vorkommen. Vorhersage stützt sich auf viele Beispiele. Nachteil: Kontextinformation geht verloren. 3

14 N-Gramm-Modelle Wahl von N Wie viele Wahrscheinlichkeiten müssen wir kennen? N= (nullte Ordnung): ca. 20,000 verschiedene Wortfolgen der Länge, N=2 (erste Ordnung): ca. 400,000,000, N=3 (zweite Ordnung): ca 8 x 0 2. N=4 (dritte Ordnung): ca.6 x 0 7. N-Gramme über Wortstämme, statt über Wörter. Etwas Information geht verloren, aber deutlich weniger Wahrscheinlichkeiten müssen geschätzt werden. Beispiel: Kategorie kategor Kategorien kategor 4

15 N-Gramm-Modelle Lernen, Multinomialverteilung Verteilung über m verschiedene Belegungen einer Zufallsvariable bestimmt durch Parametervektor q=(q,,q m ) mit der Eigenschaft q i 0, S i q i = Wahrscheinlichkeitsverteilung: P x,,x N x x,,x q n n q x n Multinomialkoeffizient m 5

16 Multinomialverteilung Beispiel Bei einem Roulette-Spiel gibt es 38 Verschiedene Möglichkeiten: 8 mal rot, 8 mal schwarz, 2 mal grün. Daraus ergeben sich folgende Parameter der Multinomialverteilung: θ = θ 2 = 8 38, θ 3 = Frage: Was ist die Wahrscheinlichkeit für 4 mal rot, 2 mal schwarz und 4 mal grün? Antwort: P 4,2, ! !2!4! x q P x,,x N x,,x n n q x n m 6

17 N-Gramm-Modelle Lernen, Dirichletverteilung Konjugierter Prior zur Multinomialverteilung. Verteilung über m-dimensionale Vektoren mit reellwertigen Einträgen in [0;] mit Summe der Einträge =. Parametrisiert durch m-dimensionalen Vektor a mit positiven Einträgen. Dichtefunktion: verallgemeinerte Beta-Funktion Spezialfall bei m=2: Beta-Verteilung 7

18 N-Gramm-Modelle Lernen Korpus D ist Folge von Zufallsvariablen w i ; Wertebereich ist das Vokabular v bis v K. Beobachtungen: x : Anzahl der Vorkommen der n-gramme v...,..., x v v K... v K v v bis v K v K in D. Parameter q v in θ ( q q v... v v K... v K ( wn vi wn... w vi... v n n i... v P, θ) i Wie viele Parameter gibt es? 8

19 N-Gramm-Modelle Wahrscheinlichkeit eines Satzes Wahrscheinlichkeit des Satzes w,..., w bei gegebenem N-Gramm-Modell: P(w,..., w ) P(w )P(w w )...P(w w,..., w ) Beispiel: 3-Gramm-Modell: 2 P(w )P(w w )...P(w w,..., w ) N i 2 ( N) N i i i ( N) P(w w,..., w ) P(w w,..., w ) i i in i i i ( N) q q q w i2 w...w in w...w P(w,...,w ) P(w )P(w 2 w )...P(w w,...,w ) P(w )P(w 2 w ) P(w i w i,w i2 ) q w q w2 w i 3 q i 3 wi w i w i2 Markov- Eigenschaft 9

20 N-Gramm-Modelle Empirische Inferenz der Modellparameter Parameter des Modells sind die echten Auftretenswahrscheinlichkeiten θ ( q q. Wahrscheinlichkeiten sind nicht bekannt. Echte Wahrscheinlichkeiten sind in einem Korpus von rainingsdokumenten reflektiert. Empirische Inferenz: Berechnung des Posteriors P( θ D) P( D θ) P( θ) v... v v K... v MAP-Hypothese: Wahrscheinlichste Parameter gegeben das Korpus D. K 20

21 N-Gramm-Modelle Inferenz: Maximum-Likelihood Posterior: P( θ D) P( D θ) P( θ) Likelihood: Produkt von Multinomialverteilungen. 0 t t tn P(D θ) P(w ) P(w w,..., w,θ) q 0 t t t tn q w t w w,...,w Laut Definition der Multinomialverteilung Sonderbehandlung t<n: n=t. Ansonsten n=n. 2

22 N-Gramm-Modelle Inferenz: Maximum-Likelihood Maximum-Likelihood- (ML-)Schätzer: ML θ arg max P(D θ) arg max P D... Es folgt: ML v...v qv...v q v K...vK Auftrittshäufigkeit von v... v in i q in i x x v v...v in i...v in i 22

23 N-Gramm-Modelle Inferenz: Maximum A-Posteriori Posterior: Prior: Dirichlet, konjugiert zur Multinomialverteilung. P( θ D) P( D θ) P( θ) v...v P( K K q ) P ( Dirichlet q,..., v n w n...w q w...w v...v v K w n...w a ) v a v K Posterior: Wieder Dirichletverteilt. P(q D) P(D) v K...v K v K...v K q t wt w t,...,w tn P Dirichlet (q v w n...w,..., w n...w v...v q vk w n...w a v a vk ) P Dirichlet q v w n...w,...,q vk w n...w a v x v w n...w a vk x vk w n...w w n...w v...v Likelihood Prior 23

24 N-Gramm-Modelle Inferenz: Maximum A-Posteriori Posterior: wieder Dirichletverteilt. MAP-Hypothese: P( θ D) arg max x w v w x K n n v... v i n q w... w v i n w n... w n K... w a K ( a j P( θ D) v i n v j... w v... v Dirichlet v wn... w vk wn... w v vwn... w vk vk wn... w n P q ),..., q a Sonderbehandlung n<n: Wahrscheinlichkeiten nur aus Satzanfängen schätzen. a x a=2: Laplace Smoothing x 24

25 N-Gramm-Modelle Inferenz der Hyperparameter Einstellen der Hyperparameter a. a: Wahrscheinlichkeit für ein N-Gramm, das im rainingskorpus nicht auftaucht: 0 av in qv w ; n... w in K x ( a ) w n... w j Bei einem Wert für alle a:. v j x wn...w a (a )K 25

26 N-Gramm-Modelle Inferenz der Hyperparameter Wie viel Wahrscheinlichkeitsmasse sollte auf ungesehene Kombinationen entfallen? eile Korpus in zwei eile. Zähle, wie viele Kombinationen w w... w n n im zweiten eil, aber nicht im ersten eil auftauchen. Stelle dann a so ein, dass x im Durchschnitt über alle Kontexte w...w wn...w (a )K n dem gewünschten Verhältnis entspricht. Kleine Schwäche des Verfahrens: Im ersten eil des Korpus kommen mehr N-Gramme nicht vor als im gesamten Korpus. (Wahrscheinlichkeit für ungesehene Kombinationen wird überschätzt) a 26

27 N-Gramm-Modelle Einstellen von N (Markov-Grad) N ist entscheidender Parameter des N-Gramm- Modells. Großes N : viele Wahrscheinlichkeiten müssen geschätzt werden. Kleines N : zu viel Kontextinformation geht verloren. Kompromiss: Interpolation. 27

28 N-Gramm-Modelle Interpolation Dem N-Gramm-Sprachmodell liegt ein generatives Prozessmodell zugrunde. Wörter werden iterativ ausgewürfelt. Jedes Wort w i wird nach der Wahrscheinlichkeit P w w,..., w ) ausgewürfelt. ( i i in Generatives Modell für interpoliertes N-Gramm: Für jedes Wort w i wird zunächst Markov-Grad n zwischen und N nach p(n) gezogen. Wort w i wird dann nach P( wi wi,..., wi n) gezogen. 28

29 Interpoliertes N-Gramm-Modell Wahrscheinlichkeit eines Satzes Wahrscheinlichkeit des Satzes w,, w mit interpoliertem N-Gramm-Modell: P(w,..., w ) P(w )P(w w )...P(w w,..., w ) Beispiel: N = 3. 2 P(w )(p()p(w ) p(2)p(w w ))... p(n)p(w w,..., w ) 2 2 n n N i N p(w ) p(n)p(w w,..., w ) p(n)p(w w,..., w ) P(w,..., w ) i n2 i i in n i i in 3 P(w )(p()p(w ) p(2)p(w w )) p(n)p(w w, w ) 2 2 i3 n i i i2 N 29

30 Interpoliertes N-Gramm-Modell Inferenz der Parameter Likelihood für interpoliertes N-Gramm: Posterior: P(θ D) t t N n t Problem beim Parameterschätzen: N P(D θ) p(n )P(w w,..., w,θ) N n t p(n ) q t t t tn t w w,...,w v...v t t tnt q q q a a K K p(n t ) w t w t,...,w p(n)p t n Dirichlet ( v t t N w n...w,..., v K w n...w v v ) K t n w...w v...v n v...v K K p(n)p q,..., q a x a w...w v...v N N n n K n n n t ist latente, unbeobachtete Variable. N Dirichlet v w...w v w...w v v w...w t x v v w...w K K n 30

31 Interpoliertes N-Gramm-Modell Parameterschätzung Beim Schätzen der Parameter der N-Gramm- Modelle müssten wir wissen, welches Wort mit welchem Abhängigkeitswert N erzeugt wurde. Nur die Wörter, die mit Wert N generiert wurden sollten in Schätzung des N-Gramm-Modells eingehen. Definition Zufallsvariable z tn : Wert z tn = zeigt an, dass Wort w t mit Abhängigkeit n gezogen wurde. Problem: Werte der z tn sind aber unbekannt. 3

32 Interpoliertes N-Gramm-Modell Parameterschätzung Problem: Schätzproblem (Schätzen der Paramater θ ( q q ) mit latenten Variablen z tn. v... v v K... v K Lösung: Expectation-Maximization-Algorithmus. Idee: Beginne mit zufälligen Parametern. Expectation-Schritt: Berechne Wahrscheinlichkeiten p(z tn ) gegeben die Daten und Parameter. Maximization-Schritt: Schätze θ ( qv... v q v K... v basierend auf den aktuellen Werten der p(z tn ). Wiederhole bis zur Konvergenz. K 32

33 Expectation Maximization -Algorithmus Motivation und Beispiel Münzwurfexperiment mit zwei Münzen: Münze A mit Parameter θ A Münze B mit Parameter θ B Ziel: Parameter θ = θ A, θ B schätzen. Experiment: Wiederhole für t =,, 5: Wähle zufällig eine Münze z t = {A, B} und wirf die Münze 0 mal (x t K, Z 0 ). Parameterschätzung (ML): θ A = # Würfe mit Kopf für Münze A # Würfe mit Münze A Wahrscheinlichkeit für Zahl Analog für θ B Problem: Wie Parameter schätzen, wenn die Zufallsvariablen z t unbekannt sind? 33

34 Expectation Maximization Basisalgorithmus Idee: Wenn wir wissen, welche Münze wann geworfen wurde, ist Parameterinferenz einfach (siehe letzte Folie). θ A = # Würfe mit Kopf für Münze A # Würfe mit Münze A Algorithmus (für Münzwurfexperiment):. Starte mit initialen Parametern θ A und θ B. 2. Expectation: Bestimme für alle t =,, 5 Münzwurfserien, mit welcher Wahrscheinlichkeit z t die Münzen die Serien produziert haben. 3. Maximization: Nutze z,, z 5, um die optimalen Parameter θ A und θ B zu bestimmen. 4. Wiederhole 2. und 3. bis zur Konvergenz. 34

35 Expectation Maximization Beispiel unbekannt z K Z Z Z K K Z K Z K z 2 K K K K Z K K K K K z 3 K Z K K K K K Z K K z 4 K Z K Z Z Z K K Z Z z 5 Z K K K Z K K K Z K θ A (0) = 0.6 θ B (0) = 0.5 Initialisierung (0.5 0 ) ( ) 0.45 x A 0.55 x B 0.8 x A 0.2 x B 0.73 x A 0.27 x B 0.35 x A 0.65 x B 0.65 x A 0.35 x B Expectation: Bestimme Wahrscheinlichkeiten der z t θ A () = θ B () = Münze A Münze B 2.2 K, 2.2 Z 2.8 K, 2.8 Z 7.2 K, 0.8 Z.8 K, 0.2 Z 5.9 K,.5 Z 2. K, 0.5 Z.4 K, 2. Z 2.6 K, 3.9 Z 4.5 K,.9 Z 2.5 K,. Z 2.3 K, 8.6 Z.7 k, 8.4 Z Maximization (0) θ A 0.8 (0) θ B

36 Interpoliertes N-Gramm-Modell Expectation-Schritt p(z tn ): Wahrscheinlichkeit dafür, dass w t von n- Gramm-Modell generiert wurde: p( z ) p( n w ) p( w w,..., w ) p( n) tn t t t tn 36

37 Interpoliertes N-Gramm-Modell Maximization-Schritt MAP-Schätzer: Zählvariablen: arg max P( q D) q vi v... v n in i x x a v v... v v in in i in K v... v i v in i in in in i n ( a ) K x p ( z )[[ w... w v v... v ]] v v... v t tn t tn i i n i Indikatorfunktion 37

38 N-Gramm-Modelle Anzahl der Parameter: Beispiel IBM angora: Korpus mit 365 Mio Wörtern, ( Verschiedene) 6.8x0 0 2-Gramme, 4 Mio davon tauchen auf, 8 Mio nur einmal; 2.2% aller neuen 2-Gramme sind unbekannt..8x0 6 3-Gramme, 75 Mio tauchen auf, 53 Mio einmal, 4.7% aller neuen 3-Gramme sind unbekannt. 38

39 N-Gramm-Modelle Evaluation N-Gramm auf rainingskorpus gelernt. Wie gut ist es? Bewertung auf estkorpus. Nicht auf rainingskorpus. Wie sehr überrascht jedes neue Wort des estkorpus? Gutes Modell Weniger Überraschung. Entropie H: Wie viele Bit brauche ich um nächstes Wort zu kodieren? Perplexität ( mittlerer Verzweigungsfaktor ): 2 H. Minimum der Entropie = Minimum der Perplexität wenn gelerntes Modell gleich echtem Modell ist. 39

40 N-Gramm-Modelle Evaluation N-Gramm-Modell und ein langer ext W. Kreuzentropie des extes gegeben das Modell: H W m = W log 2 P m W H W m = W log 2 P m w w n = W Perplexität des Modells (durchschnittlicher Verzweigungsfaktor): PP W m = 2 H(W m) Wahrscheinlichkeit für Wortfolge für ein Gegebenes Modell m i log 2 P m (w i w i,, w ) 40

41 N-Gramm-Klassenmodelle Manche Wörter haben denselben Kontext. Wir sehen uns [Montag Dienstag...] Nachmittag. Idee: Wortklassen. (w)=c. Ein N-Gramm-Modell ist ein Klassenmodell gdw. P( wn wn,..., w ) P( wn cn) P( cn cn,..., c Klassenmodell hat weniger Parameter (wenn C < V). N-Gramm-Klassenmodell = N-Gramm-Modell, wenn jedes Wort eine eigene Klasse hat. N-Gramm-Klassenmodell mit einem Wort pro Klasse wird normal aus rainingskorpus gelernt. Dann werden Klassen zusammen gelegt. ) 4

42 N-Gramm-Klassenmodelle Beispiel-Dendrogramme 42

43 Beispielaufteilung in 000 Klassen Beispielklassen 43

44 Anwendung von N-Grammen Rechtschreibkorrektur Gegeben: Signal s,, s ; gesucht: Wahrscheinlichste beabsichtigte Abfolge w,, w. Fehlermodell: p(s i w i ). Z.B.: Dekodierung: arg max arg max arg max p( si wi ) exp dedit ( si, wi ) 2d phonetisch( si, wi ) 3d w,..., w w,..., w w,..., w p( w,..., w p( s i,..., s p( s ( s, w ) keyboard i i i s,..., s ) w,..., w w ) p( w i i ) p( w,..., w w i,..., w in ) ) Satz von Bayes Unabhängigkeitsannahme + Markov Annahme 44

45 Anwendung von N-Grammen Rechtschreibkorrektur Dekodierung: arg max arg max w,..., w w,..., w p( w,..., w i p( s Naive Implementierung:,..., s w ) p( w,..., w Suche über alle w,, w in O(V ). Mit dynamischer Programmierung: s Suche über alle w,, w in O(V n ). i Idee: abelle mit p(w n w,, w n- ) in O(V n ) vorberechnen. i Dann linear durch Signalabfolge gehen, für jedes n- Gramm nur die wahrscheinlichste Historie merken ) i w i in ) 45

46 Anwendung von N-Grammen Rechtschreibkorrektur Dekodierung: arg max arg max w,..., w w,..., w p( w,..., w i Weitere Optimierung: Für jedes s i, nur die k besten w i in Erwägung ziehen. Suche in O(k n ). p( s,..., s w ) p( w,..., w Optimierung für Suchmaschinen: i s i Für häufig falsch geschriebene Suchanfragen (z.b. Hoeness ) wahrscheinlichste Bedeutung in Cache vorhalten. ) i w i in ) 46

47 Anwendung von N-Grammen Auto-Complete Dekodierung: arg max Suche mit dynamischer Programmierung: O(V n ). w k arg max w,..., w k p( w w,..., θ,..., w p( w i i w i ),..., w in ) 47

48 Zusammenfassung Sprachmodelle bestimmen Wahrscheinlichkeit für Elemente (z.b. Sätze) einer Sprache. N-Gramme: Markov Annahme (N-). Ordnung. Lernen der Parameter: Empirsche Inferenz der Modellparameter (Wahrscheinlichkeiten für N- Gramme). Erweiterung: Interpoliertes N-Gramm-Modell. Lernen der Parameter: EM-Algorithmus. Wahrscheinlichkeiten für N-Gramme + Wahrscheinlichkeiten für ein bestimmtes N. 48

49 Fragen? 49