Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Transkript

1 HUMBOLD-UNIVERSIÄ ZU BERLIN Institut für Informatik Lehrstuhl Wissensmanagement Maschinelle Sprachverarbeitung: N-Gramm-Modelle obias Scheffer, Ulf Brefeld Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch Grammatik einer Sprache beschrieben. Wie wahrscheinlich ist ein bestimmter Satz in einem Kontext ich pflücke Beeren = 0.000, ich pflücke Bären = 0 (oder vielleicht 0-5. Statistische Sprachmodelle: N-Gramme, probabilistische kontextfreie Grammatiken, Hidden-Markov-Modelle.

2 Statistische Sprachmodelle: wozu? Spracherkennung: Akustisches Modell + Sprachmodell. Handschrifterkennung: Schreibmodell + Sprachmodell. Rechtschreibkorrektur: Fehler- / Vertippmodell + Sprachmodell. Übersetzung: Übersetzungsmodell + Sprachmodell der Zielsprache. PDA-astatureingabe : Normalverteilte Stiftposition + Sprachmodell. 3 Statistische Sprachmodelle: wozu? Bayes Formel ( DIE Formel : arg max w,..., w signal w,..., w = arg max w,..., w signal w,..., w Pw (,..., w 443 Spracherkennung: Akustikmodell (HMM Sprachmodell auf Wortebene Handschrifterkennung: Schriftmodell Sprachmodell auf Wortebene Rechtschreibkorrektur: Vertipp-/Fehlermodell Sprachmodell auf Wortebene Übersetzung: PDA-astatureingabe: Übersetzungsmodell Stiftpositionsmodell Sprachmodell auf Wortebene Sprachmodell auf Buchstabenebene 9 Buchst.-astenzuordnung Sprachmodell auf Buchstabenebene 4

3 N-Gramm-Modelle ich pflücke Beeren = ich x pflücke ich x Beeren ich pflücke. Markov-Annahme N. Ordnung (bsp: 3. Ordnung: Wald ich pflücke Beeren im = Wald Beeren im. Modell speichert Wahrscheinlichkeiten für Wortfolgen der Länge maximal N. N=: Bigramm (richtig wäre eigentlich Digramm, N=3: rigramm, N=4: etragramm. 5 N-Gramme Vorhersage des nächsten Wortes: Bestimme w n w n-,..., w. Die meisten Wortfolgen w,..., w n tauchen in einem Korpus nur einmal auf, wie können wir dafür Wahrscheinlichkeiten schätzen? Markov-Annahme (n--ter Ordnung: Nur die letzten n- Wörter sind entscheidend für das nächste (n-te Wort. w t+n w t+n-,..., w = w t+n w t+n-,..., w t+ 6 3

4 Markov-Annahme (n--ter Ordnung Wahrscheinlichkeit für Wort t+n ergibt sich aus Wörtern t+ bis t+n-. ich pflücke heute nachmittag wieder... [Beeren], ich jage heute nachmittag wieder... [Bären] n 4: gleiche Wahrscheinlichkeit für nächstes Wort; n 5: unterschiedliche Wahrscheinlichkeiten. Großes n: Wenige Beispiele für jedes N-Gramm, schätzen der Wahrscheinlichkeiten schwierig. Kleines n: Viele Beispiele, aber Vorhersage ungenau da verschiedene Wortfolgen als gleich behandelt werden. 7 Markov-Annahme (n--ter Ordnung Wie viele Wahrscheinlichkeiten müssen wir kennen? N= (nullte Ordnung: ca. 0,000 verschiedene Wortfolgen der Länge, N= (erste Ordnung: ca. 400,000,000, N=3 (zweite Ordnung: ca 8 x 0. N=4 (dritte Ordnung: ca.6 x 0 7. N-Gramme über Wortstämme, statt über Wörter. Etwas Information geht verloren, aber Deutlich weniger Wahrscheinlichkeiten. 8 4

5 Lernen von N-Gram-Modellen Schätzen aller Wahrscheinlichkeiten w n w n-,..., w aus dem Korpus. Wie viele Wahrscheinlichkeiten sind das? wn, wn,..., w wn wn,..., w = w,..., w Messbar ist nur n count( w,..., w n 9 Schätzen von Wortfolgewahrscheinlichkeiten Maximum-Likelihood-Schätzer: arg max p count p count p = Binomial [p,m](count Maximum: count/m. (m: Stichprobengröße. count( w,..., wn PML ( wn,..., w = m count( w,..., wn PML ( wn wn,..., w = count( w,..., w n Problem: die meisten Wortfolgen tauchen im Korpus überhaupt nicht auf. rotzdem ist ihre Wahrscheinlichkeit > 0. Vorwissen, dass fast keine Wortfolge völlig ausgeschlossen ist, muss in den Schätzer einfließen. 0 5

6 Schätzen von Wortfolgewahrscheinlichkeiten Vorwissen als A-Priori-Wahrscheinlichkeit: p: Gleichverteilung über alle Ereignisse. Maximum-A-Posteripri-Schätzer: arg max p count arg max count p p p = Ergibt: count( w,..., wn + PMAP ( wn,..., w = n m+ V Problem: Wenn Korpus klein ist, wird die Wahrscheinlichkeit nie gesehener Ereignisse überschätzt. p Schätzen von Wortfolgewahrscheinlichkeiten Lidstone-Schätzer: Interpolation zwischen Maximum-Likelihood- und Maximum-A-Posteriori- Schätzer: arg max p µ count p + ( µ p count Ergibt: count( w,..., wn PLID ( wn,..., w = µ + ( µ n m V count( w,..., wn + λ = n m+ V λ Häufig verwendet: λ = 6

7 Schätzen von Wortfolgewahrscheinlichkeiten Wie viel Wahrscheinlichkeitsmasse entfällt tatsächlich auf ungesehene Wortfolgen? Lässt sich bestimmen durch Cross-Validation: eile Korpus zufällig in rainingsmenge S und Holdout-Menge S, Schätze N-Gramm-Wahrscheinlichkeiten auf S, Zähle, welcher Anteil der N-Gramme in S unbekannt ist. λ = Anteil unbekannter N-Gramme / V n. Problem: In S tauchen mehr N-Gramme nicht auf als in S +S. 3 Schätzen von Wortfolgewahrscheinlichkeiten n-fold Cross-Validation eile S zufällig in S,..., S n. For i =... n Schätze N-Gramm-Wahrscheinlichkeiten auf S \ S i. Zähle, welcher Anteil der N-Gramme in S i unbekannt ist. λ = Durchschnittlicher Anteil unbekannter N- Gramme / V N. Anschließend können die N-Gramm- Wahrscheinlichkeiten auf S geschätzt werden, mit Parametereinstellung λ. 4 7

8 Wahrscheinlichkeit eines Satzes Wahrscheinlichkeit des Satzes w,, w bei gegebenem N-Gramm-Modell: Pw (,..., w = Pw ( Pw ( w... Pw ( w,..., w = Pw ( Pw ( w... Pw ( w, w N+ N Pwi wi w Pwi wi wi N+ i= i= N = (,..., (,.. Beispiel: 3-Gramm-Modell w,..., w = w w w... w w,..., w = Pw ( Pw ( w... Pw ( w, w = Pw ( Pw ( w Pw ( i wi, wi i= 3 5 Evaluation von N-Gramm-Modellen N-Gramm auf rainingskorpus gelernt. Wie gut ist es? Bewertung auf estkorpus. Wie sehr überrascht mich jedes neue Wort des estkorpus? Gutes Modell weniger Überraschung. Entropie H: Wie viele Bit brauche ich um nächstes Wort zu kodieren? Perplexität ( mittlerer Verzweigungsfaktor : H. Minimum der Entropie = Minimum der Perplexität wenn gelerntes Modell gleich echtem Modell ist. 6 8

9 Evaluation von N-Gramm-Modellen N-Gramm-Modell und ein langer ext W. Kreuzentropie des extes gegeben das Modell: HW ( m = log Pm ( W W = log Pm( w... wn = log Pm( wi wi,..., w i W W Perplexität des Modells (durchschnittlicher Verzweigungsfaktor: PP ( W = H ( W 7 Anzahl der Parameter Interpolation P w w ( n,..., w n = w,..., w n wn,..., w Problem mit kleinen n: ungenau (gleiche Wahrscheinlichkeit für viele Folgen. Problem mit großen n: wenige Beispiele für viele Wahrscheinlichkeiten. IBM angora: Korpus mit 365 Mio Wörtern, ( Verschiedene 6.8*0 0 -Gramme, 4 Mio davon tauchen auf, 8 Mio nur einmal;.% aller neuen -Gramme sind unbekannt..8*0 6 3-Gramme, 75 Mio tauchen auf, 53 Mio einmal, 4.7% aller neuen 3-Gramme sind unbekannt. 8 9

10 Interpolation von N-Gramm-Modellen Wie Parameter N einstellen? Zu klein: Abhängigkeiten über mehrere Wörter hinweg werden nicht erfasst, Zu groß: nur wenige der möglichen Kombinationen kommen in rainingsdaten vor. Idee: Interpolation. -Gramm-,, N-Gramm-Modelle überlagern. Jedes Modell bekommt ein Gewicht. Gewichte müssen aus Daten geschätzt werden. 9 Interpolation Idee: Interpolation verschiedener N. Pw ( n wn,..., w = (,..., j λ jpj wn w n n wn j+ Parameter λ j müssen eingestellt werden, verschiedene Verfahren möglich. EM-Algorithmus: Starte mit beliebiger Aufteilung λ j = Wiederhole folgende Schritte abwechselnd. Schätze N-Gramm-Modell mit festen λ j Schätze Parameter λ j mit festem N-Gramm-Modell. Einstellung der λ j auf estkorpus: rainiere alle N-Gramm-Modelle auf rainingskorpus. Stelle so ein, dass estkorpus maximiert wird. λ j 0 0

11 N-Gramm-Klassenmodelle Manche Wörter haben denselben Kontext. Wir sehen uns [Montag Dienstag...] Nachmittag. Idee: Wortklassen. π(w=c. Ein N-Gramm-Modell ist ein Klassenmodell gdw. wn wn,..., w = wn cn cn cn,..., c Klassenmodell hat weniger Parameter (wenn C < V. N-Gramm-Klassenmodell = N-Gramm-Modell, wenn jedes Wort eine eigene Klasse hat. N-Gramm-Klassenmodell mit einem Wort pro Klasse wird normal aus rainingskorpus gelernt. Dann werden Klassen zusammen gelegt. N-Gramm-Klassenmodelle HW m = P W W = log Pm( w... wn = log Pm( wi w,..., i i wi n+ W W = log Pm( wi ci Pm( ci ci,..., i n i c + W = log Pm( wi ci Pm( ci π( wi,..., π( wi n i + W ( log m( Greedy-Algorithmus zum Lernen von π: Initialisierung von π: Eine Klasse pro Wort Vereinige diejenigen beiden Klassen, deren Vereinigung H(W m minimal vergrößert. Wiederhole den letzten Schritt.

12 N-Gramm-Klassenmodelle Beispiel-Dendrogramme 3 Beispielaufteilung in 000 Klassen Beispielklassen 4

13 Sticky Pairs Mutual Information zweier Wörter: w, w I ( w, w = log w w Wenn w häufiger auf w folgt als es bei unabhängigen Wörtern vorkäme, ist I positiv. Beispiele mit hoher mutual information: 5 Semantische Klassen und Sticky Pairs Mutual Information nahegelegener Wörter: Gemeinsames Auftauchen in Fenster von 5 Wörtern. Pnear ( w, w I near ( w, w = log P ( w P ( w Beispiele: near near 6 3

14 Anwendung von N-Gramm-Modellen Gegeben: Wortlikelihood eines Signals s w Gegeben: N-Gramm-Modell wn wn,..., w Gesucht: Ursache arg maxw (,...,,...,,..., w P w w s s Viterbi-Algorithmus findet wahrscheinlichste Ursache (Wortfolge für Beobachtung (Signal. arg max = arg max = arg max ( w,..., w ( w,..., w ( w,..., w w,..., w s,..., s s s,..., s w,..., w w... s w w,..., w w,..., w Viterbi-Algorithmus findet wahrscheinlichste Wortfolge schnell mit dynamischer Programmierung. Viterbi kommt noch ausführlich. 7 4