Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy

Größe: px

Ab Seite anzeigen:

Download "Dialogsysteme. Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme. 12. Januar 2006, Susanne O'Shaughnessy"

Alwin Giese
vor 7 Jahren
Abrufe

1 Dialogsysteme Vortrag zum Thema n-gramm-modelle 2. Teil: Lösungsansätze für Ausfall-N-Gramme 12. Januar 2006, Susanne O'Shaughnessy

2 Smoothing - Glättung Problem bei Standard- n-gramm-modellen: - kein Trainingskorpus kann alle möglichen n-gramme einer Sprache enthalten - n-gramme, die nicht darin vorkommen, haben mit den bisher vorgestellten Methoden eine Auftrittswahrscheinlichkeit von 0 -> Lösung: verschied. Techniken, die solchen n- Grammen eine Wahrscheinlichkeit > 0 zuweisen (sog. Smoothing)

3 Type vs. Token - Token: einzelne sprachliche Äußerung - Type: abstrakte Einheit, die einer Äußerung zugrunde liegt (Vokabular) Bsp.: 'A rose is a rose is a rose' besteht aus 8 Tokens und 3 Types.

4 Add-one Smoothing - zur absoluten Häufigkeit der n-gramm- Typen wird der Wert 1 addiert - da die Häufigkeit für jeden Typ um 1 steigt, muss auch die Anzahl der Tokens entsprechend um die Anzahl der Typen (Vokabular V) erhöht werden - die Bigramm-Wahrscheinlichkeit beträgt dann: p*(w n w n-1 ) = C(w n-1 w n ) + 1 / ( C(w n-1 ) + V )

5 Add-one Smoothing - Beispiel - Bigramm Häufigkeiten für 7 Wörter (von 1616 Worttypen) aus dem Berkeley Restaurant Project Korpus:

6 Add-one Smoothing - Beispiel - Bigramm-Häufigkeiten bei Anwendung des Add-one Smoothing:

7 Add-one Smoothing - Beispiel -Bigramm-Wahrscheinlichkeiten nach MLE:

8 Add-one Smoothing (Beispiel) - 'geglättete' Bigramm-Wahrscheinlichkeiten: Bsp.: C('I')= 3437; C('I want') =1087+1;V=1616; p*('want' 'I') = C('I want')/ (C('I') + V) = = 1088/5053 = 0,215;

9 Add-one Smoothing - Probleme dieses Verfahrens: - ungesehenen n-grammen wird bei großem V zuviel Wahrscheinlichkeits masse zugewiesen, die Wahrscheinlichkeit für häufig vorkommende n-gramme wird unterschätzt - alle ungesehenen n-gramme erhalten die gleiche Wahrscheinlichkeit

10 Witten-Bell Discounting - Konzept: die W., ein n-gramm zum ersten Mal zu sehen, schätzt man aus der Anzahl der Fälle, in denen im Trainingskorpus ein n-gramm zum ersten Mal gesehen wurde (= Anzahl der n-gramm-typen bzw. T). - die totale Wahrscheinlichkeitsmasse für alle 0-n-Gramme ist: i:ci=0 p i * = T/(N+T)

11 Witten-Bell Discounting - diese W.-Masse wird unter allen Z 0-n- Grammen aufgeteilt und deshalb von den übrigen n-grammen abgezogen (discounting) - die Wahrscheinlichkeit für gesehene n- Gramme beträgt deshalb: p i * = c i / N + T (c i > 0) - für ungesehene: p i * = T / Z(N + T) (c i = 0)

12 Witten-Bell Discounting - das Verfahren liefert viel verlässlichere Werte als das Add-one Smoothing - wird in der Spracherkennung häufig verwendet

13 Backoff-Modelle (Katz) - Idee: Wenn die Häufigkeit eines Trigramms im Korpus 0 ist, schätzt man seine Wahrscheinlichkeit P(w n w n-2 w n-1 ) anhand der Bigramm-Wahrscheinlichkeit P(w n w n-1 ) ab.

14 Backoff-Modelle (Katz) - die Wahrscheinlichkeit lässt sich dann (allgemein) folgendermaßen berechnen: P bo (w i w i-n+1...w i-1 ) = (1-d wi-n+1...wi-1 )*C(w i-n+1...w i )/C(w i-n+1...w i-1 ), wenn C(w i-n+1...w i ) > 0 α wi-n+1...wi-1 * P bo (w i w i-n+2...w i-1 ), sonst - die discounting-funktion d nimmt von den gesehenen n-grammen W.-Masse weg - der normalisierende Faktor α sorgt dafür, dass unter den 0-n-Grammen nur W.-Masse aus dem Discount verteilt wird

15 Backoff-Modelle (Katz) - gutes Verfahren bei wenig verfügbaren Daten - unter anderen Umständen z.t. schlechte Ergebnisse: - geg.:häufiges Bigramm w i w j, häufiges Wort w k, Trigramm w i w j w k aber noch nicht gesehen -> signifikant (evtl. grammatische Null ) aber: beim Backoff wird p(w k w i w j ) über p(w k w j ) berechnet

16 Anwendungsbeispiel - Problem: für einen gesprochenen Input [ni], der auf 'I' folgt, ist das Wort gesucht, das am wahrscheinlichsten damit gemeint sein könnte - lt. Switchboard-Korpus (Sammlung von Telephongesprächen mit 1,4 Mio. Wörtern) können folgende Wörter wie [ni] ausgesprochen werden: the (Kontext: in the), neat (Kontext: neat little), need, new (Kontext: New York), knee

17 Anwendungsbeispiel - Ermittlung der Bigramm-Häufigkeiten C('I' w) aus dem Korpus, (einfache) Glättung und Berechnung der Wahrscheinlichkeit für jedes Wort, gegeben 'I': Word C('I' w) C('I' w) p(w 'I') need new knee the neat

18 Anwendungsbeispiel - Berechnung der Wahrscheinlichkeit p(y w), dass das Wort w [ni] ausgesprochen wird Word p(y w) p(w) p(y w)p(w) need new knee the neat das wahrscheinlichste Wort, das auf 'I' folgt, gegeben die Aussprache [ni], ist need -> entspricht den Erwartungen

Ähnliche Dokumente

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015

n-gramm-modelle Vorlesung Computerlinguistische Techniken Alexander Koller 17. November 2015 Statistische Modelle Wir möchten W.theorie verwenden, um ein Modell eines generativen Prozesses aus Beobachtungen