Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Größe: px

Ab Seite anzeigen:

Download "Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008"

Louisa Böhler
vor 7 Jahren
Abrufe

1 Bayes sche Klassifikatoren Uwe Reichel IPS, LMU München 16. Juli 2008

2 Inhalt Einleitung Grundlagen der Wahrscheinlichkeitsrechnung Noisy-Channel-Modell Bayes sche Klassifikation Inhalt 1

3 Einleitung Klassifikation auf Grundlage von Wahrscheinlichkeiten Zielfunktion: wähle die im jeweiligen Kontext wahrscheinlichste Alternative Einleitung 2

4 Grundlagen der Wahrscheinlichkeitsrechnung Grundbegriffe Stichprobe S: Menge von Beobachtungen z.b. Text hallo Herr Kaiser, in der die Wörter hallo, Herr und Kaiser beobachtet werden; S = { hallo, Herr, Kaiser }. Grundgesamtheit G: Eine Stichprobe S ist Teilmenge einer Grundgesamtheit (Population). G bezeichnet die Menge aller potentiellen Untersuchungsobjekte für eine bestimmte Fragestellung; z.b. Sammlung aller Wortfolgen der Länge n in einer Sprache. Zufallsvariable: Variable X, die mit bestimmten Wahrscheinlichkeiten bestimmte Werte annimmt, z.b. X := Wort tritt auf mit den Werten hallo, Herr und Kaiser. Grundlagen 3

5 Ereignis: Belegung der Zufallsvariablen X mit einem bestimmten Wert w. E : X = w. Ereignisraum σ Menge aller möglichen Ereignisse σ = {X = hallo, X = Herr, X = Kaiser } Wahrscheinlichkeit P(w): Zahl zwischen 0 (Unmöglichkeit eines Ereignisses) und 1 (Sicherheit eines Ereignisses) Da i.d.r. nur S, nicht aber G gegeben ist, kann die P (w) 1 nicht unmittelbar ermittelt, sondern nur geschätzt (s.u.) werden. Wahrscheinlichkeitsverteilung P: Funktion, die eine Wahrscheinlichkeitsmasse 1 über den Ereignisraum σ verteilt: P (σ) = 1; Gleichverteilung im Hallo Herr Kaiser -Beispiel: alle Ereignisse sind gleich wahrscheinlich, nämlich gleich P (w) ist eine übliche Abkürzung von P (X = w). Grundlagen 4

6 Maximum-Likelihood-Schätzung P (w) wird im einfachsten Fall geschätzt mit der relativen Häufigkeit von w: P (w) = #(w) N. #(w) ist die beobachtete Häufigkeit von Ereignis (z.b. Wort) w, N ist die Größe der Stichprobe S (z.b. Textlänge). z.b.: P ( hallo ) = 1 3. In S ungesehenen (in G aber möglichen) Ereignissen wird damit keine Wahrscheinlichkeitsmasse zugewiesen. Abhilfe: Smoothing von P (Discounting: Reduzierung der Wahrscheinlichkeiten von in S enthaltener Ereignisse). Grundlagen 5

7 Bedingte Wahrscheinlichkeit, Kettenregel Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit, mit der Ereignis A eintritt, wenn Ereignis B beobachtet wurde P (A B) = P (A, B) P (B) = #(A,B) N #(B) N = #(A, B) #(B) (1) Kettenregel: Durch Umformulieren von Gleichung 1 erhalten wir: P (A, B) = P (B)P (A B) (2) Die Generalisierung auf mehr als zwei Ereignisse ergibt die für die Sprachmodellierung wichtige Kettenregel: P (w 1,..., w n ) = P (w 1 )P (w 2 w 1 )P (w 3 w 1, w 2 )... P (w n w 1,..., w n 1 ) (3) Diese Regel gibt uns die Wahrscheinlichkeit eines Textes, der aus der Wortfolge w 1, w 2,..., w n besteht. Grundlagen 6

8 Satz von Bayes Verfahren, mit dem eine angenommene A-priori-Wahrscheinlichkeit P (A) für ein Ereignis A in eine durch weitere empirische Daten gestützte A-posteriori-Wahrscheinlichkeit P (A B) überführt wird. P (B A)P (A) P (A B) = (4) P (B) in der Sprachtechnologie häufig genutzter Effekt: Abhängigkeiten von A und B werden umgedreht Grundlagen 7

9 Unabhängigkeit P (A B) = P (A) Dies führt zur (häufig notwendigen) Vereinfachung diverser Berechnungen: P (A, B) = P (A)P (B) (5) P (A 1,..., A n ) = P (A 1 )P (A 2 )... P (A n ) (6) P (A, B C) = P (A C)P (B C) (7) Gleichung 6: Vereinfachung der Kettenregel Gleichung 7: konditionelle Unabhängigkeit von A und B Naiver Bayes scher Klassifikator: Kombination von Bayes mit Unabhängigkeitsannahme Grundlagen 8

10 Noisy-Channel-Modell Formaler Rahmen für eine Vielzahl von sprachtechnologischen Problemen (maschinelle Übersetzung, POS-Tagging) W Encoder I Noisy Channel O Decoder Ŵ Abbildung 1: Noisy-Channel-Modell Nachricht W wird encodiert und als Code I durch einen Kanal gesendet wird Der Kanal ist verrauscht, daher kommt der Code auf der anderen Seite verfremdet als Code O heraus. Auf Grundlage von O muss die Nachricht W rekonstruiert werden (Nachrichtenrekonstruierung Ŵ ). Der Empfänger kennt nur Code O, nicht aber Code I. Zum Erhalt von I (und falls gewünscht, auch von W ), muß er dasjenige I suchen, womit P (I O) maximiert wird. Noisy-Channel-Modell 9

11 Berechnung Î = arg max I = arg max I [ P (I O) ] [ P (O I)P (I) ] (8) Ausnutzung des Bayes schen Satzes, sowie der Tatsache, dass P (O) konstant ist und damit nichts zur Maximierung beiträgt Noisy-Channel-Modell 10

12 Bayes sche Klassifikation Beispiel: Klassifikation von Wortsequenzen W in Dialogakte D beobachteter Code O: Wortfolge W zugrundeliegender Code I: D-Sequenz [ ] ˆD = arg max P (W D)P (D) D (9) Berechnung von P (D) Gemäß Kettenregel (für eine Sequenz von k Dialogakten): P (D) = P (d 1,..., d k ) k = P (d 1 )P (d 2 d 1 ) P (d i d i m,..., d i 1 ) (10) i=3 Bayes sche Klassifikation 11

13 nicht berechenbar, da für lange Dialogaktvorgeschichten keine verlässlichen Häufigkeitswerte ermittelt werden können Lösung: Markov-Annahme. Beschränkung der Vorgeschichte auf die vorangehenden m Dialogakte P (d 1,..., d k ) = P (d 1 )P (d 2 d 1 ) k P (d i d i m,..., d i 1 ) (11) Bigramme (m=1, Markovkette 1. Ordnung), Trigramme (m=2), etc. Berechnung von n-gramm-wahrscheinlichkeiten (Beispiel: Bigramm) i=3 P (d i d i 1 ) = #(d i 1 d i ) x #(d i 1d x ) = #(d i 1d i ) #(d i 1 ) (12) Bayes sche Klassifikation 12

14 Berechnung von P (W D) Zerlegung in Wortsequenz-Segmente ws i, beispielsweise an Satzzeichen W= hallo, wie geht s? ws 1 = hallo, ws 2 = wie geht s Vereinfachende Annahme: Wahrscheinlichkeit jedes ws i hängt nur von Dialogakt d i ab: P (W D) = i P (ws i d i ) P (ws d) := P d (ws), d.h. für jeden Dialogakt d eigene Berechnung eines Wahrscheinlichkeitsmodells P d für Wortsequenzen nach dem Muster von Gleichung 11 P d (ws) = P d (w 1,..., w k ) k = P d (w 1 )P d (w 2 w 1 ) P d (w i w i m,..., w i 1 ) (13) i=3 Bayes sche Klassifikation 13

15 Implementierung Hidden-Markov-Modell (HMM) HMM = < Q, K, A, B > bestehend aus: Menge von Zuständen Q = {q i } Ausgabealphabet K Übergangswahrscheinlichkeiten A = {a ij}: von Zustand i zu Zustand j Emissionswahrscheinlichkeiten (observation likelihoods) B = {b jot }: im Zustand j für Beobachtung o t Bezogen auf die Dialogaktklassifikation: P (D): Übergangswahrscheinlichkeiten zwischen Dialogakten P (W D): Emissionswahrscheinlichkeiten für Wortsequenzen gegeben zugrundeliegende Dialogakte Implementierung 14

16 Viterbi-Algorithmus Ziel: Finde denjenigen Pfad durch das HMM, der der beobachteten Wortsequenz W am wahrscheinlichsten zugrundeliegt Hintergrund Dynamische Programmierung: Suche des optimalen Pfades durch eine Tabelle durch sukzessive Ermittlung der Tabellenwerte Tabelle hier: Trellis (ein Zustand-Zeitpunkt-Gitter: ein Knoten entspricht einem Zustand des Modells zu einem bestimmten Zeitpunkt) In jedem Knoten k j (t) der Trellis für Dialogakt j und Zeitpunkt t wird folgendes notiert: die Wahrscheinlichkeit δ j (t) des bis hierhin wahrscheinlichsten Pfads, der Vorgängerknoten auf diesem Pfad. Implementierung 15

17 Ermittlung der δ j (t) s: Initialisierung: δ j (1) = b jo1 Induktion: 2 δ j (t) = max i [ δi (t 1)a ij b jot ] 2 Induktion (informell): Fortführung eines für n gültigen Sachverhalts mit n + 1. Implementierung 16

18 Konkretes Vorgehen Training ermittle anhand eines Trainingskorpus ein N-Gramm-Modell für Dialogaktsequenzen: P (d d history) ermittle für jeden Dialogakt d ein separates N-Gramm-Modell für Wortfolgen: P d (w w history) trainiere ein HMM auf Grundlage dieser Wahrscheinlichkeiten (Baum-Welch-Algorithmus, vgl. Skript Statistische Sprachmodelle) HMM mit Übergangswahrscheinlichkeiten ( P (d d history)) und Emissionswahrscheinlichkeiten ( P d (w w history)) Konkretes Vorgehen 17

19 Anwendung Segmentiere eine Wortfolge (beispielsweise an Satzzeichen oder Turngrenzen) Berechne mittels des Viterbi-Verfahrens, den wahrscheinlichsten Pfad durch das HMM zur Erzeugung dieser segmentierten Wortfolge. Klassifikationsergebnis: die auf diesem Pfad zurückgelegte Dialogaktsequenz. Ohne Vorsegmentierung: Berechne für diverse Segmentierungen den wahrscheinlichsten Pfad durch das HMM und wähle dann den global wahrscheinlichsten aus. Konkretes Vorgehen 18

Ähnliche Dokumente

Statistische Sprachmodelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch