Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Transkript

1 Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23

2 Gliederung 1 Zusammenhang zwischen Graphenstruktur und Wahrscheinlichkeitsverteilung 2 Lösungsverfahren für BAYES-Netze 3 Lernverfahren für BAYES-Netze (Lehrstuhl KI) Bayes-Netze (2) 2 / 23

3 Konstruktion von Graphen für Kausalzusammenhänge Beispiel: Ist das Fussballfeld rutschig? Je nach Jahreszeit (Frühling, Sommer, Herbst, Winter) regnet es (ja, nein). Je nach Jahreszeit muss man mit dem Sprenger den Rasen bewässern ja, nein). Wird der Rasen bewässert, ist er nass (ja, nein). Regnet es, ist der Rasen nass. Ist er Rasen nass, ist das Fussballfeld rutschig (ja, nein). Abhängigkeitsgraph A Jahreszeit giessen B C Regen nass D E rutschig (Lehrstuhl KI) Bayes-Netze (2) 3 / 23

4 Formale Formulierung von Kausalzusammenhängen Die Suche nach Gründen für nassen Rasen liefert (ohne zusätzliches Wissen) keine eindeutige Information (vgl. Schließen per Abduktion). Repräsentiert man jeden Einflussfaktor als Zufallsvariable, lässt sich eine gemeinsame Verteilung finden. P (A, B, C, D, E) Aus dieser Verteilung lässt sich eine Wahrscheinlichkeit dafür ableiten, mit der nasser Rassen von den anderen Einflussfaktoren abhängt: P (A, B, C, D, E) = P (D A, B, C, E) P (A, B, C, E) Diese Aussage folgt aus dem Multiplikationssatz für bedingte Wahrscheinlichkeiten. (Lehrstuhl KI) Bayes-Netze (2) 4 / 23

5 Formale Formulierung von Kausalzusammenhängen In unserem Beispiel gibt es = 64 mögliche Ergebnisse für das Zufallsexperiment zu P (A, B, C, D, E). Bei mehr Variablen und größeren Wertemengen pro Variable ist es praktisch unmöglich, die Verteilung zu konstruieren. Aus dem im Graphen festgehaltenen Domänenwissen lassen sich Unabhängigkeitsannahmen folgern! Zunächst haben wir: P (A, B, C, D, E) = P (D A, B, C, E) P (A, B, C, E) = P (D A, B, C, E) P (E A, B, C) P (A, B, C) = P (D A, B, C, E) P (E A, B, C) P (C A, B) = P (A, B) = P (D A, B, C, E) P (E A, B, C) P (C A, B) P (B A) P (A) (Lehrstuhl KI) Bayes-Netze (2) 5 / 23

6 Formale Formulierung von Kausalzusammenhängen Keine Regel belegt einen Einfluss von B auf C. Also: P (C A, B) P (C A). Es gibt auch keine Kante im Graphen zwischen B und C. Für die gemeinsame Verteilung gilt dann: P (A, B, C, D, E) = P (D A, B, C, E) P (A, B, C, E) = P (D A, B, C, E) P (E A, B, C) P (C A) P (B A) P (A) Es gibt also einen Zusammenhang zwischen Pfaden und der Unabhängigkeit von Variablen. Markow-Kompatibilität einer Verteilung Wenn eine Wahrscheinlichkeitsverteilung P sich so faktorisieren lässt, wie es die Struktur eines Abhängigkeitsgraphen G vorgibt, ist P zu G Markow-kompatibel. (Lehrstuhl KI) Bayes-Netze (2) 6 / 23

7 Kausalzusammenhänge mit Zusatzwissen (bei beobachteten Ereignissen) Sei ausschließlich die Jahreszeit bekannt, wie stehen Regen und giessen zueinander? Unabhängig! (B C A) Die Jahreszeit blockiert also jede Argumentationskette von Regen zu Giessen, sie separiert die beiden Faktoren. Sei hingegen der Wert von nass bekannt, sind Regen und giessen noch unabhängig? Nein, da das Auftreten von nass Rückschlüsse über Regen und giessen zulässt. Intuitiv: Sind die Werte der Vorgänger einer Variable bekannt, so ist diese unabhängig von allen anderen Variablen im Netz, außer von ihren Nachfolgern. (Lehrstuhl KI) Bayes-Netze (2) 7 / 23

8 d-separation (1) Wie kann man einem BAYES-Netz ansehen, welche modellierten Zufallsvariablen voneinander (un)abhängig sind? d-separation eines Pfades über mehrere Kanten Ein Pfad p ist d-separiert von einer Knoten-Menge Z genau dann, wenn 1 p einen Teilpfad i m j oder eine Gabelung i m j enthält, wobei m Z, oder 2 p einen Treffpunkt i m j enthält, wobei m Z und auch für alle Nachfolger n von m gilt: n Z. (Lehrstuhl KI) Bayes-Netze (2) 8 / 23

9 d-separation (2) X2 X1 X4 X3 X 1 d-separiert X 2 und X 3 : Für X 2 X 1 X 3 gilt Fall 1,für X 2 X 4 X 3 Fall 2. für Bedeutung: Wenn man den Wert von X 1 kennt, sind X 2 und X 3 voneinander unabhängig. X 4 d-separiert X 3 und X 5. Bedeutung: Wenn man weiß, daß es das Gras naß ist, ist es auch rutschig, unabhängig davon, ob es gerade regnet. X5 {X 1, X 5 } d-separiert nicht X 2 und X 3 : X 5 ist Nachfolger des Treffpunkts X 4. Bedeutung: Je nach Wert von X 5 ändern sich P (X 2 ) und P (X 3 ). (Lehrstuhl KI) Bayes-Netze (2) 9 / 23

10 Bedingte Unabhängigkeit d-separierter Variablen Man kann zeigen: Sind die Knoten-Mengen X und Y durch die Knoten-Menge Z d-separiert, dann ist X unabhängig von Y unter der Bedingung Z. Im Beispiel: Weiteres Beispiel: P (X 2 X 3 X 1 ) = P (X 2 X 1 ) P (X 3 X 1 ) X 4 ist unabhängig von X 1, weil beide Variablen sowohl von X 2 als auch von X 3 d-separiert werden. (Lehrstuhl KI) Bayes-Netze (2) 10 / 23

11 Elementares Lösungsverfahren P (A) = [ a1 a ], P (B A) = A gemeinsame Verteilung von A und B: P (A B) = P (A) P (B A) = b 1 b 2 a a b 1 b 2 a a B Verteilung für B: P (B) = a 2 a=a 1 P (A = a B) = = a 2 a=a 1 b 1 b 2 a a [ b1 b ] (Lehrstuhl KI) Bayes-Netze (2) 11 / 23

12 Propagation von Werten entlang von Kanten A B B=b P (A B = b) = = P (A B = b) P (B = b) 1 P (B = b A) P (A) P (B = b) Damit läßt sich für jeden Wert a, den A annehmen kann, die a posteriori-wahrscheinlichkeit P (A = a B = b) berechnen. Die Faktoren ergeben sich, indem Information gegen die Pfeilrichtung gesammelt wird: 1 P (b = b) P (B = b A) P (A) Normalisierungsfaktor Kantenübergang a priori-wahrscheinlichkeit (Lehrstuhl KI) Bayes-Netze (2) 12 / 23

13 Transport von Werten über Knoten A B C C=c P (A C = c) = P (A B = b C = c) P (C = c) B=b 1 = P (A)P (b A)P (c A b) P (c) B=b 1 = P (c b)p (b A)P (A) P (c) B=b In der Summierung steckt eine Rekursion: 1 Berechne alle Wahrscheinlichkeiten P (C = C B = b) 2 Berechne alle Wahrscheinlichkeiten für die Vorgängerkante P (B = b A) Es wird über B = b summiert, um alle Möglichkeiten für P (A C = c) zu erfassen. (Lehrstuhl KI) Bayes-Netze (2) 13 / 23

14 Information aus zwei Richtungen A B C A=a C=c P (B A = a C = c) = = = Die Propagation von Werten findet: P (A = a B C = C) P (A = a C = c) P (c B a)p (B a) P (a)p (c) 1 P r(c B) P (B a) P (c) 1 gegen die Kantenrichtung: P (C = c B) und 2 in die Kantenrichtung: P (B A = a) statt. Dank der BAYES-Regel kann die Information lokal berechnet werden: P (B A = a) = P (B) P (A = a B) P (A = a) (Lehrstuhl KI) Bayes-Netze (2) 14 / 23

15 Einfach verbundene Netze (1) einfach verbunden: höchstens ein Pfad zwischen zwei beliebigen Knoten 1 α P (X i P ( i a i P ( i (u 1,..., u n ) a i Y j = y j P (a i ) i i (u 1,..., u n ) Y j = y j i u i a i U i Y j b j ) = i j i u i X j y j j b j) j y j j b j) =: α = P (u i a i )P (X i P (y l X) l l j u i ) P (b l y l ) (Lehrstuhl KI) Bayes-Netze (2) 15 / 23

16 Einfach verbundene Netze (2) Also: P (X a i U i Y j b j ) = i i j j 1 P (a i ) P (X u i ) P (u i a i ) α i (u 1,...,u n) i i P (y j X)P (b j y j ) Propagation von X nach Y k : 1 α P (a i ) i (y 1,...,y m) P (Y k i P (X (u 1,...,u n) i j a i U i X b k ) = i u i ) i P (u i a i ) y k P (y k X)P (b k y k ) (Lehrstuhl KI) Bayes-Netze (2) 16 / 23

17 Einfach verbundene Netze (3) Propagation von X nach U k : 1 α P (a i ) X=x Der Wert enthält i P (U k i k (u 1,..., u n ) k auslassen a i i k U i X j P (x i (y 1,...,y m) u i ) i Y j b j ) = j P (u i a i ) P (y j x)p (b j y j ) die a posteriori-wahrscheinlichkeiten der Kinder von X und die a-posteriori-wahrscheinlichkeiten aller Vorgänger von X außer U k j (Lehrstuhl KI) Bayes-Netze (2) 17 / 23

18 Zusammenfassung Die Propagation von Werten in einem BAYES-Netz erfolgt in drei Schritten: 1 Aktualisierung in Knoten X: Berechne die Wahrscheinlichkeit P (X...) 2 Propagation gegen die Pfeilrichtung an alle Vorgängerknoten 3 Propagation in die Pfeilrichtung an alle Nachfolgerknoten Sonderfälle: 1 X hat keine Vorgänger: benutze als Vorgängerwahrscheinlichkeit den a-priori-wert P (X). 2 X hat keine Nachfolger: benutze als Nachfolgerwahrscheinlichkeit den konstanten Wert 1. (Lehrstuhl KI) Bayes-Netze (2) 18 / 23

19 Andere Lösungsverfahren Das Rechnen in BAYES-Netzen ist sehr aufwändig, da die Tabellen für die bedingten Wahrscheinlichkeiten exponentiell mit den Variablen wachsen. Es gibt aberapproximationsmethoden: Clustering Manche Knoten werden nach geeigneten Kriterien zu Megaknoten zusammengefaßt. Danach wird gerechnet wie in einem einfach verknüpften Netz. Stochastische Simulation Es wird zufällig eine große Zahl von Instantiierungen der Zufallsvariablen im Netz erzeugt, die mit der Wahrscheinlichkeitsverteilung des Netzes konsistent sind. Damit wird die gesuchte Lösung approximiert. (Lehrstuhl KI) Bayes-Netze (2) 19 / 23

20 Überblick BAYES-Netze stellen zwei Herausforderungen an die Modellierung: Welche Struktur hat ein Netz? Welche Werte haben die bedingten Verteilungen? Topologie und Wahrscheinlichkeitsverteilungen können aus Beispieldaten bestimmt werden. Dementsprechend gibt es vier Typen von Lernproblemen: Struktur bekannt bekannt unbekannt unbekannt Beispiele für alle Parameter einige Parameter alle Parameter einige Parameter (Lehrstuhl KI) Bayes-Netze (2) 20 / 23

21 Lernen der Struktur Zielsetzung: Lernen eines gerichteten, azyklischen Graphen G, der die gegebene Stichprobe D am besten erklärt, d.h. maximiere: P (G D) = P (D G)P (G) P (D) Der Suchraum ist also die Menge aller gerichten, azyklischen Graphen mit N Knoten (bei N Variablen in D). Dieses Problem ist NP -hart. Drei Ansätze: top-down, bottom-up und middle-out Wie vermeidet man, alle denkbaren Strukturen vergleichen zu müssen? Z.B. Monte-Carlo-Simuation. Alternative: Anwendung des expection maximization-algorithmus: berechne Erwartungswerte für bedingte Wahrscheinlichkeiten. (Lehrstuhl KI) Bayes-Netze (2) 21 / 23

22 Lernen von Wahrscheinlichkeiten (1) Die Topologie ist gegeben, es müssen aber die bedingten Wahrscheinlichkeiten gelernt werden. Falls Daten für alle bedingten Wahrscheinlichkeiten bekannt sind, schätze P (X = x i Y i = y i,k ) N(X = x i Y i = y i,k ) N( i Y i = y i,k ) durch Auszählen. Der Nenner berechnet sich dabei als: N( i Y i = y i,k ) = X=x N(X = x i Y i = y i,k ) Man braucht also viele Datensätze der Form: X Y 1... Y n N( i Y i = y i,k ) x y 1,1... y n,1 45 (Lehrstuhl KI) Bayes-Netze (2) 22 / 23

23 Lernen von Wahrscheinlichkeiten (2) Falls nicht für alle Variablen Werte in den Daten vorliegen, findet die Schätzung über Erwartungswerte statt: P (X = x i Y i = y i,k ) E(N(X = x i Y i = y i,k )) E(N( i Y i = y i,k )) Dabei ist für die Stichprobe D: E(N(x)) = E( k D(x = k)) Im Iterationsschritt werden die Parameter anhand der berechneten Schätzung maximiert, dann wird wieder neu geschätzt usw., bis ein Abbruchkriterium erfüllt ist. (Lehrstuhl KI) Bayes-Netze (2) 23 / 23