Darstellung, Verarbeitung und Erwerb von Wissen

Transkript

1 Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 267

2 Kapitel 4 4. Wahrscheinlichkeiten & Co Gerichtete Netzwerke Bayes-Netze G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 47 / 267

3 Separatoren und Residuen Proposition 4 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V. Sei {C i 1 i p} eine Menge von Teilmengen von V mit Separatoren S i = C i (C 1... C i 1 ). Für 1 i p seien die Residuen R i wie folgt definiert: Dann gilt für 1 i p: R i = C i S i P (C i S i ) = P (R i S i ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 267

4 Beispiel Blue Babies Diagnose von Herzkrankheiten bei Neugeborenen (verursachen Sauerstoffmangel im Blut) [Lauritzen et al., 1993] 20 (mehrwertige) Variablen, darunter Laborwerte (z.b. CO2-Werte) Röntgenbefund und andere Befunde Diagnose (6 mögliche Krankheiten) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 267

5 Beispiel Blue Babies Diagnose von Herzkrankheiten bei Neugeborenen (verursachen Sauerstoffmangel im Blut) [Lauritzen et al., 1993] 20 (mehrwertige) Variablen, darunter Laborwerte (z.b. CO2-Werte) Röntgenbefund und andere Befunde Diagnose (6 mögliche Krankheiten) 114 lokale Verteilungen mit insgesamt 230 bedingten Wahrscheinlichkeiten G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 267

6 LVH LVH report Beispiel Blue Babies Birth asphyxia Disease Age 3 Duct Cardiac Lung Lung Sick flow mixing parenchyma flow 3 Hypoxia Hypoxia Chest CO distribution in O 2 Grunting 2 X-ray Lower CO RUQ O 2 X-ray Grunting body O 2 2 report report report G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 94 / 267

7 Forward-Backward-Algorithmus... auch genannt Lauritzen-Spiegelhalter-Algorithmus nach S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2): , G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267

8 Forward-Backward-Algorithmus... auch genannt Lauritzen-Spiegelhalter-Algorithmus nach Ziel: S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2): , Berechnung der Randverteilungen auf den einzelnen Cliquen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267

9 Forward-Backward-Algorithmus... auch genannt Lauritzen-Spiegelhalter-Algorithmus nach Ziel: S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2): , Berechnung der Randverteilungen auf den einzelnen Cliquen; insbesondere: Berechnung der Wahrscheinlichkeit der einzelnen Aussagenvariablen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267

10 Wissenspropagation in Bayesschen Netzen Ausgangspunkt des LS-Algorithmus: Sei (C 1,..., C q ; ψ) der Cliquenbaum mit Potentialdarstellung, der aus einem Bayesschen Netz gewonnen wurde. Die Separatoren S i := C i (C 1... C i 1 ) C j(i) sind als Label an den Kanten des Cliquenbaumes notiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 96 / 267

11 Ein technischer Satz 1/2 Proposition 5 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C 1,..., C p ; ψ}. Die Ordnung (C 1, C 2,..., C p ) besitze die RIP, und R i bzw. S i seien die Residuen bzw. Separatoren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 267

12 Ein technischer Satz 1/2 Proposition 5 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C 1,..., C p ; ψ}. Die Ordnung (C 1, C 2,..., C p ) besitze die RIP, und R i bzw. S i seien die Residuen bzw. Separatoren. 1 Dann gilt P (R p S p ) = ψ(c p) R p ψ(c p ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 267

13 Ein technischer Satz 2/2 Proposition 5 (Forts.) 2 Nach Voraussetzung RIP gibt es ein j < p mit S p = C p (C 1 C 2... C p 1 ) C j { Sei ψ (1) ψ(ci ) wenn 1 i p 1 und i j (C i ) = ψ(c j ) R p ψ(c p ) wenn i = j Dann ist {C 1,..., C p 1 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2... C p 1. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 98 / 267

14 Ein technischer Satz 2/2 Proposition 5 (Forts.) 2 Nach Voraussetzung RIP gibt es ein j < p mit S p = C p (C 1 C 2... C p 1 ) C j { Sei ψ (1) ψ(ci ) wenn 1 i p 1 und i j (C i ) = ψ(c j ) R p ψ(c p ) wenn i = j Dann ist {C 1,..., C p 1 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2... C p 1. Damit wurde die Information der letzten Clique von ihrer Elternclique absorbiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 98 / 267

15 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

16 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (C i ) und damit (leicht) die Wahrscheinlichkeiten P (A j ) der Variablen A j berechnen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

17 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (C i ) und damit (leicht) die Wahrscheinlichkeiten P (A j ) der Variablen A j berechnen kann. Wegen S i C i gilt P (C i ) = P (C i S i )P (S i ) = P (R i S i )P (S i ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

18 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (C i ) und damit (leicht) die Wahrscheinlichkeiten P (A j ) der Variablen A j berechnen kann. Wegen S i C i gilt P (C i ) = P (C i S i )P (S i ) = P (R i S i )P (S i ) Aufgabe: Bestimmung der Wahrscheinlichkeiten P (R i S i ) und P (S i ) für jedes i {1,..., p}. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

19 Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (R i S i ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (R p S p ) = ψ(c p) R p ψ(c p ) in der letzten Clique C p ; setze ψ neu (C p ) := P (R p S p ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

20 Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (R i S i ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (R p S p ) = ψ(c p) R p ψ(c p ) in der letzten Clique C p ; setze ψ neu (C p ) := P (R p S p ). 2 Berechne Potentialdarstellung ψ (1) auf der verkleinerten Variablenmenge C 1... C p 1 durch Modifikation von ψ gemäß Proposition 5 (2). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

21 Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (R i S i ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (R p S p ) = ψ(c p) R p ψ(c p ) in der letzten Clique C p ; setze ψ neu (C p ) := P (R p S p ). 2 Berechne Potentialdarstellung ψ (1) auf der verkleinerten Variablenmenge C 1... C p 1 durch Modifikation von ψ gemäß Proposition 5 (2). 3 Wiederhole Schritte 1. und 2., bis alle bedingten Wahrscheinlichkeiten berechnet sind. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

22 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

23 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). Die Wahrscheinlichkeiten P (C 1 ),..., P (C i 1 ) seien schon berechnet; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

24 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). Die Wahrscheinlichkeiten P (C 1 ),..., P (C i 1 ) seien schon berechnet; es ist P (C i ) = P (R i S i )P (S i ) = ψ neu (C i )P (S i ) und es gibt j < i mit S i C j G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

25 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). Die Wahrscheinlichkeiten P (C 1 ),..., P (C i 1 ) seien schon berechnet; es ist P (C i ) = P (R i S i )P (S i ) = ψ neu (C i )P (S i ) und es gibt j < i mit S i C j P (S i ) kann also aus P (C j ) durch Aufsummieren berechnet werden: P (S i ) = P (C j ) C j S i G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

26 Modifizierte Potentialdarstellung Proposition 6 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C 1,..., C p ; ψ}. Wir nehmen weiterhin an, dass die Ordnung (C 1,..., C p ) der fortlaufenden Schnitteigenschaft RIP genügt. Dann gilt P (V) = P (C 1 ) p P (R i S i ) wobei die Mengen R i bzw. S i die zugehörigen Residuen bzw. Separatoren sind. i=2 D.h. {C 1,..., C p ; ψ neu } mit ψ neu (C i ) = P (R i S i ) ist eine Potentialdarstellung von P. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

27 Beispiel Sturmschäden A B C D E Sturm in DB-Land Oberleitungsschäden Umgestürzte Bäume auf Gleisen Verspätungen Gleisschäden A B C D E G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

28 Beispiel Sturmschäden A B C D E Sturm in DB-Land Oberleitungsschäden Umgestürzte Bäume auf Gleisen Verspätungen Gleisschäden A B C D E P (A, B, C, D, E) = P (A)P (B A)P (C A)P (D BC)P (E C) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

29 Beispiel (Forts.) Durch die folgenden (bedingten) Wahrscheinlichkeiten wird P vollständig festgelegt: P (a) = 0.20 P (b a) = 0.80 P (b ā) = 0.20 P (c a) = 0.20 P (c ā) = 0.05 P (d bc) = 0.80 P (d b c) = 0.90 P (d bc) = 0.70 P (d b c) = 0.05 P (e c) = 0.80 P (e c) = 0.60 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

30 Beispiel (Forts.) clq : clq(a) = clq(b) = clq(c) = C 1 clq(d) = C 2 clq(e) = C 3 ψ : ψ(a, B, C) = P (A)P (B A)P (C A) ψ(b, C, D) = P (D B, C) ψ(c, E) = P (E C) Wir erhalten die Potentialdarstellung P (A, B, C, D, E) = ψ(a, B, C)ψ(B, C, D)ψ(C, E) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

31 Beispiel die vollständige Potentialdarstellung 1/2 i C i R i S i Konjunktion ψ(c i ) 1 {A, B, C} {A, B, C} abc ab c a bc a b c ābc āb c ā bc ā b c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

32 Beispiel die vollständige Potentialdarstellung 2/2 i C i R i S i Konjunktion ψ(c i ) 2 {B, C, D} {D} {B, C} bcd 0.8 bc d 0.2 b cd 0.9 b c d 0.1 bcd 0.7 bc d 0.3 b cd 0.05 b c d {C, E} {E} {C} ce 0.8 cē 0.2 ce 0.6 cē 0.4 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

33 Beispiel (Forts.) C 1 = {A, B, C} S 1 = R 1 = {A, B, C} C 2 = {B, C, D} S 2 = {B, C} R 2 = {D} C 3 = {C, E} S 3 = {C} R 3 = {E} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

34 Beispiel (Forts.) C 1 = {A, B, C} S 1 = R 1 = {A, B, C} C 2 = {B, C, D} S 2 = {B, C} R 2 = {D} C 3 = {C, E} S 3 = {C} R 3 = {E} Schritt 1: Berechnung von P (R 3 S 3 ) P (R 3 S 3 ) = ψ(c 3 ) R 3 ψ(c 3 ) = ψ(c, E) E ψ(c, E) = P (E C) E P (E C) = P (E C) = ψ neu (C 3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

35 Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S 3 C 2 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

36 Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S 3 C 2 Es ist {C 1, C 2 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2, wobei { ψ (1) ψ(c1 ) wenn i = 1 (C i ) = ψ(c 2 ) R 3 ψ(c 3 ) wenn i = 2 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

37 Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S 3 C 2 Es ist {C 1, C 2 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2, wobei { ψ (1) ψ(c1 ) wenn i = 1 (C i ) = ψ(c 2 ) R 3 ψ(c 3 ) wenn i = 2 also ψ (1) (C 1 ) = P (A)P (B A)P (C A) und ψ (1) (C 2 ) = ψ(c 2 ) ψ(c 3 ) R 3 = ψ(b, C, D) ψ(c, E) E = P (D B, C) P (E C) = P (D B, C) E G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

38 Beispiel (Forts.) Schritt 3: Berechnung von P (R 2 S 2 ) P (R 2 S 2 ) = ψ (1) (C 2 ) R 2 ψ (1) (C 2 ) = ψ(b, C, D) =: ψ neu (C 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

39 Beispiel (Forts.) Schritt 3: Berechnung von P (R 2 S 2 ) P (R 2 S 2 ) = ψ (1) (C 2 ) R 2 ψ (1) (C 2 ) = ψ(b, C, D) =: ψ neu (C 2 ) Schritt 4: Verkürzung der Potentialdarstellung und Berechnung der ersten Cliquenwahrscheinlichkeit: Schließlich ist {C 1, ψ (2) } mit ψ (2) (C 1 ) = ψ(c 1 ) eine Potentialdarstellung der Randverteilung auf C 1, und es ist ψ (2) (C 1 ) = P (C 1 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

40 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

41 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 P (b c) = = 0.28 P ( bc) = 0.04 P ( b c) = 0.64 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

42 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 P (b c) = = 0.28 P ( bc) = 0.04 P ( b c) = 0.64 Nun erhalten wir P (C 2 ) aus P (C 2 ) = ψ(c 2 )P (S 2 ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

43 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 P (b c) = = 0.28 P ( bc) = 0.04 P ( b c) = 0.64 Nun erhalten wir P (C 2 ) aus P (C 2 ) = ψ(c 2 )P (S 2 ). Schritt 6: Berechnung der dritten Cliquenwahrscheinlichkeit: Analog gehen wir bei der Berechnung von P (C 3 ) = ψ(c 3 )P (S 3 ) vor. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

44 Beispiel modifizierte Potentialdarstellung 1/2 i C i Konjunktion ψ neu (C i ) P (C i ) 1 {A, B, C} abc ab c a bc a b c ābc āb c ā bc ā b c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

45 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

46 Beispiel modifizierte Potentialdarstellung 2/2 i C i Konjunktion ψ neu (C i ) P (C i ) 2 {B, C, D} bcd bc d b cd b c d bcd bc d b cd b c d {C, E} ce cē ce cē G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

48 Berücksichtigung fallspezifischer Daten 1/2 Instantiierung von Knoten in Bayesschen Netzen: Sei V Menge von Aussagenvariablen, sei U V. U enthalte zu jeder Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der Variablen. Dann heißt U eine Instantiierung von U: U := U G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

49 Berücksichtigung fallspezifischer Daten 1/2 Instantiierung von Knoten in Bayesschen Netzen: Sei V Menge von Aussagenvariablen, sei U V. U enthalte zu jeder Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der Variablen. Dann heißt U eine Instantiierung von U: U := U Beispiel: Sei V = {A, B, C, D} und U = {B, D} mit der Instantiierung U = {b, d}. {B, D} = {b, d} ist dann eine abkürzende Schreibweise für B = b, D = d. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

50 Berücksichtigung fallspezifischer Daten 2/2 Proposition 7 Sei V Menge von Aussagenvariablen, sei P gemeinsame Verteilung über V mit Potentialdarstellung {W 1,..., W p ; ψ}. Sei U eine Instantiierung von U V. ψ U:=U (W i ) ist das Ergebnis der Auswertung von ψ auf W i, wobei die Variablen in W i U mit ihren Werten aus U instantiiert sind. Dann ist {W 1 U,..., W p U; ψ U:=U } eine Potentialdarstellung der auf V = V U definierten Verteilung ˆP (V ) = P (V U ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

51 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

52 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U = {d} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

53 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U = {d} Wir wollen eine Potentialdarstellung der bedingten Verteilung bestimmen: ˆP (A, B, C, E) := P (A, B, C, E d) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

54 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U = {d} Wir wollen eine Potentialdarstellung der bedingten Verteilung bestimmen: ˆP (A, B, C, E) := P (A, B, C, E d) Cliquen: Ĉ 1 = C 1 {D} = {A, B, C}(= C 1 ) Ĉ 2 = C 2 {D} = {B, C} Ĉ 3 = C 3 {D} = {C, E}(= C 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

55 Instantiierung Beispiel (Forts.) Potentialfunktionen: ˆψ = ψ D:=d : ˆψ( Ĉ 1 ) = ψ(c 1 ) ˆψ(Ĉ2) = ˆψ(B, C) = ψ(b, C, d) ˆψ(Ĉ3) = ψ(c 3 ) also z.b. ˆψ(bc) = ψ(bcd). Separatoren und Residuen: Ŝ 1 = S 1 {D} = ˆR1 = R 1 {D} = {A, B, C} Ŝ 2 = S 2 {D} = {B, C} ˆR2 = R 2 {D} = Ŝ 3 = S 3 {D} = {C} ˆR3 = R 3 {D} = {E} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

56 Instantiierung Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten ˆP ( ˆR i Ŝi) wieder durch Anwendung der passenden Propositionen: G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

57 Instantiierung Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten ˆP ( ˆR i Ŝi) wieder durch Anwendung der passenden Propositionen: ˆP ( ˆR 3 Ŝ3) = ˆψ(Ĉ3) ˆR 3 ˆψ( Ĉ 3 ) ψ(c 3 ) = R 3 ψ(c 3 ) = P (R 3 S 3 ) = ψ(c 3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

58 Instantiierung Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten ˆP ( ˆR i Ŝi) wieder durch Anwendung der passenden Propositionen: ˆP ( ˆR 3 Ŝ3) = ˆψ(Ĉ3) ˆR 3 ˆψ( Ĉ 3 ) ψ(c 3 ) = R 3 ψ(c 3 ) = P (R 3 S 3 ) = ψ(c 3 ) und daher ˆψ neu (Ĉ3) = ˆP ( ˆR 3 Ŝ3) = ψ(c 3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

59 Instantiierung Beispiel (Forts.) Dann ist {Ĉ1, Ĉ2; ˆψ (1) } mit ˆψ (1) (Ĉ1) = ˆψ(Ĉ1), ˆψ (1) (Ĉ2) = ˆψ(Ĉ2) ˆR3 ˆψ(Ĉ3) = ˆψ(Ĉ2) eine Potentialdarstellung von ˆP auf Ĉ1 Ĉ2 = {A, B, C}. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

60 Instantiierung Beispiel (Forts.) Dann ist {Ĉ1, Ĉ2; ˆψ (1) } mit ˆψ (1) (Ĉ1) = ˆψ(Ĉ1), ˆψ (1) (Ĉ2) = ˆψ(Ĉ2) ˆR3 ˆψ(Ĉ3) = ˆψ(Ĉ2) eine Potentialdarstellung von ˆP auf Ĉ1 Ĉ2 = {A, B, C}. Daher ist ˆP ( ˆR 2 Ŝ2) = ˆψ (1) (Ĉ2) ˆR 2 ˆψ(1) (Ĉ2) = 1 wegen ˆR 2 = ; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

61 Instantiierung Beispiel (Forts.) Dann ist {Ĉ1, Ĉ2; ˆψ (1) } mit ˆψ (1) (Ĉ1) = ˆψ(Ĉ1), ˆψ (1) (Ĉ2) = ˆψ(Ĉ2) ˆR3 ˆψ(Ĉ3) = ˆψ(Ĉ2) eine Potentialdarstellung von ˆP auf Ĉ1 Ĉ2 = {A, B, C}. Daher ist ˆP ( ˆR 2 Ŝ2) = ˆψ (1) (Ĉ2) ˆR 2 ˆψ(1) (Ĉ2) = 1 wegen ˆR 2 = ; setze also ˆψ neu (Ĉ2) = 1. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

62 Instantiierung Beispiel (Forts.) Wir erhalten eine Potentialdarstellung von ˆP auf Ĉ1 = {A, B, C} mittels {Ĉ1; ˆψ (2) } mit ˆψ (2) (Ĉ1) = ˆψ (1) (Ĉ1) ˆR2 ˆψ (1) (Ĉ2) = ˆψ (1) (Ĉ1) ˆψ (1) (Ĉ2), G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

63 Instantiierung Beispiel (Forts.) Wir erhalten eine Potentialdarstellung von ˆP auf Ĉ1 = {A, B, C} mittels {Ĉ1; ˆψ (2) } mit ˆψ (2) (Ĉ1) = ˆψ (1) (Ĉ1) ˆR2 ˆψ (1) (Ĉ2) = ˆψ (1) (Ĉ1) ˆψ (1) (Ĉ2), also z.b. ˆψ (2) (abc) = ˆψ (1) (abc) ˆψ (1) (bc) = = G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

64 Instantiierung Beispiel (Forts.) Zunächst muss ˆP (Ĉ1) aus ˆψ (2) berechnet werden. Mit Proposition 5 ist ˆP (Ĉ1) = ˆP ( ˆR 1 Ŝ1) = ˆR 1 ˆψ (2) (Ĉ1) ˆψ(2) (Ĉ1) Durch Aufsummieren ergibt sich also z.b. ˆR 1 ˆψ(2) (Ĉ1) = ˆP (abc) = ˆψ (2) (abc) = G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

65 Instantiierung Beispiel (Forts.) Für Ĉ2 ist ˆP (Ĉ2) = ˆψ neu (Ĉ2) ˆP (Ŝ2) bzw. ˆP (B, C) = ˆψneu (B, C) ˆP (B, C) und ˆP (B, C) kann aus ˆP (Ĉ1) berechnet werden. Es ist z.b. ˆP (bc) = = Schließlich ist ˆP (Ĉ3) = ˆψ neu (Ĉ3) ˆP (Ŝ3) also z.b. ˆP (ce) = ˆψ neu (ce) ˆP (c) = 0.8 ( ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

66 Instantiierung Beispiel (Forts.) i Ĉ i Konjunktion ˆψneu (Ĉi) ˆP ( Ĉ i ) 1 {A, B, C} abc ab c a bc a b c ābc āb c ā bc ā b c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

68 Instantiierung Beispiel (Forts.) i Ĉ i Konjunktion ˆψneu (Ĉi) ˆP ( Ĉ i ) 2 {B, C} bc b c bc b c {C, E} ce cē ce cē G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

70 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

71 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

72 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

73 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. CHILD hilft bei der Diagnose angeborener Herzfehler G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

74 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. CHILD hilft bei der Diagnose angeborener Herzfehler MUNIN wird zur Diagnose neuromuskulärer Erkrankungen eingesetzt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

75 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

76 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

77 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. FRAIL interpretiert literarische Prosa. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

78 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. FRAIL interpretiert literarische Prosa. Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen Colorado. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

79 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. FRAIL interpretiert literarische Prosa. Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen Colorado. Im e-commerce können Bayessche Netze zur Erstellung individueller Kundenprofile im Online-Betrieb benutzt werden. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

80 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

81 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

82 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; sehr effiziente Propagationsalgorithmen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

83 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; sehr effiziente Propagationsalgorithmen. Nachteile: bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden (großer statistischer Aufwand!); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

84 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; sehr effiziente Propagationsalgorithmen. Nachteile: bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden (großer statistischer Aufwand!); immer noch sind sehr viele Wahrscheinlichkeiten zu spezifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

85 Übersicht Kapitel 4 Wahrscheinlichk. und prob. Netzwerke Informationstheorie 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke Grundlagen Ungerichtete Netzwerke Markov-Graphen Gerichtete Netzwerke Bayes-Netze Probabilistik und Informationstheorie 4.2 Dempster-Shafer/Evidenz-Theorie 4.3 Fuzzy-Logik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

86 Kapitel 4 Wahrscheinlichk. und prob. Netzwerke Informationstheorie 4. Wahrscheinlichkeiten & Co Probabilistik und Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

87 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

88 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

89 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information Informationsfluss zwischen Variablen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

90 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information Informationsfluss zwischen Variablen Das MaxEnt-Prinzip (ME-Prinzip) und Implementation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

91 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information Informationsfluss zwischen Variablen Das MaxEnt-Prinzip (ME-Prinzip) und Implementation Probabilistische ME-Inferenz G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

92 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

93 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

94 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden Informationstheoretische Methodik: Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen, vervollständigt Wissen selbständig in informationstheoretisch-optimaler Weise G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

95 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden Informationstheoretische Methodik: Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen, vervollständigt Wissen selbständig in informationstheoretisch-optimaler Weise Nachteile: weniger effizient, schwächere Semantik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

96 Beispiel 1/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

97 Beispiel 1/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? P (k g) = P (k gs) = 1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

98 Beispiel 1/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? P (k g) = P (k gs) = 1 aber (i.allg.) P (k g) < P (k gs) also sind Kranksein und Kopfschmerzen haben nicht etwa bedingt unabhängig, wenn Grippe gegeben ist, d.h. es gilt nicht K = P S G G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

99 Beispiel 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ kṡ) = P (ġ)p ( k ġ)p (ṡ ġ k) ohne dass eine Reduktion der Komplexität erfolgt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

100 Beispiel 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ kṡ) = P (ġ)p ( k ġ)p (ṡ ġ k) ohne dass eine Reduktion der Komplexität erfolgt. Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer leicht schätzen P (s g) = 0.9 im Grippebeispiel realistisch, G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

101 Beispiel 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ kṡ) = P (ġ)p ( k ġ)p (ṡ ġ k) ohne dass eine Reduktion der Komplexität erfolgt. Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer leicht schätzen P (s g) = 0.9 im Grippebeispiel realistisch, aber wie soll man P (s g) schätzen? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

102 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

103 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

104 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens selbständig ein probabilistisches Netz zu Inferenz- und Propagationszwecken aufbaut. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

105 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens selbständig ein probabilistisches Netz zu Inferenz- und Propagationszwecken aufbaut. Grundlegende Idee: Fehlende Information wird informationstheoretisch optimal aufgefüllt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

106 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 1/2 Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit denen der Experte wichtige Zusammenhänge des zu behandelnden Problembereichs beschreibt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

107 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 1/2 Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit denen der Experte wichtige Zusammenhänge des zu behandelnden Problembereichs beschreibt. Eine probabilistische Regel hat die Form (B A)[x], A, B aussagenlogische Formeln, x [0, 1] mit der Bedeutung Wenn A wahr ist, dann ist auch B wahr mit Wahrscheinlichkeit x oder Ein A ist zu x 100 % ein B. (s. Folie über Probabilistische Logik) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

108 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 2/2 Eine Verteilung P erfüllt eine probabilistische Regel (B A)[x], P = (B A)[x] gdw. P (A) > 0 und P (B A) = x d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle probabilistischer Regeln. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

109 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 2/2 Eine Verteilung P erfüllt eine probabilistische Regel (B A)[x], P = (B A)[x] gdw. P (A) > 0 und P (B A) = x d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle probabilistischer Regeln. Die Wissensbasis hat also die Form einer Regelmenge R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

110 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

111 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C A)[x], (C B)[y]}, wenn P (C A) = x, P (C B) = y; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

112 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C A)[x], (C B)[y]}, wenn P (C A) = x, P (C B) = y; P kann so gewählt werden, dass (insbesondere) P (C A B) = z (für beliebiges z [0, 1]) ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

113 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C A)[x], (C B)[y]}, wenn P (C A) = x, P (C B) = y; P kann so gewählt werden, dass (insbesondere) P (C A B) = z (für beliebiges z [0, 1]) ist. Es gibt also unendlich viele Modelle von R! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

114 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

115 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! Gibt es besonders gute Modelle? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

116 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! Gibt es besonders gute Modelle? Philosophie: Nimm diejenige Verteilung P, die nur das Wissen in R und seine probabilistischen Konsequenzen darstellt und sonst keine Information hinzufügt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

117 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! Gibt es besonders gute Modelle? Philosophie: Nimm diejenige Verteilung P, die nur das Wissen in R und seine probabilistischen Konsequenzen darstellt und sonst keine Information hinzufügt. Minimiere zusätzliche Information in P Maximiere Unbestimmtheit in P G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

118 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Literatur Informationstheorie C.E. Shannon and W. Weaver. Mathematische Grundlagen der Informationstheorie. Oldenbourg, München, Wien, G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

119 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Literatur Informationstheorie C.E. Shannon and W. Weaver. Mathematische Grundlagen der Informationstheorie. Oldenbourg, München, Wien, Lehrbücher über Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

120 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

121 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

122 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

123 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; Normierung: Inf (0.5) = 1; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

124 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; Normierung: Inf (0.5) = 1; Sind N 1 und N 2 zwei unabhängige Nachrichten, so gilt Inf (P (N 1 N 2 )) = Inf (P (N 1 )) + Inf (P (N 2 )), G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

125 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; Normierung: Inf (0.5) = 1; Sind N 1 und N 2 zwei unabhängige Nachrichten, so gilt Inf (P (N 1 N 2 )) = Inf (P (N 1 )) + Inf (P (N 2 )), d.h. Inf (x 1 x 2 ) = Inf (x 1 ) + Inf (x 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

126 Information 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = log 2 x (log 2 x = log b x log b 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

127 Information 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = log 2 x (log 2 x = log b x log b 2 ) Insbesondere gilt Inf (0) =, Inf (1) = 0 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

128 Information 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = log 2 x Insbesondere gilt Inf (0) =, Inf (1) = 0 (log 2 x = log b x log b 2 ) Der in bit gemessene Informationsgehalt einer Nachricht gibt die (durchschnittliche) Anzahl der Ja/Nein-Antworten an, die bei einer optimalen Fragestrategie (im Grenzwert) nötig sind, um diese Nachricht zu isolieren. 1 bit entspricht dabei dem Informationsgehalt einer Ja/Nein-Antwort. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

129 Information Beispiel Wahrscheinlichk. und prob. Netzwerke Informationstheorie In einer Urne befinden sich insgesamt 8 Kugeln: 4 weiße Kugeln 2 rote Kugeln 1 blaue Kugel 1 grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

130 Information Beispiel Wahrscheinlichk. und prob. Netzwerke Informationstheorie In einer Urne befinden sich insgesamt 8 Kugeln: 4 weiße Kugeln 2 rote Kugeln 1 blaue Kugel 1 grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem Ausgang eines Zuges verbundene Information lässt sich berechnen als Information(weiss) = Inf ( 1 2 ) = 1 bit G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

131 Information Beispiel Wahrscheinlichk. und prob. Netzwerke Informationstheorie In einer Urne befinden sich insgesamt 8 Kugeln: 4 weiße Kugeln 2 rote Kugeln 1 blaue Kugel 1 grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem Ausgang eines Zuges verbundene Information lässt sich berechnen als Information(weiss) = Inf ( 1 2 ) = 1 bit Information(rot) Information(blau) Information(grün) = Inf ( 1 4 ) = 2 bit = Inf ( 1 8 ) = 3 bit = Inf ( 1 8 ) = 3 bit G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

132 Entropie Wahrscheinlichk. und prob. Netzwerke Informationstheorie Mittlerer Informationsgehalt einer Verteilung P : H(P ) = ω Ω P (ω) log P (ω) Entropie einer Verteilung P (misst den Grad der mittleren Unbestimmtheit von P ) Der Begriff Entropie stammt aus der Thermodynamik, wurde von Shannon später als fundamentales Maß für die Unordnung (= fehlende Struktur) in einem System gedeutet und damit als Maß für die Informativität (= Strukturiertheit) erkannt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

133 Notizen Wahrscheinlichk. und prob. Netzwerke Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

134 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n Ω = n; dann gilt: H(P 0 ) = log 2 n; für ω Ω, wobei G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

135 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) für ω Ω, wobei G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

136 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n für ω Ω, wobei G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

137 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n für ω Ω, wobei Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n = ( n) 1 ( log n) n G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

138 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n für ω Ω, wobei Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n = ( n) 1 ( log n) n = log n ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

139 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n für ω Ω, wobei Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n = ( n) 1 ( log n) n = log n ) Für jede beliebige Wahrscheinlichkeitsverteilung P über Ω gilt H(P ) H(P 0 ), d.h. die Entropie der Gleichverteilung ist maximal. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

140 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen 1/5 Sei A eine Aussagenvariable mit den Werten {a (1),..., a (n) }. Die Entropie von A wird definiert als H(A) = n i=1 P (a(i) ) log P (a (i) ) H(A) mittlere Unsicherheit darüber, welchen Wert A annehmen wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

141 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen 2/5 Bedingte Entropie von A bzgl. B (mit Werten {..., b (j),...}): H(A B) = i,j P (b(j) )P (a (i) b (j) ) log P (a (i) b (j) ) = j P (b(j) ) i P (a(i) b (j) ) log P (a (i) b (j) ) = j P (b(j) )H(P (A b (j) )) erwartete Unbestimmtheit von A nach der Beobachtung von B. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

142 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße 3 rote 1 schwarze Kugel(n) Urne 2: 6 weiße 2 rote 0 schwarze G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

143 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße 3 rote 1 schwarze Kugel(n) Urne 2: 6 weiße 2 rote 0 schwarze Kugel(n) Variablenbeschreibung Werte Variable A: Urne 1, 2 Variable B: Farbe weiss (1), rot (2), schwarz (3) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

144 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße 3 rote 1 schwarze Kugel(n) Urne 2: 6 weiße 2 rote 0 schwarze Kugel(n) Variablenbeschreibung Werte Variable A: Urne 1, 2 Variable B: Farbe weiss (1), rot (2), schwarz (3) Die Verteilung P beschreibe die Wahrscheinlichkeit des Ereignisses Ziehe Kugel der Farbe b aus Urne mit Nummer a G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

145 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 2/7 Der Agent zieht mit gleicher Wahrscheinlichkeit Kugeln aus Urne 1 oder 2: P (A = 1) = P (A = 2) = 0.5 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267