Darstellung, Verarbeitung und Erwerb von Wissen

Größe: px
Ab Seite anzeigen:

Download "Darstellung, Verarbeitung und Erwerb von Wissen"

Transkript

1 Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 267

2 Kapitel 4 4. Wahrscheinlichkeiten & Co Gerichtete Netzwerke Bayes-Netze G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 47 / 267

3 Separatoren und Residuen Proposition 4 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V. Sei {C i 1 i p} eine Menge von Teilmengen von V mit Separatoren S i = C i (C 1... C i 1 ). Für 1 i p seien die Residuen R i wie folgt definiert: Dann gilt für 1 i p: R i = C i S i P (C i S i ) = P (R i S i ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 92 / 267

4 Beispiel Blue Babies Diagnose von Herzkrankheiten bei Neugeborenen (verursachen Sauerstoffmangel im Blut) [Lauritzen et al., 1993] 20 (mehrwertige) Variablen, darunter Laborwerte (z.b. CO2-Werte) Röntgenbefund und andere Befunde Diagnose (6 mögliche Krankheiten) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 267

5 Beispiel Blue Babies Diagnose von Herzkrankheiten bei Neugeborenen (verursachen Sauerstoffmangel im Blut) [Lauritzen et al., 1993] 20 (mehrwertige) Variablen, darunter Laborwerte (z.b. CO2-Werte) Röntgenbefund und andere Befunde Diagnose (6 mögliche Krankheiten) 114 lokale Verteilungen mit insgesamt 230 bedingten Wahrscheinlichkeiten G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 93 / 267

6 LVH LVH report Beispiel Blue Babies Birth asphyxia Disease Age 3 Duct Cardiac Lung Lung Sick flow mixing parenchyma flow 3 Hypoxia Hypoxia Chest CO distribution in O 2 Grunting 2 X-ray Lower CO RUQ O 2 X-ray Grunting body O 2 2 report report report G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 94 / 267

7 Forward-Backward-Algorithmus... auch genannt Lauritzen-Spiegelhalter-Algorithmus nach S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2): , G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267

8 Forward-Backward-Algorithmus... auch genannt Lauritzen-Spiegelhalter-Algorithmus nach Ziel: S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2): , Berechnung der Randverteilungen auf den einzelnen Cliquen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267

9 Forward-Backward-Algorithmus... auch genannt Lauritzen-Spiegelhalter-Algorithmus nach Ziel: S.L. Lauritzen and D.J. Spiegelhalter. Local computations with probabilities in graphical structures and their applications to expert systems. Journal of the Royal Statistical Society B, 50(2): , Berechnung der Randverteilungen auf den einzelnen Cliquen; insbesondere: Berechnung der Wahrscheinlichkeit der einzelnen Aussagenvariablen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 95 / 267

10 Wissenspropagation in Bayesschen Netzen Ausgangspunkt des LS-Algorithmus: Sei (C 1,..., C q ; ψ) der Cliquenbaum mit Potentialdarstellung, der aus einem Bayesschen Netz gewonnen wurde. Die Separatoren S i := C i (C 1... C i 1 ) C j(i) sind als Label an den Kanten des Cliquenbaumes notiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 96 / 267

11 Ein technischer Satz 1/2 Proposition 5 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C 1,..., C p ; ψ}. Die Ordnung (C 1, C 2,..., C p ) besitze die RIP, und R i bzw. S i seien die Residuen bzw. Separatoren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 267

12 Ein technischer Satz 1/2 Proposition 5 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C 1,..., C p ; ψ}. Die Ordnung (C 1, C 2,..., C p ) besitze die RIP, und R i bzw. S i seien die Residuen bzw. Separatoren. 1 Dann gilt P (R p S p ) = ψ(c p) R p ψ(c p ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 97 / 267

13 Ein technischer Satz 2/2 Proposition 5 (Forts.) 2 Nach Voraussetzung RIP gibt es ein j < p mit S p = C p (C 1 C 2... C p 1 ) C j { Sei ψ (1) ψ(ci ) wenn 1 i p 1 und i j (C i ) = ψ(c j ) R p ψ(c p ) wenn i = j Dann ist {C 1,..., C p 1 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2... C p 1. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 98 / 267

14 Ein technischer Satz 2/2 Proposition 5 (Forts.) 2 Nach Voraussetzung RIP gibt es ein j < p mit S p = C p (C 1 C 2... C p 1 ) C j { Sei ψ (1) ψ(ci ) wenn 1 i p 1 und i j (C i ) = ψ(c j ) R p ψ(c p ) wenn i = j Dann ist {C 1,..., C p 1 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2... C p 1. Damit wurde die Information der letzten Clique von ihrer Elternclique absorbiert. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 98 / 267

15 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

16 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (C i ) und damit (leicht) die Wahrscheinlichkeiten P (A j ) der Variablen A j berechnen kann. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

17 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (C i ) und damit (leicht) die Wahrscheinlichkeiten P (A j ) der Variablen A j berechnen kann. Wegen S i C i gilt P (C i ) = P (C i S i )P (S i ) = P (R i S i )P (S i ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

18 Forward-Backward-Algorithmus 1/3 Ausgangspunkt: Permanenter Cliquenbaum, d.h.: Sei {C 1,..., C p ; ψ} eine Potentialdarstellung der gemeinsamen Verteilung P auf V, wobei die Cliquen-Ordnung (C 1, C 2,..., C p ) die RIP besitze. Zielsetzung: Eine neue Potentialdarstellung auf den Cliquen, aus der man direkt die Cliquenwahrscheinlichkeiten P (C i ) und damit (leicht) die Wahrscheinlichkeiten P (A j ) der Variablen A j berechnen kann. Wegen S i C i gilt P (C i ) = P (C i S i )P (S i ) = P (R i S i )P (S i ) Aufgabe: Bestimmung der Wahrscheinlichkeiten P (R i S i ) und P (S i ) für jedes i {1,..., p}. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 99 / 267

19 Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (R i S i ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (R p S p ) = ψ(c p) R p ψ(c p ) in der letzten Clique C p ; setze ψ neu (C p ) := P (R p S p ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

20 Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (R i S i ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (R p S p ) = ψ(c p) R p ψ(c p ) in der letzten Clique C p ; setze ψ neu (C p ) := P (R p S p ). 2 Berechne Potentialdarstellung ψ (1) auf der verkleinerten Variablenmenge C 1... C p 1 durch Modifikation von ψ gemäß Proposition 5 (2). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

21 Forward-Backward-Algorithmus 2/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (R i S i ): Benutze Proposition 5 wiederholt in der folgenden Weise: 1 Bestimme mit Proposition 5 die bedingte Wahrscheinlichkeit P (R p S p ) = ψ(c p) R p ψ(c p ) in der letzten Clique C p ; setze ψ neu (C p ) := P (R p S p ). 2 Berechne Potentialdarstellung ψ (1) auf der verkleinerten Variablenmenge C 1... C p 1 durch Modifikation von ψ gemäß Proposition 5 (2). 3 Wiederhole Schritte 1. und 2., bis alle bedingten Wahrscheinlichkeiten berechnet sind. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

22 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

23 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). Die Wahrscheinlichkeiten P (C 1 ),..., P (C i 1 ) seien schon berechnet; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

24 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). Die Wahrscheinlichkeiten P (C 1 ),..., P (C i 1 ) seien schon berechnet; es ist P (C i ) = P (R i S i )P (S i ) = ψ neu (C i )P (S i ) und es gibt j < i mit S i C j G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

25 Forward-Backward-Algorithmus 3/3 Grundidee zur Berechnung der Wahrscheinlichkeiten P (S i ): Für die Wurzelclique C 1 ist S 1 = und daher P (C 1 ) = ψ neu (C 1 ). Die Wahrscheinlichkeiten P (C 1 ),..., P (C i 1 ) seien schon berechnet; es ist P (C i ) = P (R i S i )P (S i ) = ψ neu (C i )P (S i ) und es gibt j < i mit S i C j P (S i ) kann also aus P (C j ) durch Aufsummieren berechnet werden: P (S i ) = P (C j ) C j S i G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

26 Modifizierte Potentialdarstellung Proposition 6 Sei V eine (endliche) Menge von Aussagenvariablen, und sei P eine gemeinsame Verteilung über V mit Potentialdarstellung {C 1,..., C p ; ψ}. Wir nehmen weiterhin an, dass die Ordnung (C 1,..., C p ) der fortlaufenden Schnitteigenschaft RIP genügt. Dann gilt P (V) = P (C 1 ) p P (R i S i ) wobei die Mengen R i bzw. S i die zugehörigen Residuen bzw. Separatoren sind. i=2 D.h. {C 1,..., C p ; ψ neu } mit ψ neu (C i ) = P (R i S i ) ist eine Potentialdarstellung von P. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

27 Beispiel Sturmschäden A B C D E Sturm in DB-Land Oberleitungsschäden Umgestürzte Bäume auf Gleisen Verspätungen Gleisschäden A B C D E G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

28 Beispiel Sturmschäden A B C D E Sturm in DB-Land Oberleitungsschäden Umgestürzte Bäume auf Gleisen Verspätungen Gleisschäden A B C D E P (A, B, C, D, E) = P (A)P (B A)P (C A)P (D BC)P (E C) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

29 Beispiel (Forts.) Durch die folgenden (bedingten) Wahrscheinlichkeiten wird P vollständig festgelegt: P (a) = 0.20 P (b a) = 0.80 P (b ā) = 0.20 P (c a) = 0.20 P (c ā) = 0.05 P (d bc) = 0.80 P (d b c) = 0.90 P (d bc) = 0.70 P (d b c) = 0.05 P (e c) = 0.80 P (e c) = 0.60 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

30 Beispiel (Forts.) clq : clq(a) = clq(b) = clq(c) = C 1 clq(d) = C 2 clq(e) = C 3 ψ : ψ(a, B, C) = P (A)P (B A)P (C A) ψ(b, C, D) = P (D B, C) ψ(c, E) = P (E C) Wir erhalten die Potentialdarstellung P (A, B, C, D, E) = ψ(a, B, C)ψ(B, C, D)ψ(C, E) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

31 Beispiel die vollständige Potentialdarstellung 1/2 i C i R i S i Konjunktion ψ(c i ) 1 {A, B, C} {A, B, C} abc ab c a bc a b c ābc āb c ā bc ā b c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

32 Beispiel die vollständige Potentialdarstellung 2/2 i C i R i S i Konjunktion ψ(c i ) 2 {B, C, D} {D} {B, C} bcd 0.8 bc d 0.2 b cd 0.9 b c d 0.1 bcd 0.7 bc d 0.3 b cd 0.05 b c d {C, E} {E} {C} ce 0.8 cē 0.2 ce 0.6 cē 0.4 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

33 Beispiel (Forts.) C 1 = {A, B, C} S 1 = R 1 = {A, B, C} C 2 = {B, C, D} S 2 = {B, C} R 2 = {D} C 3 = {C, E} S 3 = {C} R 3 = {E} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

34 Beispiel (Forts.) C 1 = {A, B, C} S 1 = R 1 = {A, B, C} C 2 = {B, C, D} S 2 = {B, C} R 2 = {D} C 3 = {C, E} S 3 = {C} R 3 = {E} Schritt 1: Berechnung von P (R 3 S 3 ) P (R 3 S 3 ) = ψ(c 3 ) R 3 ψ(c 3 ) = ψ(c, E) E ψ(c, E) = P (E C) E P (E C) = P (E C) = ψ neu (C 3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

35 Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S 3 C 2 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

36 Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S 3 C 2 Es ist {C 1, C 2 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2, wobei { ψ (1) ψ(c1 ) wenn i = 1 (C i ) = ψ(c 2 ) R 3 ψ(c 3 ) wenn i = 2 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

37 Beispiel (Forts.) Schritt 2: Verkürzung der Potentialdarstellung: S 3 C 2 Es ist {C 1, C 2 ; ψ (1) } eine Potentialdarstellung der Randverteilung von P auf C 1 C 2, wobei { ψ (1) ψ(c1 ) wenn i = 1 (C i ) = ψ(c 2 ) R 3 ψ(c 3 ) wenn i = 2 also ψ (1) (C 1 ) = P (A)P (B A)P (C A) und ψ (1) (C 2 ) = ψ(c 2 ) ψ(c 3 ) R 3 = ψ(b, C, D) ψ(c, E) E = P (D B, C) P (E C) = P (D B, C) E G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

38 Beispiel (Forts.) Schritt 3: Berechnung von P (R 2 S 2 ) P (R 2 S 2 ) = ψ (1) (C 2 ) R 2 ψ (1) (C 2 ) = ψ(b, C, D) =: ψ neu (C 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

39 Beispiel (Forts.) Schritt 3: Berechnung von P (R 2 S 2 ) P (R 2 S 2 ) = ψ (1) (C 2 ) R 2 ψ (1) (C 2 ) = ψ(b, C, D) =: ψ neu (C 2 ) Schritt 4: Verkürzung der Potentialdarstellung und Berechnung der ersten Cliquenwahrscheinlichkeit: Schließlich ist {C 1, ψ (2) } mit ψ (2) (C 1 ) = ψ(c 1 ) eine Potentialdarstellung der Randverteilung auf C 1, und es ist ψ (2) (C 1 ) = P (C 1 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

40 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

41 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 P (b c) = = 0.28 P ( bc) = 0.04 P ( b c) = 0.64 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

42 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 P (b c) = = 0.28 P ( bc) = 0.04 P ( b c) = 0.64 Nun erhalten wir P (C 2 ) aus P (C 2 ) = ψ(c 2 )P (S 2 ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

43 Beispiel (Forts.) Schritt 5: Berechnung der zweiten Cliquenwahrscheinlichkeit: Wegen S 2 = {B, C} C 1 lässt sich auch P (S 2 ) bestimmen, z.b.: P (bc) = P (abc) + P (abc) = = 0.04 P (b c) = = 0.28 P ( bc) = 0.04 P ( b c) = 0.64 Nun erhalten wir P (C 2 ) aus P (C 2 ) = ψ(c 2 )P (S 2 ). Schritt 6: Berechnung der dritten Cliquenwahrscheinlichkeit: Analog gehen wir bei der Berechnung von P (C 3 ) = ψ(c 3 )P (S 3 ) vor. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

44 Beispiel modifizierte Potentialdarstellung 1/2 i C i Konjunktion ψ neu (C i ) P (C i ) 1 {A, B, C} abc ab c a bc a b c ābc āb c ā bc ā b c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

45 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

46 Beispiel modifizierte Potentialdarstellung 2/2 i C i Konjunktion ψ neu (C i ) P (C i ) 2 {B, C, D} bcd bc d b cd b c d bcd bc d b cd b c d {C, E} ce cē ce cē G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

47 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

48 Berücksichtigung fallspezifischer Daten 1/2 Instantiierung von Knoten in Bayesschen Netzen: Sei V Menge von Aussagenvariablen, sei U V. U enthalte zu jeder Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der Variablen. Dann heißt U eine Instantiierung von U: U := U G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

49 Berücksichtigung fallspezifischer Daten 1/2 Instantiierung von Knoten in Bayesschen Netzen: Sei V Menge von Aussagenvariablen, sei U V. U enthalte zu jeder Variablen aus U genau einen Wert aus dem jeweiligen Wertebereich der Variablen. Dann heißt U eine Instantiierung von U: U := U Beispiel: Sei V = {A, B, C, D} und U = {B, D} mit der Instantiierung U = {b, d}. {B, D} = {b, d} ist dann eine abkürzende Schreibweise für B = b, D = d. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

50 Berücksichtigung fallspezifischer Daten 2/2 Proposition 7 Sei V Menge von Aussagenvariablen, sei P gemeinsame Verteilung über V mit Potentialdarstellung {W 1,..., W p ; ψ}. Sei U eine Instantiierung von U V. ψ U:=U (W i ) ist das Ergebnis der Auswertung von ψ auf W i, wobei die Variablen in W i U mit ihren Werten aus U instantiiert sind. Dann ist {W 1 U,..., W p U; ψ U:=U } eine Potentialdarstellung der auf V = V U definierten Verteilung ˆP (V ) = P (V U ). G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

51 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

52 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U = {d} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

53 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U = {d} Wir wollen eine Potentialdarstellung der bedingten Verteilung bestimmen: ˆP (A, B, C, E) := P (A, B, C, E d) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

54 Instantiierung Beispiel Wir setzen das Sturm-Beispiel fort; es kommt zu Verspätungen, d.h. D = d, also U = {D} und U = {d} Wir wollen eine Potentialdarstellung der bedingten Verteilung bestimmen: ˆP (A, B, C, E) := P (A, B, C, E d) Cliquen: Ĉ 1 = C 1 {D} = {A, B, C}(= C 1 ) Ĉ 2 = C 2 {D} = {B, C} Ĉ 3 = C 3 {D} = {C, E}(= C 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

55 Instantiierung Beispiel (Forts.) Potentialfunktionen: ˆψ = ψ D:=d : ˆψ( Ĉ 1 ) = ψ(c 1 ) ˆψ(Ĉ2) = ˆψ(B, C) = ψ(b, C, d) ˆψ(Ĉ3) = ψ(c 3 ) also z.b. ˆψ(bc) = ψ(bcd). Separatoren und Residuen: Ŝ 1 = S 1 {D} = ˆR1 = R 1 {D} = {A, B, C} Ŝ 2 = S 2 {D} = {B, C} ˆR2 = R 2 {D} = Ŝ 3 = S 3 {D} = {C} ˆR3 = R 3 {D} = {E} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

56 Instantiierung Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten ˆP ( ˆR i Ŝi) wieder durch Anwendung der passenden Propositionen: G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

57 Instantiierung Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten ˆP ( ˆR i Ŝi) wieder durch Anwendung der passenden Propositionen: ˆP ( ˆR 3 Ŝ3) = ˆψ(Ĉ3) ˆR 3 ˆψ( Ĉ 3 ) ψ(c 3 ) = R 3 ψ(c 3 ) = P (R 3 S 3 ) = ψ(c 3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

58 Instantiierung Beispiel (Forts.) Wir berechnen nun die Wahrscheinlichkeiten ˆP ( ˆR i Ŝi) wieder durch Anwendung der passenden Propositionen: ˆP ( ˆR 3 Ŝ3) = ˆψ(Ĉ3) ˆR 3 ˆψ( Ĉ 3 ) ψ(c 3 ) = R 3 ψ(c 3 ) = P (R 3 S 3 ) = ψ(c 3 ) und daher ˆψ neu (Ĉ3) = ˆP ( ˆR 3 Ŝ3) = ψ(c 3 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

59 Instantiierung Beispiel (Forts.) Dann ist {Ĉ1, Ĉ2; ˆψ (1) } mit ˆψ (1) (Ĉ1) = ˆψ(Ĉ1), ˆψ (1) (Ĉ2) = ˆψ(Ĉ2) ˆR3 ˆψ(Ĉ3) = ˆψ(Ĉ2) eine Potentialdarstellung von ˆP auf Ĉ1 Ĉ2 = {A, B, C}. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

60 Instantiierung Beispiel (Forts.) Dann ist {Ĉ1, Ĉ2; ˆψ (1) } mit ˆψ (1) (Ĉ1) = ˆψ(Ĉ1), ˆψ (1) (Ĉ2) = ˆψ(Ĉ2) ˆR3 ˆψ(Ĉ3) = ˆψ(Ĉ2) eine Potentialdarstellung von ˆP auf Ĉ1 Ĉ2 = {A, B, C}. Daher ist ˆP ( ˆR 2 Ŝ2) = ˆψ (1) (Ĉ2) ˆR 2 ˆψ(1) (Ĉ2) = 1 wegen ˆR 2 = ; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

61 Instantiierung Beispiel (Forts.) Dann ist {Ĉ1, Ĉ2; ˆψ (1) } mit ˆψ (1) (Ĉ1) = ˆψ(Ĉ1), ˆψ (1) (Ĉ2) = ˆψ(Ĉ2) ˆR3 ˆψ(Ĉ3) = ˆψ(Ĉ2) eine Potentialdarstellung von ˆP auf Ĉ1 Ĉ2 = {A, B, C}. Daher ist ˆP ( ˆR 2 Ŝ2) = ˆψ (1) (Ĉ2) ˆR 2 ˆψ(1) (Ĉ2) = 1 wegen ˆR 2 = ; setze also ˆψ neu (Ĉ2) = 1. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

62 Instantiierung Beispiel (Forts.) Wir erhalten eine Potentialdarstellung von ˆP auf Ĉ1 = {A, B, C} mittels {Ĉ1; ˆψ (2) } mit ˆψ (2) (Ĉ1) = ˆψ (1) (Ĉ1) ˆR2 ˆψ (1) (Ĉ2) = ˆψ (1) (Ĉ1) ˆψ (1) (Ĉ2), G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

63 Instantiierung Beispiel (Forts.) Wir erhalten eine Potentialdarstellung von ˆP auf Ĉ1 = {A, B, C} mittels {Ĉ1; ˆψ (2) } mit ˆψ (2) (Ĉ1) = ˆψ (1) (Ĉ1) ˆR2 ˆψ (1) (Ĉ2) = ˆψ (1) (Ĉ1) ˆψ (1) (Ĉ2), also z.b. ˆψ (2) (abc) = ˆψ (1) (abc) ˆψ (1) (bc) = = G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

64 Instantiierung Beispiel (Forts.) Zunächst muss ˆP (Ĉ1) aus ˆψ (2) berechnet werden. Mit Proposition 5 ist ˆP (Ĉ1) = ˆP ( ˆR 1 Ŝ1) = ˆR 1 ˆψ (2) (Ĉ1) ˆψ(2) (Ĉ1) Durch Aufsummieren ergibt sich also z.b. ˆR 1 ˆψ(2) (Ĉ1) = ˆP (abc) = ˆψ (2) (abc) = G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

65 Instantiierung Beispiel (Forts.) Für Ĉ2 ist ˆP (Ĉ2) = ˆψ neu (Ĉ2) ˆP (Ŝ2) bzw. ˆP (B, C) = ˆψneu (B, C) ˆP (B, C) und ˆP (B, C) kann aus ˆP (Ĉ1) berechnet werden. Es ist z.b. ˆP (bc) = = Schließlich ist ˆP (Ĉ3) = ˆψ neu (Ĉ3) ˆP (Ŝ3) also z.b. ˆP (ce) = ˆψ neu (ce) ˆP (c) = 0.8 ( ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

66 Instantiierung Beispiel (Forts.) i Ĉ i Konjunktion ˆψneu (Ĉi) ˆP ( Ĉ i ) 1 {A, B, C} abc ab c a bc a b c ābc āb c ā bc ā b c G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

67 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

68 Instantiierung Beispiel (Forts.) i Ĉ i Konjunktion ˆψneu (Ĉi) ˆP ( Ĉ i ) 2 {B, C} bc b c bc b c {C, E} ce cē ce cē G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

69 Notizen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

70 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

71 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

72 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

73 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. CHILD hilft bei der Diagnose angeborener Herzfehler G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

74 Anwendungen Bayesscher Netze 1/2 HUGIN ist eine System-Shell für Bayessche Netze mit Editor und Verarbeitung. BOBLO ist ein System, das zur Bestimmung von Stammbäumen bei Jersey- Vieh eingesetzt wird. VISTA ist ein System, das von der NASA beim Start von Raumfähren zur Steuerung des Antriebssystems eingesetzt wird. CHILD hilft bei der Diagnose angeborener Herzfehler MUNIN wird zur Diagnose neuromuskulärer Erkrankungen eingesetzt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

75 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

76 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

77 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. FRAIL interpretiert literarische Prosa. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

78 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. FRAIL interpretiert literarische Prosa. Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen Colorado. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

79 Anwendungen Bayesscher Netze 2/2 SWAN macht Vorschläge zur Anpassung der Insulin-Dosierung von Diabetes-Patienten. Das PC-Betriebssystem Windows setzt ein Bayessches Netzwerk zur Behebung von Druckerproblemen ein. FRAIL interpretiert literarische Prosa. Hailfinder macht Unwettervorhersagen im Gebiet des nordöstlichen Colorado. Im e-commerce können Bayessche Netze zur Erstellung individueller Kundenprofile im Online-Betrieb benutzt werden. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

80 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

81 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

82 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; sehr effiziente Propagationsalgorithmen. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

83 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; sehr effiziente Propagationsalgorithmen. Nachteile: bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden (großer statistischer Aufwand!); G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

84 Vor- und Nachteile Bayesscher Netze Vorteile: starke kausale Semantik, im Prinzip regelbasiert; gute visuelle Darstellung von Zusammenhängen; sehr effiziente Propagationsalgorithmen. Nachteile: bedingte Unabhängigkeiten von Variablen sind nicht leicht zu finden (großer statistischer Aufwand!); immer noch sind sehr viele Wahrscheinlichkeiten zu spezifizieren. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

85 Übersicht Kapitel 4 Wahrscheinlichk. und prob. Netzwerke Informationstheorie 4.1 Wahrscheinlichkeiten und probabilistische Netzwerke Grundlagen Ungerichtete Netzwerke Markov-Graphen Gerichtete Netzwerke Bayes-Netze Probabilistik und Informationstheorie 4.2 Dempster-Shafer/Evidenz-Theorie 4.3 Fuzzy-Logik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

86 Kapitel 4 Wahrscheinlichk. und prob. Netzwerke Informationstheorie 4. Wahrscheinlichkeiten & Co Probabilistik und Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

87 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

88 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

89 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information Informationsfluss zwischen Variablen G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

90 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information Informationsfluss zwischen Variablen Das MaxEnt-Prinzip (ME-Prinzip) und Implementation G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

91 Übersicht Kapitel Wahrscheinlichk. und prob. Netzwerke Informationstheorie Motivation Entropie ein Maß für fehlende Information Informationsfluss zwischen Variablen Das MaxEnt-Prinzip (ME-Prinzip) und Implementation Probabilistische ME-Inferenz G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

92 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

93 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

94 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden Informationstheoretische Methodik: Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen, vervollständigt Wissen selbständig in informationstheoretisch-optimaler Weise G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

95 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eine Alternative zu Bayesschen Netzen Bayessche Netze: Vorteile: Hohe Effizienz, starke (kausale) Semantik Nachteile: Versteckte Unabhängigkeitsannahmen, Wissen muss vollständig spezifiziert werden Informationstheoretische Methodik: Vorteile: arbeitet mit verfügbarem (unvollständigen) Wissen, vervollständigt Wissen selbständig in informationstheoretisch-optimaler Weise Nachteile: weniger effizient, schwächere Semantik G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

96 Beispiel 1/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

97 Beispiel 1/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? P (k g) = P (k gs) = 1 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

98 Beispiel 1/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie G : Grippe; S : Kopfschmerzen; K : Krank Bedingte Unabhängigkeiten? P (k g) = P (k gs) = 1 aber (i.allg.) P (k g) < P (k gs) also sind Kranksein und Kopfschmerzen haben nicht etwa bedingt unabhängig, wenn Grippe gegeben ist, d.h. es gilt nicht K = P S G G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

99 Beispiel 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ kṡ) = P (ġ)p ( k ġ)p (ṡ ġ k) ohne dass eine Reduktion der Komplexität erfolgt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

100 Beispiel 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ kṡ) = P (ġ)p ( k ġ)p (ṡ ġ k) ohne dass eine Reduktion der Komplexität erfolgt. Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer leicht schätzen P (s g) = 0.9 im Grippebeispiel realistisch, G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

101 Beispiel 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein passendes Bayessches Netz besteht in diesem Beispiel aus einem vollständigen Graphen, und die Produktdarstellung von P entspricht der Kettenregel P (ġ kṡ) = P (ġ)p ( k ġ)p (ṡ ġ k) ohne dass eine Reduktion der Komplexität erfolgt. Außerdem: Auch bedingte Wahrscheinlichkeiten lassen sich nicht immer leicht schätzen P (s g) = 0.9 im Grippebeispiel realistisch, aber wie soll man P (s g) schätzen? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

102 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

103 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

104 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens selbständig ein probabilistisches Netz zu Inferenz- und Propagationszwecken aufbaut. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

105 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Ein informationstheoretischer Ansatz liefert eine Methode, die die Modellierung allgemeiner Abhängigkeiten (nicht notwendig kausaler Abhängigkeiten bzw. bedingter Unabhängigkeiten) in den Vordergrund stellt und auf der Basis des verfügbaren (auch unvollständigen!) probabilistischen Wissens selbständig ein probabilistisches Netz zu Inferenz- und Propagationszwecken aufbaut. Grundlegende Idee: Fehlende Information wird informationstheoretisch optimal aufgefüllt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

106 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 1/2 Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit denen der Experte wichtige Zusammenhänge des zu behandelnden Problembereichs beschreibt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

107 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 1/2 Die Wissensbasis besteht aus einer Menge probabilistischer Regeln, mit denen der Experte wichtige Zusammenhänge des zu behandelnden Problembereichs beschreibt. Eine probabilistische Regel hat die Form (B A)[x], A, B aussagenlogische Formeln, x [0, 1] mit der Bedeutung Wenn A wahr ist, dann ist auch B wahr mit Wahrscheinlichkeit x oder Ein A ist zu x 100 % ein B. (s. Folie über Probabilistische Logik) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

108 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 2/2 Eine Verteilung P erfüllt eine probabilistische Regel (B A)[x], P = (B A)[x] gdw. P (A) > 0 und P (B A) = x d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle probabilistischer Regeln. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

109 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Regelbasen 2/2 Eine Verteilung P erfüllt eine probabilistische Regel (B A)[x], P = (B A)[x] gdw. P (A) > 0 und P (B A) = x d.h. probabilistische Regeln werden durch bedingte Wahrscheinlichkeiten interpretiert, und Wahrscheinlichkeitsverteilungen sind die Modelle probabilistischer Regeln. Die Wissensbasis hat also die Form einer Regelmenge R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

110 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

111 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C A)[x], (C B)[y]}, wenn P (C A) = x, P (C B) = y; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

112 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C A)[x], (C B)[y]}, wenn P (C A) = x, P (C B) = y; P kann so gewählt werden, dass (insbesondere) P (C A B) = z (für beliebiges z [0, 1]) ist. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

113 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Klassische probabilistische Semantik Im Allgemeinen wird es eine unübersehbar große Zahl von Verteilungen geben, die eine probabilistische Wissensbasis R = {(B 1 A 1 )[x 1 ],..., (B n A n )[x n ]} erfüllen die durch R spezifizierte Information ist unvollständig! Beispiel: P ist Modell von R = {(C A)[x], (C B)[y]}, wenn P (C A) = x, P (C B) = y; P kann so gewählt werden, dass (insbesondere) P (C A B) = z (für beliebiges z [0, 1]) ist. Es gibt also unendlich viele Modelle von R! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

114 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

115 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! Gibt es besonders gute Modelle? G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

116 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! Gibt es besonders gute Modelle? Philosophie: Nimm diejenige Verteilung P, die nur das Wissen in R und seine probabilistischen Konsequenzen darstellt und sonst keine Information hinzufügt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

117 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Probabilistische Auswahl-Inferenz? Probabilistisches Schließen auf der Basis aller Modelle (i.e. Verteilungen) ist daher meistens viel zu schwach! Gibt es besonders gute Modelle? Philosophie: Nimm diejenige Verteilung P, die nur das Wissen in R und seine probabilistischen Konsequenzen darstellt und sonst keine Information hinzufügt. Minimiere zusätzliche Information in P Maximiere Unbestimmtheit in P G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

118 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Literatur Informationstheorie C.E. Shannon and W. Weaver. Mathematische Grundlagen der Informationstheorie. Oldenbourg, München, Wien, G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

119 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Literatur Informationstheorie C.E. Shannon and W. Weaver. Mathematische Grundlagen der Informationstheorie. Oldenbourg, München, Wien, Lehrbücher über Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

120 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

121 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

122 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

123 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; Normierung: Inf (0.5) = 1; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

124 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; Normierung: Inf (0.5) = 1; Sind N 1 und N 2 zwei unabhängige Nachrichten, so gilt Inf (P (N 1 N 2 )) = Inf (P (N 1 )) + Inf (P (N 2 )), G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

125 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Information 1/2 Je wahrscheinlicher eine Nachricht ist, desto weniger informativ ist sie. Wahrscheinlichkeit Information Information(Nachricht) = Inf (P (Nachricht)) Die Funktion Inf soll folgende Eigenschaften erfüllen: Inf : [0, 1] R 0 { }; Normierung: Inf (0.5) = 1; Sind N 1 und N 2 zwei unabhängige Nachrichten, so gilt Inf (P (N 1 N 2 )) = Inf (P (N 1 )) + Inf (P (N 2 )), d.h. Inf (x 1 x 2 ) = Inf (x 1 ) + Inf (x 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

126 Information 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = log 2 x (log 2 x = log b x log b 2 ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

127 Information 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = log 2 x (log 2 x = log b x log b 2 ) Insbesondere gilt Inf (0) =, Inf (1) = 0 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

128 Information 2/2 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Diese Eigenschaften charakterisieren die Informationsfunktion Inf eindeutig: Inf (x) = log 2 x Insbesondere gilt Inf (0) =, Inf (1) = 0 (log 2 x = log b x log b 2 ) Der in bit gemessene Informationsgehalt einer Nachricht gibt die (durchschnittliche) Anzahl der Ja/Nein-Antworten an, die bei einer optimalen Fragestrategie (im Grenzwert) nötig sind, um diese Nachricht zu isolieren. 1 bit entspricht dabei dem Informationsgehalt einer Ja/Nein-Antwort. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

129 Information Beispiel Wahrscheinlichk. und prob. Netzwerke Informationstheorie In einer Urne befinden sich insgesamt 8 Kugeln: 4 weiße Kugeln 2 rote Kugeln 1 blaue Kugel 1 grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

130 Information Beispiel Wahrscheinlichk. und prob. Netzwerke Informationstheorie In einer Urne befinden sich insgesamt 8 Kugeln: 4 weiße Kugeln 2 rote Kugeln 1 blaue Kugel 1 grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem Ausgang eines Zuges verbundene Information lässt sich berechnen als Information(weiss) = Inf ( 1 2 ) = 1 bit G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

131 Information Beispiel Wahrscheinlichk. und prob. Netzwerke Informationstheorie In einer Urne befinden sich insgesamt 8 Kugeln: 4 weiße Kugeln 2 rote Kugeln 1 blaue Kugel 1 grüne Kugel In einem Zug wird jeweils 1 Kugel (mit Zurücklegen) gezogen; die mit dem Ausgang eines Zuges verbundene Information lässt sich berechnen als Information(weiss) = Inf ( 1 2 ) = 1 bit Information(rot) Information(blau) Information(grün) = Inf ( 1 4 ) = 2 bit = Inf ( 1 8 ) = 3 bit = Inf ( 1 8 ) = 3 bit G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

132 Entropie Wahrscheinlichk. und prob. Netzwerke Informationstheorie Mittlerer Informationsgehalt einer Verteilung P : H(P ) = ω Ω P (ω) log P (ω) Entropie einer Verteilung P (misst den Grad der mittleren Unbestimmtheit von P ) Der Begriff Entropie stammt aus der Thermodynamik, wurde von Shannon später als fundamentales Maß für die Unordnung (= fehlende Struktur) in einem System gedeutet und damit als Maß für die Informativität (= Strukturiertheit) erkannt. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

133 Notizen Wahrscheinlichk. und prob. Netzwerke Informationstheorie G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

134 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n Ω = n; dann gilt: H(P 0 ) = log 2 n; für ω Ω, wobei G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

135 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) für ω Ω, wobei G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

136 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n für ω Ω, wobei G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

137 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n für ω Ω, wobei Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n = ( n) 1 ( log n) n G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

138 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n für ω Ω, wobei Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n = ( n) 1 ( log n) n = log n ) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

139 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Eigenschaften der Entropie Sei P 0 die Gleichverteilung über Ω, d. h. P 0 (ω) = 1 n für ω Ω, wobei Ω = n; dann gilt: H(P 0 ) = log 2 n; ( Beweis : H(P 0 ) = H( 1 n,..., 1 n ) = n i=1 1 n log 1 n = ( n) 1 ( log n) n = log n ) Für jede beliebige Wahrscheinlichkeitsverteilung P über Ω gilt H(P ) H(P 0 ), d.h. die Entropie der Gleichverteilung ist maximal. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

140 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen 1/5 Sei A eine Aussagenvariable mit den Werten {a (1),..., a (n) }. Die Entropie von A wird definiert als H(A) = n i=1 P (a(i) ) log P (a (i) ) H(A) mittlere Unsicherheit darüber, welchen Wert A annehmen wird. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

141 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen 2/5 Bedingte Entropie von A bzgl. B (mit Werten {..., b (j),...}): H(A B) = i,j P (b(j) )P (a (i) b (j) ) log P (a (i) b (j) ) = j P (b(j) ) i P (a(i) b (j) ) log P (a (i) b (j) ) = j P (b(j) )H(P (A b (j) )) erwartete Unbestimmtheit von A nach der Beobachtung von B. G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

142 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße 3 rote 1 schwarze Kugel(n) Urne 2: 6 weiße 2 rote 0 schwarze G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

143 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße 3 rote 1 schwarze Kugel(n) Urne 2: 6 weiße 2 rote 0 schwarze Kugel(n) Variablenbeschreibung Werte Variable A: Urne 1, 2 Variable B: Farbe weiss (1), rot (2), schwarz (3) G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

144 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 1/7 Zwei Urnen enthalten Kugeln: Urne 1: 4 weiße 3 rote 1 schwarze Kugel(n) Urne 2: 6 weiße 2 rote 0 schwarze Kugel(n) Variablenbeschreibung Werte Variable A: Urne 1, 2 Variable B: Farbe weiss (1), rot (2), schwarz (3) Die Verteilung P beschreibe die Wahrscheinlichkeit des Ereignisses Ziehe Kugel der Farbe b aus Urne mit Nummer a G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

145 Wahrscheinlichk. und prob. Netzwerke Informationstheorie Entropie von Aussagevariablen Beispiel 2/7 Der Agent zieht mit gleicher Wahrscheinlichkeit Kugeln aus Urne 1 oder 2: P (A = 1) = P (A = 2) = 0.5 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/ / 267

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2017/18 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2017/18 1 / 265 Struktur der DVEW 1

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 267

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 267

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2015/16 WS 2015/16 G. Kern-Isberner (TU Dortmund) DVEW WS 2015/16 1 / 267

Mehr

Commonsense Reasoning

Commonsense Reasoning Commonsense Reasoning Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Sommersemester 2015 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 1 / 232 Kapitel 4 4. Probabilistische Folgerungsmodelle

Mehr

Commonsense Reasoning

Commonsense Reasoning Commonsense Reasoning Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Sommersemester 2015 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 1 / 232 Probabilistische Folgerungsmodelle

Mehr

Commonsense Reasoning

Commonsense Reasoning Commonsense Reasoning Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Sommersemester 2017 G. Kern-Isberner (TU Dortmund) Commonsense Reasoning 1 / 232 Kapitel 4 Grundideen probabilistischen

Mehr

Evidenzpropagation in Bayes-Netzen und Markov-Netzen

Evidenzpropagation in Bayes-Netzen und Markov-Netzen Einleitung in Bayes-Netzen und Markov-Netzen Thomas Thüm 20. Juni 2006 1/26 Thomas Thüm in Bayes-Netzen und Markov-Netzen Übersicht Einleitung Motivation Einordnung der Begriffe 1 Einleitung Motivation

Mehr

Lösungshinweise zu Kapitel 13

Lösungshinweise zu Kapitel 13 L-112 Lösungshinweise zu Kapitel 13 zu Selbsttestaufgabe 13.2 (Eigenschaften der bedingten Unabhängigkeit) Sei P eine Wahrscheinlichkeitsverteilung über V. Wir setzen im Folgenden stillschweigend voraus,

Mehr

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen

Mehr

Quantitative Methoden Wissensbasierter Systeme

Quantitative Methoden Wissensbasierter Systeme Quantitative Methoden Wissensbasierter Systeme Probabilistische Netze und ihre Anwendungen Robert Remus Universität Leipzig Fakultät für Mathematik und Informatik Abteilung für Intelligente Systeme 23.

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen Ü b u n g 1 Aufgabe 1 Die Ereignisse A, B und C erfüllen die Bedingungen P(A) = 0. 7, P(B) = 0. 6, P(C) = 0. 5 P(A B) = 0. 4, P(A C) = 0. 3, P(B C) = 0. 2, P(A B C) = 0. 1 Bestimmen Sie P(A B), P(A C),

Mehr

Logik. Gabriele Kern-Isberner LS 1 Information Engineering. TU Dortmund Wintersemester 2014/15 WS 2014/15

Logik. Gabriele Kern-Isberner LS 1 Information Engineering. TU Dortmund Wintersemester 2014/15 WS 2014/15 Logik Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund Wintersemester 2014/15 WS 2014/15 G. Kern-Isberner (TU Dortmund) Logik WS 2014/15 1 / 125 Übersicht Modallogik 5. Grundlagen 6. Erfüllbarkeit

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Methoden der KI in der Biomedizin Bayes Netze

Methoden der KI in der Biomedizin Bayes Netze Methoden der KI in der Biomedizin Bayes Netze Karl D. Fritscher Bayes Netze Intuitiv: Graphische Repräsentation von Einfluss Mathematisch: Graphische Repräsentation von bedingter Unabhängigkeit Bayes Netze

Mehr

Vorkurs Mathematik. Christoph Hindermann. Wahrscheinlichkeitstheorie

Vorkurs Mathematik. Christoph Hindermann. Wahrscheinlichkeitstheorie Kapitel 4 Christoph Hindermann Vorkurs Mathematik 1 4.0 Motivation Wenn 100 Münzen geworfen werden, wie ist dann die Wahrscheinlichkeit, dass genau 50 davon Kopf zeigen? Angenommen, es befinden sich 300

Mehr

Methoden wissensbasierter Systeme

Methoden wissensbasierter Systeme Christoph Beierle Gabriele Kern-Isberner Methoden wissensbasierter Systeme Grundlagen - Algorithmen - Anwendungen 2., überarbeitete und erweiterte Auflage vieweg ix Vorwort zur 2., erweiterten Auflage

Mehr

Semester-Fahrplan 1 / 17

Semester-Fahrplan 1 / 17 Semester-Fahrplan 1 / 17 Hydroinformatik I Einführung in die Hydrologische Modellierung Bayes sches Netz Olaf Kolditz *Helmholtz Centre for Environmental Research UFZ 1 Technische Universität Dresden TUDD

Mehr

Biostatistik, Winter 2011/12

Biostatistik, Winter 2011/12 Biostatistik, Winter 2011/12 stheorie: Grundbegriffe Prof. Dr. Achim Klenke http://www.aklenke.de 5. Vorlesung: 25.11.2011 1/33 Inhalt 1 Zufallsvariablen 2 Ereignisse 3 2/33 Zufallsvariablen Eine Zufallsvariable

Mehr

,,Schäferhunde sind gefährlich! Denn,,Jeder dritte Biss geht auf das Konto dieser Rasse.

,,Schäferhunde sind gefährlich! Denn,,Jeder dritte Biss geht auf das Konto dieser Rasse. Wirtschaftswissenschaftliches Zentrum 7 Universität Basel Statistik Dr. Thomas Zehrt Bedingte Wahrscheinlichkeit Motivation Die bedingte Wahrscheinlichkeit eines Ereignisses A bei einem gegebenen Ereignis

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 267 Kapitel 4 Wahrscheinlichk.

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick: Graphische Modelle Graphische Modelle: Werkzeug zur Modellierung einer Domäne mit verschiedenen

Mehr

Roman Firstein. Maximum Entropy Markov Models for Information Extraction and Segmentation

Roman Firstein. Maximum Entropy Markov Models for Information Extraction and Segmentation Maximum Entropy Markov Models (MEMM) for Information Extraction and Segmentation Roman Firstein 09.10.07 Maximum Entropy Markov Models for Information Extraction and Segmentation Vortrag - Vorwort - Modell

Mehr

Satz 18 (Satz von der totalen Wahrscheinlichkeit)

Satz 18 (Satz von der totalen Wahrscheinlichkeit) Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen wir: Satz 18 (Satz von der totalen Wahrscheinlichkeit) Die Ereignisse A 1,..., A n seien paarweise disjunkt und es gelte

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Methoden wissensbasierter

Methoden wissensbasierter Christoph Beierle I Gabriele Kern-Isberner Methoden wissensbasierter Systeme Grundlagen, Algorithmen, Anwendungen 4., verbesserte Auflage Mit 147 Abbildungen STUDIUM VIEWEG+ 'reubner xiii Vorwort zur 1.

Mehr

2.2 Ereignisse und deren Wahrscheinlichkeit

2.2 Ereignisse und deren Wahrscheinlichkeit 2.2 Ereignisse und deren Wahrscheinlichkeit Literatur: [Papula Bd., Kap. II.2 und II.], [Benning, Kap. ], [Bronstein et al., Kap. 1.2.1] Def 1 [Benning] Ein Zufallsexperiment ist ein beliebig oft wiederholbarer,

Mehr

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit 3 Bedingte Wahrscheinlichkeit, Unabhängigkeit Bisher : (Ω, A, P) zur Beschreibung eines Zufallsexperiments Jetzt : Zusatzinformation über den Ausgang des Experiments, etwa (das Ereignis) B ist eingetreten.

Mehr

Kapitel 7: Flüsse in Netzwerken und Anwendungen Gliederung der Vorlesung

Kapitel 7: Flüsse in Netzwerken und Anwendungen Gliederung der Vorlesung Gliederung der Vorlesung 1. Grundbegriffe. Elementare Graphalgorithmen und Anwendungen 3. Kürzeste Wege 4. Minimale spannende Bäume 5. Färbungen und Cliquen 6. Traveling Salesman Problem 7. Flüsse in Netzwerken

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Dr. Hanjo Täubig Lehrstuhl für Eziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester 2007/08

Mehr

Logik für Informatiker

Logik für Informatiker Logik für Informatiker Wintersemester 2007/08 Thomas Schwentick Teil C: Nichtklassische Logiken 9. Temporallogiken Version von: 4. Februar 2008(11:55) Inhalt 9.1 Vorüberlegungen 9.2 Lineare Zeit: LTL 9.3

Mehr

Informationsgehalt einer Nachricht

Informationsgehalt einer Nachricht Informationsgehalt einer Nachricht Betrachten folgendes Spiel Gegeben: Quelle Q mit unbekannten Symbolen {a 1, a 2 } und p 1 = 0.9, p 2 = 0.1. Zwei Spieler erhalten rundenweise je ein Symbol. Gewinner

Mehr

Diskrete Strukturen I

Diskrete Strukturen I Universität Kassel Fachbereich 10/1 PD Dr. Sebastian Petersen 14.09.2017 Klausur zur Vorlesung Diskrete Strukturen I Es können maximal 40 Punkte erreicht werden. Version mit Lösungsskizze Zur Notation:

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1 Mathematische Grundlagen III Informationstheorie 20 Juni 20 / Informationstheorie Ein Gerüst, um über den Informationsgehalt von (linguistischen) Ereignissen nachzudenken Einige Beispiele für Anwendungen:

Mehr

Bayesnetzmodelle (BNM) in der Kardiologie

Bayesnetzmodelle (BNM) in der Kardiologie Bayesnetzmodelle (BNM) in der Kardiologie Vorgehensmodell - Ergebnisse Claus Möbus - Heiko Seebold Jan-Ole Janssen, Andreas Lüdtke, Iris Najman, Heinz-Jürgen Thole Besonderen Dank an: Herrn Reinke (Münster)

Mehr

Inhaltsverzeichnis (Ausschnitt)

Inhaltsverzeichnis (Ausschnitt) 8 Messbarkeit und Bildwahrscheinlichkeit Inhaltsverzeichnis (Ausschnitt) 8 Messbarkeit und Bildwahrscheinlichkeit Messbare Abbildungen Bildwahrscheinlichkeit Deskriptive Statistik und Wahrscheinlichkeitsrechnung

Mehr

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur

Mehr

Kapitel 4: Bedingte Entropie

Kapitel 4: Bedingte Entropie Kapitel 4: Bedingte Entropie Bedingte Entropie Das vorherige Theorem kann durch mehrfache Anwendung direkt verallgemeinert werden N 2... N i i Ebenso kann die bedingt Entropie definiert werden Definition:

Mehr

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities) Bayes-Netze Claudio Fischer 20.06.2013 Text- und Datamining (AG Digital Humanities) Agenda Wiederholung Wahrscheinlichkeitstheorie Beispiel Motivation Bayes-Netze Inferenz exakt Inferenz annäherend Belief

Mehr

1. Grundlagen der Wahrscheinlichkeitsrechnung

1. Grundlagen der Wahrscheinlichkeitsrechnung 1. Grundlagen der Wahrscheinlichkeitsrechnung Ereignisse und Wahrscheinlichkeiten Zufälliger Versuch: Vorgang, der (zumindest gedanklich) beliebig oft wiederholbar ist und dessen Ausgang innerhalb einer

Mehr

Seminar Kolmogorovkomplexität. Universität Potsdam Wintersemester 2009/10

Seminar Kolmogorovkomplexität. Universität Potsdam Wintersemester 2009/10 Universität Potsdam Wintersemester 2009/10 Kolmogorovkomplexität Kolmogorovkomplexität (auch Algorithmische Komplexität ) ist der zentrale Begriff der Algorithmischen Informationstheorie (AIT). Kombiniert

Mehr

Wahrscheinlichkeit und Information

Wahrscheinlichkeit und Information 430 A Wahrscheinlichkeit und Information A.1 Die Wahrscheinlichkeit von Formeln Üblicherweise führt man den Wahrscheinlichkeitsbegriff mit Hilfe von Wahrscheinlichkeitsmaßen über Wahrscheinlichkeitsräumen

Mehr

a) (A B) tritt ein = A tritt ein oder B tritt ein. = Mindestens eines der Ereignisse A, B tritt ein.

a) (A B) tritt ein = A tritt ein oder B tritt ein. = Mindestens eines der Ereignisse A, B tritt ein. Lösungsvorschläge zu den Aufgaben von Blatt 6: 43) 7 Telefonzellen ( 7 Kugeln in der Urne); 3 davon sind von je einem Benutzer besetzt ( 3 Kugeln in die Stichprobe). Die Telefonzellen werden nicht mehrfach

Mehr

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung Huffman-Codierung, arithmetische Codierung Theoretische Informatik RWTH-Aachen 4. April 2012 Übersicht 1 Einführung 2 3 4 5 6 Einführung Datenkompression Disziplin,die Kompressionsalgorithmen entwirft

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Kolmogoroffkomplexität Teil 3 Informationstheorie und Kodierung. Torsten Steinbrecher

Kolmogoroffkomplexität Teil 3 Informationstheorie und Kodierung. Torsten Steinbrecher Kolmogoroffkompleität Teil 3 Informationstheorie und Kodierung Torsten Steinbrecher Informationstheorie Information ist Δ Wahlfreiheit beim Sender Δ Unbestimmtheit beim Empfänger Information ist nicht

Mehr

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) 5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:

Mehr

Theorie der Informatik Übersicht. Theorie der Informatik SAT Graphenprobleme Routing-Probleme. 21.

Theorie der Informatik Übersicht. Theorie der Informatik SAT Graphenprobleme Routing-Probleme. 21. Theorie der Informatik 19. Mai 2014 21. einige NP-vollständige Probleme Theorie der Informatik 21. einige NP-vollständige Probleme 21.1 Übersicht 21.2 Malte Helmert Gabriele Röger 21.3 Graphenprobleme

Mehr

für eine rote Kugel denn von auf den 100% (da rot, rot rot, blau blau, rot blau, blau

für eine rote Kugel denn von auf den 100% (da rot, rot rot, blau blau, rot blau, blau Berechnung von Wahrscheinlichkeiten beim Ziehen mit und ohne Zurücklegenn Ziehen mit Zurücklegenn Wir betrachten folgendes Beispiel: In einer Urne sind 2 rote und 3 blaue Kugeln.. Wenn man hier eine Kugel

Mehr

Die Probabilistische Methode

Die Probabilistische Methode Die Probabilistische Methode Wladimir Fridman 233827 Hauptseminar im Sommersemester 2004 Extremal Combinatorics Zusammenfassung Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen von Existenzbeweisen.

Mehr

6: Diskrete Wahrscheinlichkeit

6: Diskrete Wahrscheinlichkeit Stefan Lucks Diskrete Strukturen (WS 2009/10) 219 6: Diskrete Wahrscheinlichkeit 6: Diskrete Wahrscheinlichkeit Stefan Lucks Diskrete Strukturen (WS 2009/10) 220 Wahrscheinlichkeitsrechnung Eines der wichtigsten

Mehr

Satz 16 (Multiplikationssatz)

Satz 16 (Multiplikationssatz) Häufig verwendet man die Definition der bedingten Wahrscheinlichkeit in der Form Damit: Pr[A B] = Pr[B A] Pr[A] = Pr[A B] Pr[B]. (1) Satz 16 (Multiplikationssatz) Seien die Ereignisse A 1,..., A n gegeben.

Mehr

Übungen Abgabetermin: Freitag, , 10 Uhr

Übungen Abgabetermin: Freitag, , 10 Uhr Universität Münster Institut für Mathematische Statistik Stochastik für Lehramtskandidaten SoSe 015, Blatt 1 Löwe/Heusel Übungen Abgabetermin: Freitag, 10.7.015, 10 Uhr Hinweis: Dies ist nur eine Beispiellösung.

Mehr

Bayes-Netze. Vorlesung im Sommersemester 2012

Bayes-Netze. Vorlesung im Sommersemester 2012 Bayes-Netze Vorlesung im Sommersemester 2012 Organisatorisches Zeit und Ort: Mo 14-16 Cartesium 0.01 Prof. Carsten Lutz Raum Cartesium 2.59 Tel. (218)-64431 clu@uni-bremen.de Position im Curriculum: Modulbereich

Mehr

Strukturelle SVM zum Graph-labelling

Strukturelle SVM zum Graph-labelling 23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

2. Entsprechende Listen P i von Vorgängern von i 3. for i := 1 to n do. (ii) S i = Knoten 2 + 1}

2. Entsprechende Listen P i von Vorgängern von i 3. for i := 1 to n do. (ii) S i = Knoten 2 + 1} 1. Berechne für jeden Knoten i in BFS-Art eine Liste S i von von i aus erreichbaren Knoten, so dass (i) oder (ii) gilt: (i) S i < n 2 + 1 und Si enthält alle von i aus erreichbaren Knoten (ii) S i = n

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt Universität Basel Wirtschaftswissenschaftliches Zentrum Zufallsvariablen Dr. Thomas Zehrt Inhalt: 1. Einführung 2. Zufallsvariablen 3. Diskrete Zufallsvariablen 4. Stetige Zufallsvariablen 5. Erwartungswert

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges 29.06.2017 1 von 13 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung

Mehr

Was bisher geschah Klassische Aussagenlogik zur Modellierung von Aussagen Syntax: Formeln

Was bisher geschah Klassische Aussagenlogik zur Modellierung von Aussagen Syntax: Formeln Was bisher geschah Klassische Aussagenlogik zur Modellierung von Aussagen Syntax: Formeln induktive Definition der Menge AL(P) (Baumstruktur) strukturelle Induktion (Funktionen, Nachweise) syntaktische

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 3. Vorlesung - 21.10.2016 Bedingte Wahrscheinlichkeit In einer Urne sind 2 grüne und 3 blaue Kugeln. 2 Kugeln werden ohne Zürücklegen gezogen. Welches ist die Wahrscheinlichkeit, dass : a) man eine grüne

Mehr

Wahrscheinlichkeitsrechnung und Statistik. 9. Vorlesung

Wahrscheinlichkeitsrechnung und Statistik. 9. Vorlesung Wahrscheinlichkeitsrechnung und Statistik 9. Vorlesung - 2018 Anwendung der Bayesschen Theorie in ML Bayessche Netzwerke Bayessche Netze werden in modernen Expertensystemen benutzt. Das Wissen wird über

Mehr

Kapitel 1.5 und 1.6. Ein adäquater Kalkül der Aussagenlogik

Kapitel 1.5 und 1.6. Ein adäquater Kalkül der Aussagenlogik Kapitel 1.5 und 1.6 Ein adäquater Kalkül der Aussagenlogik Teil 1: Kalküle und Beweisbarkeit und die Korrektheit des Shoenfield-Kalküls Mathematische Logik (WS 2010/11) Kapitel 1.5 und 1.6: Kalküle 1 /

Mehr

KAPITEL 5. Erwartungswert

KAPITEL 5. Erwartungswert KAPITEL 5 Erwartungswert Wir betrachten einen diskreten Wahrscheinlichkeitsraum (Ω, P) und eine Zufallsvariable X : Ω R auf diesem Wahrscheinlichkeitsraum. Die Grundmenge Ω hat also nur endlich oder abzählbar

Mehr

Es wird aus einer Urne mit N Kugeln gezogen, die mit den Zahlen 1,..., N durchnummiert sind. (N n)! n! = N! (N n)!n! =

Es wird aus einer Urne mit N Kugeln gezogen, die mit den Zahlen 1,..., N durchnummiert sind. (N n)! n! = N! (N n)!n! = Übungsblatt Höhere Mathematik - Weihenstephan SoSe 00 Michael Höhle, Hannes Petermeier, Cornelia Eder Übung: 5.6.00 Die Aufgaben -3 werden in der Übung am Donnerstag (5.6. besprochen. Die Aufgaben -6 sollen

Mehr

Informatik I WS 07/08 Tutorium 24

Informatik I WS 07/08 Tutorium 24 Info I Tutorium 24 Informatik I WS 07/08 Tutorium 24 8.11.07 Bastian Molkenthin E-Mail: infotut@sunshine2k.de Web: http://www.sunshine2k.de Übersicht o Information und Bezugssysteme o Informationstheorie

Mehr

3. Woche Information, Entropie. 3. Woche: Information, Entropie 45/ 238

3. Woche Information, Entropie. 3. Woche: Information, Entropie 45/ 238 3 Woche Information, Entropie 3 Woche: Information, Entropie 45/ 238 Informationsgehalt einer Nachricht Intuitiv: Je kleiner die Quellws, desto wichtiger oder strukturierter die Information, bzw höher

Mehr

Kapitel 9: Informationstheorie. 2. Entropie

Kapitel 9: Informationstheorie. 2. Entropie ZHAW, NT, FS2008, Rumc, Kapitel 9: 2-1 Kapitel 9: Informationstheorie 2. Entropie Inhaltsverzeichnis 2.1. INFORATIONSQUELLEN...2 2.2. INFORATIONSGEHALT...3 2.3. INIALE ANZAHL BINÄRE FRAGEN...5 2.4. ENTROPIE

Mehr

Konzepte der AI. Unsicheres Schließen

Konzepte der AI. Unsicheres Schließen Konzepte der AI Unsicheres Schließen http://www.dbai.tuwien.ac.at/education/aikonzepte/ Wolfgang Slany Institut für Informationssysteme, Technische Universität Wien mailto: wsi@dbai.tuwien.ac.at, http://www.dbai.tuwien.ac.at/staff/slany/

Mehr

Berechnung von Wahrscheinlichk.

Berechnung von Wahrscheinlichk. Berechnung von Wahrscheinlichk. a) Statistische (empirische) Methode - über relative Häufigkeit (s. Statistik) Exotische Anwendung : Identifikation nichtidealer Roulette-Tische in Spielcasinos b) Falls:

Mehr

Lernmodul 7 Algorithmus von Dijkstra

Lernmodul 7 Algorithmus von Dijkstra Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer

Mehr

Intelligente Systeme

Intelligente Systeme Intelligente Systeme Unsicheres Wissen Prof. Dr. R. Kruse C. Braune C. Doell {kruse,cmoewes,russ}@iws.cs.uni-magdeburg.de Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke

Mehr

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente Mehrstufige Zufallsexperimente Inhalt 6.1 6.1 Mehrstufige Experimente 6.2 6.2 Bedingte Wahrscheinlichkeiten Seite 2 6.1 Mehrstufige Experimente Grundvorstellung: Viele Viele Experimente werden der der

Mehr

Mit e 0 für alle x IR ergeben sich aus 2 x+ x = 0 die Nullstellen 0 und 2. 2 b) Ableitung mit der Produktregel und Ausklammern der e-funktion 3

Mit e 0 für alle x IR ergeben sich aus 2 x+ x = 0 die Nullstellen 0 und 2. 2 b) Ableitung mit der Produktregel und Ausklammern der e-funktion 3 Aufgaben aus dem Aufgabenpool. Analysis A_ Gegeben ist die Funktion f mit x f(x) = e ( x + x ) (x IR). a) Bestimmen Sie die Nullstellen der Funktion f. ( ) x b) Zeigen Sie, dass die Funktion F mit F(x)

Mehr

Allgemeine diskrete Wahrscheinlichkeitsräume II

Allgemeine diskrete Wahrscheinlichkeitsräume II 6 Diskrete Wahrscheinlichkeitsräume Allgemeine diskrete Wahrscheinlichkeitsräume 6.3 Allgemeine diskrete Wahrscheinlichkeitsräume I Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete

Mehr

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum) Allgemeine diskrete Wahrscheinlichkeitsräume I Allgemeine diskrete Wahrscheinlichkeitsräume II Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete Wahrscheinlichkeitsräume Ω endlich

Mehr

Allgemeine diskrete Wahrscheinlichkeitsräume I

Allgemeine diskrete Wahrscheinlichkeitsräume I 6 Diskrete Wahrscheinlichkeitsräume Allgemeine diskrete Wahrscheinlichkeitsräume 6.3 Allgemeine diskrete Wahrscheinlichkeitsräume I Verallgemeinerung von Laplaceschen Wahrscheinlichkeitsräumen: Diskrete

Mehr

) (1 BE) 1 2 ln 2. und somit

) (1 BE) 1 2 ln 2. und somit 1 Aufgaben aus dem Aufgabenpool 1 1.1 Analysis A1_1 Eine Funktion f ist durch 1 x f(x) e 1, x IR, gegeben. Ermitteln Sie die Nullstelle der Funktion f. ( ) b) Die Tangente an den Graphen von f im Punkt

Mehr

8 Einführung in Expertensysteme

8 Einführung in Expertensysteme 8 Einführung in Expertensysteme 22. Vorlesung: Constraints; Probabilistisches Schließen Für die Programmierung von Expertensystemen werden verschiedene Grundtechniken der Wissensrepräsentation und spezielle

Mehr

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Syntaktische und Statistische Mustererkennung. Bernhard Jung Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel

Mehr

Vorwort zur 1. Auflage Vorwort zur 5., überarbeiteten und erweiterten Auflage

Vorwort zur 1. Auflage Vorwort zur 5., überarbeiteten und erweiterten Auflage xi Vorwort zur 1. Auflage Vorwort zur 5., überarbeiteten und erweiterten Auflage vii ix xi 1 Einleitung 1 1.1 Über dieses Buch........................... 1 1.2 Themenbereiche des Buches.....................

Mehr

Kapitel 1. Aussagenlogik

Kapitel 1. Aussagenlogik Kapitel 1 Aussagenlogik Einführung Mathematische Logik (WS 2012/13) Kapitel 1: Aussagenlogik 1/17 Übersicht Teil I: Syntax und Semantik der Aussagenlogik (1.0) Junktoren und Wahrheitsfunktionen (1.1) Syntax

Mehr

Vorwort zur 1. Auflage Vorwort zur 5., überarbeiteten und erweiterten Auflage. 1 Einleitung Über dieses Buch Themenbereiche des Buches 2

Vorwort zur 1. Auflage Vorwort zur 5., überarbeiteten und erweiterten Auflage. 1 Einleitung Über dieses Buch Themenbereiche des Buches 2 xi Vorwort zur 1. Auflage Vorwort zur 5., überarbeiteten und erweiterten Auflage vii ix xi 1 Einleitung 1 1.1 Über dieses Buch 1 1.2 Themenbereiche des Buches 2 2 Wissensbasierte Systeme im Uberblick 7

Mehr

Proseminar Datenkompression Suchstrategien und Präfixcodes

Proseminar Datenkompression Suchstrategien und Präfixcodes Proseminar Datenkompression Suchstrategien und Präfixcodes Patrick Sonntag Mittwoch, den 05.02.2003 I. Einführung - Suche elementares Problem in Informatik - hierbei Beschränkung auf binäre Tests nur 2

Mehr

= 7! = 6! = 0, 00612,

= 7! = 6! = 0, 00612, Die Wahrscheinlichkeit, dass Prof. L. die Wette verliert, lässt sich wie folgt berechnen: Ω = {(i 1,..., i 7 ) : i j {1... 7}, j = 1... 7}, wobei i, j für den Wochentag steht, an dem die Person j geboren

Mehr

Vorlesung 15a. Quellencodieren und Entropie

Vorlesung 15a. Quellencodieren und Entropie Vorlesung 15a Quellencodieren und Entropie 1 1. Volle Binärbäume als gerichtete Graphen und die gewöhnliche Irrfahrt von der Wurzel zu den Blättern 2 3 ein (nicht voller) Binärbaum Merkmale eines Binärbaumes:

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Boltzmann Maschine David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2014 Übersicht Boltzmann Maschine Neuronale Netzwerke Die Boltzmann Maschine Gibbs

Mehr

Satz von der totalen Wahrscheinlichkeit

Satz von der totalen Wahrscheinlichkeit htw saar 1 Satz von der totalen Wahrscheinlichkeit Sei (Ω, P) ein Wahrscheinlichkeitsraum, und B 1,, B n seien paarweise disjunkte Ereignisse mit B i = Ω. Für jedes Ereignis A gilt dann: P(A) = P(A B 1

Mehr

2.7 Der Shannon-Fano-Elias Code

2.7 Der Shannon-Fano-Elias Code 2.7 Der Shannon-Fano-Elias Code Die Huffman-Codierung ist ein asymptotisch optimales Verfahren. Wir haben auch gesehen, dass sich die Huffman-Codierung gut berechnen und dann auch gut decodieren lassen.

Mehr

23. November Betweenness Centrality Closeness Centrality. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 108

23. November Betweenness Centrality Closeness Centrality. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 108 23. November 2011 Betweenness Centrality Closeness Centrality H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 108 Betweenness Centrality Grundlegende Idee: Ein Knoten ist wichtig, wenn er auf

Mehr