Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer

2 Graphische Modelle Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten Sa awade/la ndwehr/scheffer, Maschinelles Lernen II 2

3 Überblick Gerichtete Graphische Modelle: Bayessche etze Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Ungerichtete Graphische Modelle: Markov etze 3

5 Zufallsvariablen, Verteilungen Zufallsvariable: Abbildung eines Ereignisses auf reelle Zahl X : Raum der Elementarereignisse Verteilung über ZV: wie wahrscheinlich, bestimmte Werte zu beobachten? Diskrete Zufallsvariablen: diskreter Wertebereich (z.b. Münzwurf) Diskrete Wahrscheinlichkeit px ( ) [0,1], px ( )=1 x Wert der ZV Kontinuierliche Zufallsvariablen: kontinuierlicher Wertebereich (z.b. Körpergröße) Dichtefunktion px ( ), pxdx ( ) 1 0 x x Wert der ZV 5

6 Zufallsvariablen, Verteilungen Beispiele i für diskrete/kontinuierliche ti i Verteilungen Bernoulli-Verteilung: binäre ZV X {0,1} Parameter px ( 1 ) 1 ~Bern( ) X X X X (1 ) ormalverteilung: kontinuierliche ZV X 1 1 (2 ) (, ) exp ( x ) 2 1/2 2 x Mittelwert Standardabweichung 6

7 Zufallsvariablen, Verteilungen Zusammenhang Dichte/Wahrscheinlichkeit h h i hk it x px ( [ x, x ]) pzdz ( ) x px ( [ x, x ]) ist (diskrete) Wahrscheinlichkeit Oft abstrahieren a e wir vom Typ der Zufallsvariable a ab Rechenregeln sind im Wesentlichen gleich für diskrete/kontinuierliche Variablen ( ersetze Summe durch Integral ) Grundlegende Begriffe wie Abhängigkeit, Erwartungswert, Varianz sind auf beide Typen von Variablen anwendbar 7

8 Gemeinsame Verteilung, bedingte Verteilung Gemeinsame Verteilung p(x,y) über ZV X,Y pxy (, ) [0,1], pxy (, ) 1 xy, Bedingte Verteilung p( x, y), pxy (, ) dxdy 1 pxy (, ) px ( Y) diskret oder kontinuierlich py ( ) Für py ( ) 0 ist px ( y) wieder eine Verteilung über X: x px ( y ) 1 für py ( ) 0 (diskret) px ( ydx ) 1 fürpy ( ) 0 (kontinuierlich) 00 8

9 Unabhängigkeit von Zufallsvariablen Unabhängigkeit (diskret oder kontinuierlich) X,Y unabhängig genau dann wenn p( XY, ) px ( ) py ( ) XY X,Y unabhängig genau dann wenn px ( Y) p( X ) X,Y unabhängig genau dann wenn p( Y X) p( Y) Bedingte Unabhängigkeit (diskret oder kontinuierlich) X,Y unabhängig gegeben Z genau dann wenn p( XY, Z) px ( Z) py ( Z) X,Y unabhängig gegeben Z genau dann wenn p( Y X, Z) p( Y Z) X,Y unabhängig gegeben Z genau dann wenn p( X Y, Z) p( X Z)... einfach Anwendung des Unabhängigkeitsbegriffs auf die bedingte gemeinsame Verteilung p(x,y Z) Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 9

10 Rechenregeln Verteilungen Rechenregeln Wahrscheinlichkeiten/Verteilungen Summenregel p( x) p( x, y) diskrete Verteilungen y p ( x ) p ( x, y ) dy kontinuierliche Verteilungen px ( ) heisst auch Randverteilung, Marginalverteilung Produktregel pxy (, ) px ( Y) py ( ) diskret oder kontinuierlich Wahrscheinlichkeitsrechnungen beruhen auf Anwendungen dieser beiden Regeln 10

11 Graphische Modelle: Idee/Ziel Ziel: Modellierung der gemeinsame Verteilung p(x 1,,X ) einer Menge von ZV X 1,,X Aus p(x 1,,X ) lassen sich berechnen Alle Randverteilungen (Summenregel) p( X,..., X ), { i,..., i } {1,..., } i i m 1 m 1 Alle bedingten Verteilungen (aus Randverteilungen) p( X,..., X X,..., X ), { i,., i } {1,..., } i1 im im1 imk 1 mk Damit lassen sich alle probabilistischen Fragestellungen (Inferenzprobleme) über X 1,,X beantworten Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 11

12 Graphische Modelle: Idee/Ziel Graphische Modelle: Kombination von Wahrscheinlichkeitstheorie und Graphentheorie Kompakte, intuitive Modellierung von p(x 1,,X ) Graphstruktur repräsentiert Abhängigkeiten zwischen Variablen X 1,,X Einsicht in Struktur des Modells; einfach, Vorwissen einzubringen Effiziente Algorithmen für Inferenz, die Graphstruktur ausnutzen Viele Methoden des maschinellen Lernens lassen sich in Form von GM darstellen Fragestellungen wie MAP Lernen, Bayessche Vorhersage lassen sich als Inferenzprobleme in GM formulieren 12

13 Graphische Modelle: Beispiel Beispiel: Alarm Alarm Szenario Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser achbar ruft an, falls er den Alarm hört. Wenn eingebrochen wurde, wollen wir zurück kommen. Leider ist der achbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B Burglary Einbruch hat stattgefunden E Earthquake Erdbeben hat stattgefunden A Alarm Alarmanlage geht los eighborcalls achbar ruft an Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen R RadioReport Bericht über Erdbeben im Radio 13 II

14 Graphische Modelle: Beispiel Zufallsvariablen haben eine gemeinsame Verteilung p(b,e,a,,r). Wie angeben? Welche Abhängigkeiten gelten? Beispiel für Inferenzproblem: achbar hat angerufen (=1), wie wahrscheinlich ist Einbruch (B=1)? Hängt von verschiedenen Faktoren ab Wie wahrscheinlich Einbruch a priori? Wie wahrscheinlich Erdbeben a priori? Wie wahrscheinlich, dass Alarmanlage auslöst? (aive) Inferenz: p( B1 1) E A R B E A R pb ( 1, 1) p ( 1) p( B1, E, A, 1, R) p( BEA,,, 1, R) 14

15 Graphische Modelle: Beispiel Wie modellieren wir p(bear)? p(b,e,a,,r)? 1. Versuch: vollständige Tabelle B E A R P(B,E,A,,R) +Alle Verteilungen p( BEAR,,,, ) können repräsentiert werden Anzahl Parameter exponentiell Schwierig anzugeben 2. Versuch: alles unabhängig p( BEAR,,,, ) pbpepap ( ) ( ) ( ) ( ) pr ( ) +Anzahl Parameter linear - Zu restriktiv, Unabhängigkeitsannahme it h erlaubt btkeine sinnvolle Inferenz 15

16 Graphische Modelle: Beispiel Graphisches Modell: Selektive Unabhängigkeitsannahmen, durch Vorwissen motiviert Wähle Variablenordnung: z.b. B<E<A<<R Produktregel: pbear (,,,, ) pbeaprbea (,,, ) (,,, ) pbeap (,, ) ( BEApR,, ) ( BEA,,, ) p ( BEp, ) ( A B, E) p ( B, E, A) p ( R B, E, A, ) pbpe ( ) ( BpA ) ( BE, ) p ( BEApR,, ) ( BEA,,, ) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. Können wir diese Faktoren vereinfachen? Welche dieser Abhängigkeiten bestehen wirklich? 16

17 Graphische Modelle: Beispiel Zerlegung in Faktoren nach Produktregel: pbear (,,,, ) pbpe ( ) ( BpA ) ( BEp, ) ( BEApR,, ) ( BEA,,, ) Annahme bedingter Unabhängigkeiten (Entfernen von Variablen aus Bedingungsteil) pe ( B ) p ( E ) pabe (, ) pabe (, ) p ( B, E, A ) p ( A ) p( R B, E, A, ) p( R E) Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab Anruf von achbar hängt nur von Alarm ab achricht im Radio hängt nur Erdbeben ab Vereinfachte Darstellung der gemeinsamen Verteilung: pbear (,,,, ) pbpepa ( ) ( ) ( EBp, ) ( ApR ) ( E) Vereinfachte Faktoren 17

18 Graphische Modelle: Beispiel Graphisches Modell für Alarm Alarm Szenario P(B=1) P(E=1) B E P(A=1 B,E) B E A A P(=1 A) Modellierte Verteilung: pbear (,,,, ) p( B ) p( E ) p( A EB, ) p ( A ) p ( R E ) E P(R=1 E) R Graphisches Modell: - Jede ZV ist ein Knoten - Für jeden Faktor der Form px ( X,..., X) fügen wir gerichtete Kanten von den X zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen px ( X1,..., X k ) 1 i k 18

19 Graphische Modelle: Beispiel Graphisches Modell für Alarm Alarm Szenario Anzahl Parameter: O(*2 K ), K= max. Anzahl von Elternknoten Hier statt Parameter Gerichtete graphische Modelle heißen auch Bayessche etze 19 Sa awade/la ndwehr/scheffer, Maschinelle es Lernen II

20 Bayessche etze: Definition Gegeben eine Menge von ZV {X 1,,X } Ein Bayessches etz über den ZV {X 1,,X } ist ein gerichteter Graph mit Knotenmenge X 1,,X X X... X X Es gibt keine gerichteten Zyklen i1 i2 ik i1 Knoten sind mit parametrisierten bedingten Verteilungen p( Xi pa( X )) assoziiert, wobei pa( X i i) { X j X j X i} die Menge der Elternknoten eines Knoten ist Das Bayessche etz modelliert eine gemeinsame Verteilung über X 1,,X durch i1 p ( X,..., ) ( ( )) 1 X p Xi pa Xi 20

21 Bayessche etze: Definition Warum muss der Graph azyklisch sein? Satz aus der Graphentheorie: G ist azyklisch es gibt Ordnung G der Knoten, so dass gerichtete Kanten die Ordnung respektieren ( ' ') Damit ergibt sich p( X,..., X ) p( X pa( X )) 1 i1 aus Produktregel + bedingten Unabhängigkeitsannahmen (Variablen entsprechend umsortieren) G Gegenbeispiel (kein Bayessches etz): X Y p( X, Y) px ( Y) p( Y X ) i i G 21

22 Bayessche etze: Unabhängigkeit Die Graphstruktur eines Bayesschen etzes impliziert (bedingte) Unabhängigkeiten zwischen ZV otation: Für Variablen X, Y, Z schreiben wir X Y Z px ( YZ, ) px ( Z) " X unabhängig von Y gegeben Z" Erweiterung auf disjunkte Mengen A, B, C von ZV C p( A B, C) p( A C) 22

23 Bayessche etze: Unabhängigkeit Welche Unabhängigkeiten der Form C werden durch die Graphstruktur modelliert? Im Prinzip auszurechnen durch Summen/Produktregel aus der gemeinsamen Verteilung Bei graphischen Modellen aber direkt aus der Graphstruktur ableitbar viel einfacher D-separation : Menge einfacher Regeln, nach denen sich alle Unabhängigkeiten ableiten lassen Sa awade/la ndwehr/sc cheffer, Maschinelles Lernen II 23

24 Bayessche etze: Unabhängigkeit D-separation: Welche Unabhängigkeiten der Form C werden durch die Graphstruktur modelliert? Wichtige Rolle spielen Pfade im Graphen, die ZV verbinden otation: X X X Y Y Y Z Z Z Pfad zwischen X und Zh hat eine konvergierende Verbindung bei Y ( head to head ) Pfad zwischen X und Z hat eine serielle Verbindung bei Y ( head to tail ) Pfad zwischen X und Z hat eine divergierende Verbindung bei Y ( tail-to-tail ) 24

25 Divergierende Verbindungen B E A R Betrachte Pfad A E R. Gilt R? Gemeinsame Verteilung: pbear (,,,, ) p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) B= Einbruch = achbar ruft an E= Erdbeben R= Radio Bericht A= Alarm Al 25

26 Divergierende Verbindungen B A E R Betrachte Pfad A E R. Gilt R? Gemeinsame Verteilung: pbear (,,,, ) p ( B ) p ( E ) p ( A E, B ) p ( A ) p ( R E ) B= Einbruch = achbar ruft an E= Erdbeben R= Radio Bericht A= Alarm Al ein, par ( ) pa ( ) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: RadioReport wahrscheinlich Erdbeben wahrscheinlich Alarm pa ( 1 R1) pa ( 1 R0) ZV R beeinflusst ZV A über die divergierende Verbindung R E A 26

27 Divergierende Verbindungen B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) Betrachte Pfad A E R. Gilt R E? beobachteter Knoten 27

28 Divergierende Verbindungen B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) Betrachte Pfad A E R. Gilt R E? beobachteter Knoten Ja, pare (, ) pae ( ) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport Der divergierende i d Pfad R E Awird ddurch hbeobachtung von E blockiert 28

29 Serielle Verbindungen B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) Betrachte Pfad A B. Gilt? 29

30 Serielle Verbindungen B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) Betrachte Pfad A B. Gilt? ein, pb ( ) pb ( ) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: eighborcalls wahrscheinlich Alarm wahrscheinlich Burglary pb ( 1 1) pb ( 1 0) ZVb beeinflusst ifl ZVBüb über den seriellen ill Pfad A B 30

31 Serielle Verbindungen B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) beobachteter Knoten Betrachte Pfad A B. Gilt A? 31

32 Serielle Verbindungen B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) beobachteter Knoten Betrachte Pfad A B. Gilt A? Ja, pb (, A) pb ( A) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass achbar anruft Der serielle Pfad A B wird ddurch hbeobachtung von A blockiert. 32

33 Konvergierende Verbindung B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) Betrachte Pfad B A E. Gilt? 33

34 Konvergierende Verbindung B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) Ja, pb ( E) pb ( ) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben Betrachte Pfad B A E. Gilt? Der konvergierende Pfad B AE ist blockiert wenn Anicht beobachtet ist Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 34

35 Konvergierende Verbindung B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) beobachteter Knoten A Betrachte Pfad B A E. Gilt? 35

36 Konvergierende Verbindung B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) beobachteter Knoten A ein, pb ( EA, ) pb ( A) [Ausrechnen mit gemeinsamer Verteilung] Betrachte Pfad B A E. Gilt? Intuitiv: Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B A E wird freigegeben durch hbeobachtung von A 36

37 Konvergierende Verbindung B E Gemeinsame Verteilung: pbear (,,,, ) A R p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) beobachteter Knoten ein, pb ( A, ) pb ( A) [Ausrechnen mit gemeinsamer Verteilung] Betrachte Pfad B A E. Gilt? Intuitiv: eighborcalls indirekte Beobachtung von Alarm. Erdbebenbeobachtung erklärt den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B A E wird freigegeben durch Beobachtung von 37

38 Zusammenfassung Pfade B A E R Gemeinsame Verteilung: pbear (,,,, ) p( BpEpAEBp ) ( ) (, ) ( ApRE ) ( ) Zusammenfassung: ein Pfad -X-Y-Z- ist Blockiert bei Y, wenn Divergierende Verbindung, und Y beobachtet, oder Serielle Verbindung, und Y beobachtet, oder Konvergierende Verbindung, und weder Y noch einer seiner achfahren Y Descendants(Y) beobachtet Descendants(Y)={Y es gibt gerichteten Pfad von Y zu Y } Sonst ist der Pfad frei bei Y 38

39 D-Separation: Blockierte Pfade Seien X,X ZV, C eine beobachtete Menge von ZV, X,X C Ein ungerichteter Pfad X X 1 X n X zwischen X und X ist blockiert gegeben C gdw es einen Knoten X i gibt so dass Pfad bei X i blockiert ist gegeben C D-Separation basiert auf blockierten Pfaden: Seien A,B,C, disjunkte Mengen von ZV. Definition: A und B sind d-separiert durch C gdw jeder Pfad von einem Knoten X A zu einem Knoten Y B blockiert ist gegeben C. Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 39

40 D-Separation: Korrektheit Gegeben ein Bayessches etz über {X 1,,X } mit Graphstruktur G. Das Bayessche etz modelliert eine Verteilung durch 1 i1 p( X,..., X ) p( X pa( X )) abhängig von den bedingten Verteilungen p( Xn pa( Xn)). Theorem (Korrektheit, Vollständigkeit d-separation) i Falls A,B d-separiert gegeben C in G, dann pabc (, ) p ( AC ) Es gibt keine anderen Unabhängigkeiten, die für jede Wahl der bedingten Verteilungen p( X pa( X )) gelten. i i i 40

41 D-Separation: Beispiel C A F D B G E H Ein Pfad -X-Y-Z-X Y Z ist Blockiert bei Y, wenn Gilt B H E? Gilt A H F? Gilt C? Divergierende Verbindung, und Y beobachtet, oder Serielle Verbindung, und Y beobachtet, oder Konvergierende Verbindung, und weder Y noch einer seiner achfahren Y Descendants(Y) beobachtet Sonst ist der Pfad frei bei Y 41

42 D-Separation: Beispiel C A F D B G E H Ein Pfad -X-Y-Z-X Y Z ist Blockiert bei Y, wenn Gilt B H E? Ja Gilt A H F? ein: ADBEH Gilt C? ein: CFDBE Divergierende Verbindung, und Y beobachtet, oder Serielle Verbindung, und Y beobachtet, oder Konvergierende Verbindung, und weder Y noch einer seiner achfahren Y Descendants(Y) beobachtet Sonst ist der Pfad frei bei Y 42

43 Bayessche etze: Kausalität Oft werden Bayessche etze so konstruiert, dass gerichtete Kanten kausalen Einflüssen entsprechen G E A Erdbeben lösen die Alarmanlage aus Äquivalentes Modell G Definition: : E A die Alarmanlage löst Erdbeben aus I(G) ={ ( A C) : A und B sind d-separiert gegeben C in G} Alle Unabhängigkeitsannahmen, die durch G kodiert werden IG ( ) IG ( ') Keine statistischen Gründe, eines der Modelle vorzuziehen Kann nicht aufgrund von Daten zwischen Modellen unterscheiden Aber kausale Modelle oft besser verständlich 43

44 etze Unterschiedlicher Komplexität Komplexität: bestimmt durch Menge der Kanten im Graph Beeinflusst die Anzahl der Parameter im Modell. Für binäre ZV gilt: Anzahl Parameter in O(*2 K ), K max i pa( X i) Hinzufügen von Kanten: Familie der darstellbare Verteilungen wird grösser, I(G) wird kleiner Extremfälle: Graph ohne Kanten, (ungerichtet) vollständig verbundener Graph Parameter B E B E A R 2-1 Parameter IG ( ) {( A C): ABC,, disj. Mengen von ZV} IG ( ) A R 44

46 Erinnerung: Lernproblem Erinnerung: Lernproblem Trainingsdaten L ( x, y 1 1 ),...,( x, y Matrixschreibweise ib i X ) x i m Merkmalsvektoren yi {0,1} binäre Klassenlabel y reelles Label Merkmalsvektoren Zugehörige Klassenlabels x11 x1 y1 x1... x y... x 1m xm y Ziel: Vorhersage des Klassenlabels für Testinstanz x x y i 46

47 Erinnerung: Lernen Annahme: gemeinsame Verteilung p(x,y) (unbekannt) Trainingsdaten ( xi, yi) ~ p( x, y) i.i.d. Testinstanzen ( x, y) ~ p( x, y) Wir betrachten probabilistische Modelle p( y x, ) [diskriminativ] p( x, y ) [generativ] A-priori Verteilung über Modelle p ( ) (bekannt) Vorhersageproblem: MAP Lösung * arg max p( L) y* arg max y p( y x, *) Vorhersageproblem: Bayes Lösung y* arg max y p( y x, L) arg max y p( y x, ) p( L) d 47

48 Erinnerung: Parameterschätzung Münzwurf Erinnerung: Münzwurf Einzelner Münzwurf Bernouilli-verteilt mit Parameter μ 1 X X X ~Bern( X ) (1 ) px ( 1 ) unbekannter Parameter Parameterschätzproblem: Wir haben unabhängige Münzwürfe gesehen, als Ausprägung L={x 1,, x } der ZV X 1,, X Der echte Parameter μ ist unbekannt, wir wollen eine Schätzung ˆ bzw. eine posterior-verteilung p( L) Bayesscher Ansatz: Posterior Prior x Likelihood p( L) p( L ) p( ) posterior likelihood prior 48

49 Erinnerung: Parameterschätzung Münzwurf Prior: Beta-Verteilung über Münzparameter μ p( ) Beta( k z k z k z k (1 k z 1 1 Likelihood unabhängige Münzwürfe: PX ( 1,..., X ) px ( n ) n1 Ber n( X n ) n1 n1 X n (1 ) 1 X z n i.i.d. Beta(

50 Erinnerung: Parameterschätzung Münzwurf Zufallsvariablen in Münzwurfszenario sind X X Gemeinsame Verteilung von Daten und Parameter (gegeben Hyperparameter, ): Prior x Likelihood p ( 1,...,, ) ( ( ) k X X z p p X k z i Darstellung als graphisches Modell: X1 X 2 X 3 k X z i 1 Bernoulli 1,...,, pa( ) pa( X ) { } i Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 50

51 Schätzung eines Münzparameters als Graphisches h Modell Unabhängige Münzwürfe: Darstellung als graphisches Modell D-separation X X 1 2 X 3 X Gilt,...,? X X1 X 1 51

52 Schätzung eines Münzparameters als Graphisches h Modell Unabhängige Münzwürfe: Darstellung als graphisches Modell D-separation X X 1 2 X 3 X Gilt,...,? X X1 X 1 ein, Pfad durch μ ist nicht blockiert. Intuitiv: X X... X 1 Wahrscheinlich 0.5 Wahrscheinlich X Der versteckte Parameter μ koppelt ZV X 1,, X. Aber es gilt X X,..., X

53 Parameterschätzung als Inferenzproblem MAP-Parameterschätzung Parameterschätzung Münzwurf arg max p ( x,..., x ) Inferenzproblem: kz 1 p, ( ) X1 2 k z px ( ) px ( ) X X X Evidenz auf den Knoten X 1,, X 3 Wahrscheinlichster Zustand des Knotens μ gegeben X 1,, X 53