Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer

2 Graphische Modelle: Inferenz Wir haben eine Domäne durch gemeinsame Verteilung aller Zufallsgrössen modelliert Inferenz: Wahrscheinlichkeit dafür, dass Variablen bestimmte Werte annehmen, gegeben Informationen über andere Variablen? Sa awade/la ndwehr/sc cheffer, Maschinelles Lernen II 2

3 Überblick Gerichtete Graphische Modelle: Bayessche etze Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Eakte Inferenz: Message-Passing Approimative Inferenz: Sampling 3

4 Eakte Inferenz: Message-Passing Message Passing Algorithmus auf linearer Kette p ( ii, ( i, i i ( ( 2 a ( ( Für k -,..., a: ( (, ( ( k kk, k k k k Für k 2,...,, a: ( (, ( k k, k k k k k a ( a ( a p( a ( a ( a Randverteilung über Anfragevariable a : Produkt der achrichten a ( 4

5 Message-Passing mit Evidenz Bisher Randverteilung p ( ohne Evidenz bestimmt p a Was ist wenn wir Evidenz haben? otation:{,..., } {,,...,,,..., } a i i m j jk Bedingte Verteilung Anfrage- Variable p (,., a i i Z einfach zu berechnen (ormalisierer univariate Verteilung m Evidenz-Variablen p (,,..., a i i m p (,..., i restliche Variablen i m p ( a, i,..., i m Z =... p ( j,...,,,,..., j k a i im Z j j k aussummieren fest 5

6 Message-Passing mit Evidenz Ziel: p (,,..., i? a i im Leichte Modifikation des Message-Passing Algorithmus Wir berechnen wie bisher achrichten (,..., ( (,..., ( 2 a a Falls k+ unbeobachtet ist, summieren wir diesen Knoten aus k { i,. }.., im ( k k, k( k, k ( k k Falls k+ beobachtet ist, verwenden wir nur den entsprechenden Summanden k beobachteter Wert (Evidenz k { i,..., i } ( (, ( m k k, k k k k 6

7 Message-Passing mit Evidenz Ebenso für ( ( k k Jetzt gilt k k, k( k, k ( k : k { i,..., im} (Knoten nicht beobachtet (, ( : k { i,..., i } (Knoten beobachtet k, k k k k m p (,,..., ( ( a a a i i m 2 Laufzeit für Inferenz mit Evidenz immer noch OK ( 7

8 Beispiel: Markov Modelle Beispiel für Inferenz auf linearer Kette: Markov Modelle Markov Modelle: e einfache e Modelle e für dynamische probabilistische Prozesse Prozess, der verschiede Zustände annehmen kann Zufallsvariable X t repräsentiert den Zustand zur Zeit t Diskrete Zeitpunkte t=,,t Beispiel: Wetter Zufallsvariable X t = Wetter am Tag t Zwei mögliche Zustände, Regen und Sonne Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 8

9 Beispiel: Markov Modelle Modellierung: Prozess wird in einem zufällig gewählten Zustand gestartet: Verteilung über Startzustände p( In jedem Schritt geht der Prozess in einen neuen Zustand über, abhängig nur vom gegenwärtigen Zustand (vereinfachende Annahme! Verteilung über nächsten Zustand p( Unabhängigkeitsannahme: t : p(,..., p ( "Markov" Eigensch af t t t t t Übergangswahrscheinlichkeiten hängen nicht von t ab: t: p( p( "Homogener" Prozess t t t t t t 9

10 Beispiel: Markov Modelle Gemeinsame Wahrscheinlichkeit über alle Zustände T T t t t p (,..., p (,..., T p( p( t t t2 Darstellung als graphisches Modell: Zukunft ist unabhängig von der Vergangenheit gegeben Gegenwart Sa awade/la ndwehr/sc cheffer, Maschinelles Lernen II 0

11 Beispiel: Markov Modelle Gemeinsame Wahrscheinlichkeit über alle Zustände T T t t t p (,..., p (,..., T p( p( t t t2 Darstellung als graphisches Modell: Zukunft ist unabhängig von der Vergangenheit gegeben Gegenwart

12 Beispiel: Markov Modelle Beispiel Markov Modell: Zustand t = Wetter am Tag t Zwei mögliche Zustände, Regen und Sonne Verteilungen p ( s 0.5 p ( t s t s 0.8 p( r 0. 5 p ( t r t s 0.2 p ( t s t r 0.4 p ( r r t t Wahrscheinlichkeit, dass morgen die Sonne scheint, gegeben dass es heute regnet. 2

13 Beispiel: Markov Modelle Markov Modelle entsprechen probabilistischen endlichen Automaten Beispiel Inferenzproblem: Wie ist das Wetter übermorgen, gegeben dass es heute regnet? p ( r? Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 3

14 Beispiel: Markov Modelle Berechnung mit Message-Passing Algorithmus 2 3 Zu berechnende achrichten: (, ( 2, ( 3; 3 ( k k ( k, k( k, k ( k : k { i,..., i m} (Knoten nicht beobachtet (, ( : k { i,..., i } (Knoten beobachtet k, k k k k m Initialisierung: ( beob. Knoten: ( 2 p ( p ( 2 ( ( s ( r unbeob. Knoten: 2 ( 3 p( 3 2 ( 2 2{,} s r ( s ( r 3 3 4

15 Beispiel: Markov Modelle Berechnung mit Message-Passing Algorithmus 2 3 achrichten: Initialisierung: ( 3 (, (, ( ; ( p ( 3 r ( 3 ( 3 Z Z 0.22 Z 0.22 Z p ( s r p ( r r

16 Inferenz in Allgemeinen Graphen Bisher nur Spezialfall: Inferenz auf linearer Kette Die Grundidee des Message-Passing funktioniert auch auf allgemeineren Graphen Erweiterung: Eakte Inferenz auf Polytrees Polytree: Gerichteter Graph, in dem es zwischen zwei Knoten immer genau einen ungerichteten t Pfad gibt Etwas allgemeiner als gerichteter Baum Gerichteter Baum Polytree 6

17 Inferenz in Allgemeinen Graphen Grundidee Message-Passing auf Polytrees: Umwandlung in Faktor-Graph (ungerichteter Baum Ursprünglicher Graph 4 5 Gemeinsame Verteilung p (, 2, 3, 4, 5 p ( p ( 2 p ( 3, 2 p ( 4 p ( 5 3, Faktor Faktor-Graph Faktor-Knoten - Für jeden Faktor in der gemeinsamen Verteilung gibt es einen Faktor-Knoten - Ungerichtete Kanten von den Faktor-Knoten zu den im Faktor auftauchenden Variablen 7

18 Inferenz in Allgemeinen Graphen (Skizze Blätter a Betrachten Anfragevariable als Wurzel des Baumes achrichten von den Blättern zur Wurzel schicken (immer eindeutiger Pfad, weil Baum a a Spezialfall lineare Kette Es gibt zwei Typen von achrichten: Faktor-achrichten und Variablen-achrichten Falls der ursprüngliche Graph ein Polytree war, ist der Faktor- Graph ein ungerichteter Baum (dh zykelfrei. Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 8

19 Inferenz in Allgemeinen Graphen (Skizze Blätter a achrichten werden verschmolzen, dabei müssen wir über mehrere Variablen summieren Grundidee dieselbe wie bei Inferenz auf der linearen Kette: geschicktes Aussummieren Laufzeit abhängig von Graphstruktur, r eponentiell im worstcase Details im Bishop-Tetbuch ( Sum-Product Algorithmus a Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 9

20 Inferenz in Allgemeinen Graphen Inferenz in Graphen, die keine Polytrees sind? Approimativer Ansatz: Iteratives Message-Passing Schema, wegen Zyklen im Graph nicht eakt p( p( p( p( p(, Alternative für eakte Inferenz in allgemeinen Graphen: Loopy Belief Propagation Graph in einen äquivalenten azyklischen Graphen umwandeln Junction Tree Algorithmus, (i.a. eponentielle Laufzeit 20

21 Überblick Gerichtete Graphische Modelle: Bayessche etze Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen Eakte Inferenz: Message-Passing Approimative Inferenz: Sampling 2

22 Approimative Inferenz Eakte Inferenz P-hart: In der Prais spielen approimative Inferenzverfahren wichtige Rolle Wir betrachten Sampling-basierte Verfahren Relativ einfach zu verstehen/implementieren Anytime-Algorithmen (je länger die Laufzeit, desto genauer Sa awade/la ndwehr/sc cheffer, Maschinelles Lernen II 22

23 Inferenz: Sampling-basiert Grundidee Sampling: p( z Wir interessieren uns für eine Verteilung, ist eine Menge von Zufallsvariablen (z.b. bedingte Verteilung über Anfragevariablen in graphischem h Modell Es ist schwierig, p( z direkt auszurechnen Stattdessen ziehen wir Samples Samples (Stichproben z ~ p( z i.i.d., k,..., K, z ( k jedes Sample ist eine vollständige Belegung der Zufallsvariablen in z ( (2 ( K Die Samples z, z,..., z approimieren die Verteilung p( z z Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 23

24 Inferenz: Sampling-basiert Beispiel: Anteil Samples mit Wert z Eindimensionale Verteilung, z {} z Diskrete Variable mit Zuständen {0,,6}: Anzahl Kopf bei 6 Münzwürfen Sample-Histogramm z K Echte Verteilung (Binomial 24

25 Sampling-Inferenz für Graphische Modelle Gegeben graphisches Modell, repräsentiert Verteilung durch p (,..., p( pa( i i i Etwas allgemeinere Inferenz-Problemstellung: Menge von Anfragevariablen p( I D? I D {,..., } Menge von Anfragevariablen {,...,, } Menge von Evidenzvariablen Wir betrachten zunächst den Fall ohne Evidenz: } p(? {,..., } {,..., } I I i i m 25

26 Sampling-Inferenz für Graphische Modelle Ziel: Samples aus der Randverteilung p ( p (,..., I ~ p( I k,..., K Es genügt, Samples aus der Gesamtverteilung zu ziehen: ( k ( k ( k ( ( k p I i i m p ( p...,..., ~ (,..., k,..., K (,, Samples aus der Randverteilung p (,..., i erhalten wir i m einfach durch Projektion der Samples auf die Menge {,..., } i i m. ( k ( k (,...,, ~ p (,...,, k,..., K ( Projektion ( (,..., ~ p (,..., k,..., K ( k k I i i i m i m 26

27 Inferenz: Ancestral Sampling Wie ziehen wir Samples ~ p( (? Einfach bei gerichteten graphischen Modellen: e Ancestral Sampling utze Faktorisierung der gemeinsamen Verteilung ~ p( p (,..., n Annahme: n (sonst umbenennen p ( pa ( n n pa( {,..., n } Ziehen entlang der Kanten Ziehen entlang der Kanten

28 Inferenz: Ancestral Sampling ( k Wir ziehen ein Sample (,...,, indem wir ( nacheinander die einzelnen k ziehen ~ p (... ~ p ( pa ( ~ p( pa( Beispiel p ( k i Schon gezogene Werte B ~ ( ~ p( ~ p(, ~ p ( ~ p( ~ p( p (,., n p ( pa ( n 2 A E n R 28

29 Inferenz: Ancestral Sampling Wir ziehen ein Sample (,...,, indem wir nacheinander die einzelnen ziehen ( k ~ p (... ~ p ( pa ( ~ p( pa( P(B= Beispiel 0. i Schon gezogene Werte p ~ ( ~ p( ( k ~ p(, ~ p ( ~ p( ~ p( p (,., B n p ( pa ( n 2 A E n R 29

30 Inferenz: Ancestral Sampling Wir ziehen ein Sample (,...,, indem wir nacheinander die einzelnen ziehen ( k ~ p (... ~ p ( pa ( ~ p( pa( Beispiel P(E= 0.2 i Schon gezogene Werte p ~ ( ~ p( ( k ~ p(, ~ p ( ~ p( ~ p( p (,., B n p ( pa ( n 2 A E n R 30

31 Inferenz: Ancestral Sampling Wir ziehen ein Sample (,...,, indem wir nacheinander die einzelnen ziehen ( k ~ p (... ~ p ( pa ( ~ p( pa( Beispiel i Schon gezogene Werte B E P(A= B,E p ~ ( ~ p( ( k ~ p(, ~ p ( ~ p( ~ p( p (,., B n p ( pa ( n 2 A E n R 3

32 Inferenz: Ancestral Sampling Wir ziehen ein Sample (,...,, indem wir nacheinander die einzelnen ziehen ( k ~ p (... ~ p ( pa ( ~ p( pa( Beispiel i Schon gezogene Werte E P(R= E p ~ ( ~ p( ( k ~ p(, ~ p ( ~ p( ~ p( p (,., B n p ( pa ( n 2 A E n R 32

33 Inferenz: Ancestral Sampling Wir ziehen ein Sample (,...,, indem wir nacheinander die einzelnen ziehen ( k ~ p (... ~ p ( pa ( ~ p( pa( Beispiel i Schon gezogene Werte A P(= A p 0 0. ( k ~ p( 2 2 ~ ( ~ p(, ~ p ( ~ p( ~ p( p (,., B n p ( pa ( n 2 A E n R 33

34 Inferenz: Ancestral Sampling Wir ziehen ein Sample (,...,, indem wir nacheinander die einzelnen ziehen ( k ~ p (... ~ p ( pa ( ~ p( pa( Beispiel i Schon gezogene Werte p ~ ( ~ p( ( k ~ p(, ~ p ( ~ p( ~ p( p (,., n p ( pa ( n (,0,,0, n 34

35 Inferenz: Ancestral Sampling Beispiel für Schätzung der Randverteilungen aus Samples: ( (2 (3 (4 (5 (00 (,0,,0, B E (0,0,0,0,0 (0,,0,, (,,,, 0 (0,,,0, (0,0,0,0,0 Analyse Ancentral Sampling p ( p ( p ( 0.4 +Zi Zieht htdirekt aus der korrekten kt Verteilung + Effizient - Funktioniert nur ohne Evidenz 5 2 A R 35

36 Inferenz: Logic Sampling Wie erhalten wir Samples unter Evidenz? ( k ~ p( p(,...,,..., I I D i i m j j l Beobachtete Variablen Logic Sampling: Ancestral Sampling + Zurückweisung von Samples, die nicht mit der Beobachtung konsistent sind Ancestral Sampling: vollständige Samples (,..., ~ p ( ( ( ( Fallunterscheidung: (,..., (,..., [Sample konsistent mit Beobachtung]: akzeptiere ( k ( k j j j j l l l ( k ( k ( j,..., j ( j,..., j [Sample ìnkonsistent mit Beobachtung]: weise zurück l Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 36

37 Inferenz: Logic Sampling Die im Logic Sampling akzeptierten Samples repräsentieren die bedingte Verteilung gegeben Evidenz: Marginale Samples ( k ~ p( D ( k ~ p ( I wieder durch Projektion auf Anfragevariablen Problem: Oft werden fast alle Samples verworfen I D Wahrscheinlichkeit, Sample zu generieren, das mit D konsistent ist, sinkt meist eponentiell schnell mit Größe von D Entsprechend eponentielle Laufzeit, um ausreichende Menge von Samples zu erhalten In der Prais selten anwendbar D 37

38 Inferenz: MCMC Alternative Strategie zum Erzeugen von Samples: Markov Chain Monte Carlo ( MCMC Idee: Schwierig, direkt Samples aus p( z zu ziehen Alternativstrategie: Konstruiere Folge von Samples (0 ( (2 (3 (4 (5 z z z z z z... zufällig initialisiert ( (0 ( t t z z update z durch mehrfache h probabilistische bili i Update-Schritte Shi Wenn Updates geeignet gewählt, gilt asymptotisch ( T z ~ p( z ungefähr, für sehr grosse T ZV: T-te Variablenbelegung Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 38

39 Markov-Ketten Folge der Zustände bildet Markov-Kette: (0 z z (0 ( (2 (3 (4 (5 z z z z z z... ( t ( z (2 z (0 ( T (0 ( t ( t (3 z heisst "Zustand" der Kette zum Zeitpunkt t p( z,..., z p( z p( z z t Dynamik beschrieben durch Transitionswahrscheinlichkeiten T( z, z p( z z Wahrscheinlichkeit Übergang z z ( t ( t ( t ( t ( t ( t euer Zustand Aktueller Zustand 39

40 Markov-Ketten Verteilung über Folgezustand berechnen aus Verteilung über aktuellem Zustand Folgezustand Aktueller Zustand p ( t ( t ( t ( t ( z p( z z p( z t z T z t ( t ( t ( t ( z, z p( z Stationäre Verteilung Eine Verteilung p ( z * über die Zustände der Kette heisst stationär, falls sie bei einem Schritt der Markov-Kette nicht verändert wird: p ( z T( z, z p ( z ( t ( t ( t ( t * * ( t z 40

41 Markov-Ketten: Stationäre Verteilung Falls die Kette eine stationäre Verteilung erreicht, dh. ( T ( T p( z p* ( z für ein geeignetes T, so bleibt diese ( ( Verteilung erhalten, dh. ( T *( T p z p z für alle. Kette ist konvergiert zur Verteilung p Unter bestimmten Bedingungen g ( Ergodische Ketten konvergiert eine Markov-Kette für t gegen eine eindeutige stationäre Verteilung, diese heisst dann Gleichgewichtsverteilung p * 4

42 Inferenz: MCMC Gegeben Bayessches etz über ZV = {,, }, definiert Verteilung p( Markov Chain Monte Carlo Methoden Konstruiere aus dem Bayesschen etz eine Folge von Samples durch iterative probabilistische Updates (0 ( (2 (3 (4 (5... zufällig initialisiert iti i t ( (0 ( t t update dt ( t jeweils Belegung aller Knoten im etz Ziel: Updates so wählen, dass sich ergodische Markov-Kette mit Gleichgewichtsverteilung i h il p ( ergibt Einfachste Methode: lokales Ziehen einer Variable, gegeben Zustand der anderen Variablen ( Gibbs-Sampling Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 42

43 Inferenz: Gibbs Sampling Gibbs Sampling: Eine Version von MCMC Übergangswahrscheinlichkeiten bestimmt durch wiederholtes lokales Ziehen einer ZV, gegeben den Zustand aller anderen ZV Gegeben alter Zustand (,..., Ziehen des neuen Zustands ' ( ' ' : Beobachtete (alte Werte '~ p(,..., 2 '~ p( ',,..., p ,,..., '~ ( ', ',,... '~ p( ', 2',..., ' 43

44 Inferenz: Gibbs Sampling Einzelner Gibbs-Schritt einfach, bedingte Verteilung über eine Variable gegeben Evidenz auf allen anderen Variablen direkt auszurechnen: Beobachtete (alte Werte Berechnung von p( 2,..., : Für = berechne p p(, 2,..., Für = 0 berechne p p(, 2,..., p p (,..., p/ p 2 Satz: Falls p( n, 2,..., n, n,..., 0 für alle n und alle möglichen Zustände i, so ist die resultierende Markov- Kette ergodisch mit Gleichgewichtsverteilung p(. 44

45 Gibbs-Sampling mit Evidenz Bisher haben wir Inferenz ohne Evidenz betrachtet Wie erhalten wir Samples aus der bedingten Verteilung? ( T Ziel: ~ p( D ungefähr, für sehr grosse Leichte Modifikation der Gibbs-Sampling Methode: Gibbs-Sampling zieht immer eine Variable i neu, gegeben Zustand der anderen Variablen Mit Evidenz: ur die unbeobachteten Variablen werden jeweils neu gezogen, die beobachteten Variablen werden fest auf den beobachteten Wert gesetzt T Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 45

46 Inferenz: Gibbs Sampling Zusammenfassung Gibbs Sampling Algorithmus: (0 zufällige Initialisierung aller ZV, konsistent mit Evidenz D Für t,..., T: Gibbs-u pdate( ( t ( t, ( (2 (3 Die Samples,,... sind asymptotisch verteilt nach p( Gibbs Sampling in vielen praktischen Anwendungen brauchbar Einzelne Update-Schritte effizient Garantierte t Konvergenz (für t Erlaubt, Samples aus p( D zu ziehen, ohne dass Laufzeit eplodiert wenn Evidenzmenge groß (im Gegensatz zu Logic S li IISampling D Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen 46

47 Inferenz: Gibbs Sampling Gibbs-Sampling: Konvergenz Konvergenz der Markov-Kette garantiert für t.,,,... ( (2 (3 ist nur In der Prais: Burn-In Iterationen, bevor Samples ( verwendet werden (verwerfe Samples t für t T Burn in Es gibt auch Konvergenztests, um Anzahl der Burn-In Iterationen zu bestimmen Gibbs-Sampling: Abhängigkeit ( t ( t Einzelne aufeinander folgende Samples, abhängig Lösung: verwende Samples ( t ( t L ( t 2 L ( t 3 L,,,,... Samples dann weitestgehend unabhängig Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 47

48 Inferenz: Zusammenfassung Eakte Inferenz Message-Passing Algorithmen Eakte Inferenz auf Polytrees (mit Junction-Tree Erweiterung auf allgemeinen Graphen Laufzeit abhängig von Graphstruktur, eponentiell im worst-case Approimative Inferenz Sampling-Methoden: Approimation durch Menge von Samples, eakte Ergebnisse für t. Ancestral Sampling: einfach, schnell, keine Evidenz Logic Sampling: mit Evidenz, aber selten praktikabel MCMC/Gibbs-Sampling: Effizientes approimatives Ziehen von Samples unter Evidenz 48

49 Lernen Graphischer Modelle aus Daten? Graphische Modelle im maschinellen Lernen: Problemstellung ist meist Inferenzproblem w MAP Parameterschätzung Bayessche Vorhersage Auch möglich, die Verteilungen eines graphischen Modells aus Daten zu schätzen i p(,..., p( pa( i i p ( i pa ( i parametrisierte Verteilung (z.b. diskrete Tabelle Parameter können aus Daten geschätzt werden n y n y 49

50 Maimum-Likelihood Parameterlernen Parametrisierung mit Parametervektor p (,..., p ( pa (, i i i Beobachtete Daten: Belegungen der Zufallsvariablen,, Daten: i.i.d. Beispiele L {,..., m } B E A R

51 Maimum-Likelihood Parameterlernen Maimum-Likelihood-Ansatz arg ma pl ( * arg ma p(,..., m m j arg ma p( i.i.d. m j arg ma p ( pa (, Faktorisierung GM j i ji ji 5

52 Maimum-Likelihood Parameterlernen Lösung (diskrete Variablen: p ( ji pa ( ji, * Zustand Zustand pa( ji ji C (, pa ( ji ji C ( pa ( ji C (, pa ( Wie oft wurde der gemeinsame Zustand, pa ( beobachtet? ji ji ji ji C( pa( Wie oft wurde der gemeinsame Zustand pa( beobachtet? ji Daten: i.i.d. Beispiele L m {,..., } B E A R ji p ( A 0, * 3 2 p ( A, * 3 52

53 Maimum-Likelihood Parameterlernen Einfache Lösung nur möglich bei vollständig beobachteten Daten Modelle enthalten oft Variablen, die nicht beobachtbar sind Maimum-Likelihood-Schätzung dann mit dem EM Algorithmus ( Epectation-Maimization Maimization Später mehr! Sa awade/la ndwehr/sc cheffer, Maschinelle es Lernen II 53