Clusteranalyse: Gauß sche Mischmodelle

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr

2 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 2

3 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 3

4 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster 4

5 Clusteranalyse: Anwendungen Überblick über eine Dokumentenkollektion Z.B. Suchmaschine: Suchwort Kohl Liefert grosse Menge von Dokumenten Helmut Kohl (Politik) Kohl s (US Kaufhaus) Kohl (Gemüse) Idee: zeige dem utzer die Cluster, um genauere Auswahl des Themas zu ermöglichen 5

6 Clusteranalyse: Anwendungen Spam Kampagnen identifizieren Spam-Kampagne: große Menge ähnlicher (aber nicht gleicher) s Eine Kampagne ist ein deutlicher Cluster ähnlicher s 6

7 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 7

8 Problemstellung Clustering (Deterministisch) Gegeben Daten mit Anzahl vermuteter Cluster Gesucht Zuweisung der Daten zu Clustern 1,,K Clusterzentren Oft problematisch (woher wissen wir K?) x 1 z.b. liegt im 3. Cluster 8

9 Problemstellung Clustering (Deterministisch) Ziel/Optimierungskriterium Punkte in einem Cluster sollen alle ähnlich sein, d.h. geringen Abstand im Merkmalsraum haben Minimiere quadratische Abstand zum Clusterzentrum: K J r x n1 k1 nk Abstand x zu Clusterzentrum n Minimieren in r,..., r und,..., n k 2 1 n 1 K 9

10 K-Means Algorithmus Gleichzeitiges Min. über und schwierig Iterativer Algorithmus: Abwechselnde Minimierung Starte mit zufälligen Update Expectation K Iteriere bis Konvergenz Maximization Konvergenz sicher, weil J immer sinkt aber im Allgemeinen nur lokales Optimum 10

11 K-Means Algorithmus Expectation Schritt Einfach: ordne jeden Punkt dem ihm nächsten Cluster(zentrum) zu 11

12 K-Means Algorithmus Maximization Schritt: Ableitung ull setzen:,..., argmin r x neu neu neu 1 K 1, nk n k..., k n k neu k n n r nk r x nk n Durchschnitt der Punkte, die in den Cluster fallen 2 12

13 K-Means: Beispiel K = 2 13

15 K-Means: Beispiel K = 2 neu k n n r nk r x nk n 15

20 K-Means: Beispiel K = 2 Kostenfunktion J fällt kontinuierlich Iterationen 20

21 Kommentare K-Means J Einfach zu implementieren J Relativ schnell: O(K) per Iteration L ur lokales Optimum garantiert: unterschiedliche Startwerte = unterschiedliche Lösungen L Keine Konfidenz für Clusterzugehörigkeit L Muss Anzahl Cluster vorgeben 21

22 Probabilistisches Clustern besser Clustern sollte Konfidenz liefern: für einige Datenpunkte können wir keine sichere Entscheidung treffen! Probabilistisches Clustern Beobachtete Daten Clustern Probabilistische Cluster Ursprüngliche Klassen (nicht beobachtet) Sicher Cluster 3! Cluster 1 oder 2? 22

23 Überblick Problemstellung/Motivation Deterministischer Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 23

24 Probabilistisches Clustern mit Generativem Modell Idee: Generatives Modell, das die Daten erzeugt haben könnte Modell hat Parametervektor (,, ) Modell (,, ) Generativer Prozess Daten Form der Daten hängt ab von Parametern (,, ) 24

25 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess: Wähle Clusterkomponente k Generiere einen Datenpunkt zu diesem Cluster Zufallsvariablen: Clusterzugehörigkeit z: Kodierung wie bei k-means z1 z2 z... zk z k 1: x in Cluster k 0 :sonst Komponente 2 Komponente 1 Komponente 3 0 z.b. z 0 1 Datenpunkt im 3. Cluster Datenpunkt x 25

26 Probabilistisches Clustern: Gaußsches Mischmodell Clusterkomponente wählen, anschließend Datenpunkt generieren Verteilung über Clusterzugehörigkeit z: multinomial K 1,.. K i i1 Pa ramete r (., ), 1 ur einer der Faktoren ungleich Eins 26

27 Probabilistisches Clustern: Gaußsches Mischmodell Clusterkomponente wählen, anschließend Datenpunkt generieren Verteilung über Datenpunkte gegeben Cluster: Multivariate ormalverteilungen p( x zk 1 ) ( x k, k ) Cluster-spezifische Parameter: K k1 Clusterzentrum, Kovarianzmatrix zk p( x z ) ( x, ) ur einer der Faktoren ungleich Eins k k Parameter: =(,..., ) (Clusterzentren); (,..., ) (Kovarianzmatrizen) 1 K 1 K 27

28 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung der Daten in einem Cluster k Clusterzentrum ormalverteilung p( x z 1) ( x, ) k k k 1 1 exp ( x Z 2 Clusterkovarianz T 1 k ) k ( x k ) Beispiel D=2: Dichte, Samples aus Verteilung ormalisierer Z 2 D/2 1/2 28

29 Probabilistisches Clustern: Gaußsches Mischmodell Interpretation der Parameter, D Parameter ist der Mittelpunkt des Clusters k Kovarianzmatrix k M ( ) DxD beschreibt die Form des Clusters, d.h. wie Dichte um den Mittelwert streut k k 29

30 Beispiel Gaußsches Mischmodell Gesamtmodell: Gaußsches Mischmodell Erzeugt Daten bestehend aus mehreren Clustern Beispiel K = 3, 500 Datenpunkte gezogen Clusterzentren Clusterkovarianzen Geben an, wie die Punkte um das Clusterzentrum streuen 30

31 Probabilistisches Clustern: Gaußsches Mischmodell Wir ziehen Datenpunkte aus dem Gaußschen Mischmodell Graphisches Modell, Parameter explizit (Parameter keine ZV) z1 z2 z3 x1 x2 x 3 z x Plate-otation Parameter koppeln Beobachtungen 31

32 Clustern mit Gaußschem Mischmodell Gauß sches Mischmodell definiert Verteilungen über Datenpunkte (als Überlagerung einzelner Cluster) Form/Lage der Cluster abhängig von Modellparametern Problemstellung in der Praxis: Daten Cluster Anpassen des Modells an Daten = Parameterlernen Inferieren der Clusterzugehörigkeiten gegeben Modell 32

33 Clustern mit Gaußschem Mischmodell (Maximum Likelihood) Parameterlernproblem Gegeben: Daten X { x,..., 1 x } Gesucht: Parameter (,, ) Optimierungskriterium Likelihood: arg max p( X ) arg max p( x ) (i.i.d) n1 arg max p( x, z ) n1 arg max p( z ) p( x z,, ) n1 z n z n n n n n n n Produkt von Summen: schwierig zu optimieren 33

34 Maximum Likelihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten Definiere * Z { z,..., z } (Clus terzugehörigkeiten ) arg max p( X, Z ) arg max p( z ) p( x z,, ) n1 znk arg max ( x, ) n1 k1 K arg max z (log( ) log( ( x, )) 1 n1 k1 K n n n nk k n n n k n k k z nk Produkt von Produkten: leichter zu optimieren (Log!) 34

35 Maximum Likelihood: Vollständige Daten Likelihood Maximierung ist relativ einfach, wenn wir X und Z kennen (geschlossene Lösung) * k k * 1 k znkx k n1 n Anzahl Punkte in Clusterkomponente k 1 )( ) * * * k znk ( xn x k n k k n1 T z, z {0,1} Indikator: x in Cluste r k? k nk nk n n1 35

36 EM Algorithmus Problem: Z nicht beobachtet! Wir müssen schwieriges Problem lösen: * arg max px ( ) Lösung mit dem EM-Algorithmus ( Expectation- Maximization ) 36

37 EM Algorithmus Iteratives Verfahren: bestimme Berechnung von als Argmax der Q-Funktion Beginne mit zufälligem. Iteriere: Expectation: Maximization: Theorem (Konvergenz): t1 1 Allerdings nur lokales Maximum,,, Parameterwert im letzten Schritt 37

38 EM für Gaußsches Mischmodell Q-Funktion für Gaußsches Mischmodell Q(, ) log p( X, Z ) X, t n1 k1 p( Z X, )log p( X, Z ) p( Z X, ) z (log log ( x, )) Z Z Z K K n1 k1 Z t t nk k n k k n1 k 1 p( Z X, ) z (log log z nk K X, t t z X, (log log ( x, )) t nk k (Def. Erwartungswert) ( x nk t k n k k, )) n k k 38

39 EM für Gaußsches Mischmodell Q-Funktion = Likelihood der vollständigen Daten, wobei Indikatoren ersetzt sind durch ihre Erwartungswerte K log p( X, Z ) z (log( ) log( ( x, )) K n1 k1 nk k n k k Q(, ) [ z X, ] (log( ) log( ( x, )) t nk t k n k k n1 k1 "Responsibilities" ( z ) nk 39

40 EM für Gaußsches Mischmodell Expectation Schritt: Berechnung der Responsibilities Inferenz im aktuellen Modell, gegeben X ( z ) : [ z X, ] p( z 1 X, ) nk nk t nk t ( x, ) k n k k K j n j j1 ( x, ) ( ) : Wahrscheinlichkeit, mit der Beispiel n in Cluster k fällt z nk "Weiche" Clusterzugehörigkeit j 40

41 EM für Gaußsches Mischmodell Maximization Schritt: maximiere in Ergebnis: k k 1 k ( znk ) x k n1 n1 Q(, ) log p( X, Z ) X, 1 k ( znk )( xn )( x ) k n k k n t (,, ) Erwarteter Anteil von Punkten in Cluster k Gewichteter Mittelwert für Cluster k T t Gewichtete Kovarianz für Cluster k k ( znk ), n1 Erwartete Anzahl von Punkten in Cluster k 41

42 Zusammenfassung EM EM Zusammenfassung: Starte mit zufälligen Expectation: berechne Responsibilities ( z ) p( z 1 X, ) Maximization: nk nk t Wiederholen bis Konvergenz weiche Clusterzugehörigkeiten Berechnung der neuen Parameter gegeben weiche Clusterzugehörigkeiten Gaußsches Mischmodell + EM Weicher K-Means Weiche Clusterzugehörigkeit, weiche Berechnung Clusterzentren 42

43 Beispiel Gaußsches Mischmodell Clustering 43

48 Überblick Problemstellung/Motivation Deterministischer Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 48

49 Problem: Singularitäten EM maximiert Likelihood Problem des Overfittings Insbesondere: Singularität für Likelihood wird unendlich für! Heuristik: Während EM diesen Fall detektieren und entsprechende Clusterkomponente neu initialisieren Bessere Lösung: Regularisierung durch Prior 49

50 Prior Verteilungen für Gaußsches Mischmodell Gaußsches Mischmodell kann durch Prior Verteilungen erweitert werden ZV Prior-Verteilung Erwartung für Parameterwerte (degenerative Fälle unwahrscheinlich) Gesamtverteilung p(,, ) p( ) p(, ) p( ) p( ) p( ) 50

51 MAP Lösung Gaußsches Mischmodell Maximum a posteriori Parameterschätzung: Anpassung des EM Algorithmus: maximiere Entsprechende Änderung im M-Schritt notwendig (keine Details) 51

52 Vorteile von Prior Verteilung Löst das Problem der Singularitäten Prior verhindert den Fall Für geeignete Wahl der Priorverteilung kann die Anzahl der Clusterkomponenten automatisch bestimmt werden: in der MAP Lösung sind einige ull k 52

53 Zusammenfassung Clusterproblem Deterministischer Ansatz: K-Means Schnell, einfach, nicht probabilistisch Probabilistischer Ansatz mit Gaußschem Mischmodell Allgemeiner + eleganter als K-Means Training mit EM Algorithmus Prior-Verteilungen auf Parametern um Overfitting zu vermeiden 53