Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Transkript

1 Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer

2 Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 2

3 Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 3

4 Clusteranalyse: Was ist Clustern? Wir haben Datenpunte Mermalsvetoren Wir wollen Einteilung der Datenpunte in Cluster 4

5 Clusteranalyse: Was ist Clustern? Annahme oft, dass Datenpunte zu verschiedenen Klassen gehören aber wir sehen eine Klassenlabels! icht-überwachtes Lernen: reonstruiere Klassen ohne Labels 5

6 Clusteranalyse: Anwendungen Überblic über eine Doumentenolletion Z.B. Suchmaschine: Suchwort Kohl Liefert grosse Menge von Doumenten Helmut Kohl (Politi) Kohl (Gemüse) Kohl s (US Kaufhaus) Idee: zeige dem utzer die Cluster, um genauere Auswahl des Themas zu ermöglichen 6

7 Clusteranalyse: Anwendungen Spam Kampagnen identifizieren Spam-Kampagne: große Menge ähnlicher (aber nicht gleicher) s Eine Kampagne ist ein deutlicher Cluster ähnlicher s 7

8 Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 8

9 Problemstellung Clustering (Deterministisch) Gegeben Daten mit Anzahl vermuteter Cluster Gesucht Zuweisung der Daten zu Clustern,,K Clusterzentren Oft problematisch (woher wissen wir K?) x z.b. liegt im 3. Cluster 9

10 Problemstellung Clustering (Deterministisch) Gesucht Zuweisung der Daten zu Clustern: Clusterzentren Ziel/Optimierungsriterium K µ,..., µ, =,..., K K Abstand zwischen Punten im selben Cluster lein und Abstand zwischen Punten in verschiedenen Clustern groß Minimiere quadratische Abstand zum Clusterzentrum: K J = r x µ n= = n n Minimieren in r,..., r und µ,..., µ 2 n K 0

11 K-Means Algorithmus Gleichzeitiges Min. über und schwierig Iterativer Algorithmus: Abwechselnde Minimierung Starte mit zufälligen Update Iteriere bis Konvergenz Expectation Maximization Konvergenz sicher, weil J immer sint aber im Allgemeinen nur loales Optimum

12 K-Means Algorithmus Expectation Schritt Einfach: ordne jeden Punt dem ihm nächsten Cluster(zentrum) zu 2

13 K-Means Algorithmus Maximization Schritt Ableitungen ull setzen 3

14 K-Means Algorithmus Maximization Schritt Schwerpunt der Punte, die in den Cluster fallen 4

15 K-Means: Beispiel K = 2 5

22 K-Means: Beispiel K = 2 Kostenfuntion J fällt ontinuierlich Iterationen 22

23 Kommentare K-Means Einfach zu implementieren Relativ schnell: O(K) per Iteration ur loales Optimum garantiert: unterschiedliche Startwerte = unterschiedliche Lösungen Keine Konfidenz für Clusterzugehörigeit Muss Anzahl Cluster vorgeben 23

24 Probabilistisches Clustern besser Clustern sollte Konfidenz liefern: für einige Datenpunte önnen wir eine sichere Entscheidung treffen! Probabilistisches Clustern Beobachtete Daten Clustern Cluster oder 2? Probabilistische Cluster Ursprüngliche Klassen (nicht beobachtet) Sicher Cluster 3! 24

25 Vorgegebene Anzahl von Clustern? Woher wissen wir, wie viele Cluster in Daten? Manchmal lar aus der Anwendungsdomäne Oftmals aber auch unlar Besser wäre es, wenn Anzahl Cluster vom Clustering Algorithmus mit bestimmt wird 25

26 Überblic Problemstellung/Motivation Deterministischer Ansatz: -Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 26

27 Probabilistisches Clustern mit Generativem Modell Idee: Generatives Modell, das die Daten erzeugt haben önnte Modell hat Parametervetor Clusterzugehörigeit: verstecte Variable in diesem Modell Modell Daten Θ= ( π, µ, Σ) Θ= ( π, µ, Σ) 27

28 Probabilistisches Clustern: Gaußsches Mischmodell Ersetze feste Clusterzuweisungen r,..., r durch entsprechende Zufallsvariablen z,..., z Zufallsvariable Clusterzugehörigeit z z z... zk 2 = Generativer Prozess für x n Wähle Clusteromponente z, abhängig von π Generiere Beobachtung x n, abhängig von z, µ, Σ z : x in Cluster = 0 : sonst D z.b. 0 0 z = 0 Komponente 2 Komponente Komponente 3 28

29 Probabilistisches Clustern: Gaußsches Mischmodell Cluster wählen, anschliessend Datenpunt generieren Verteilung über Clusterzugehörigeit z: multinomial K π π,.. πk π i i= Pa ramete r = (., ), = Verteilung über Datenpunte gegeben Cluster: Multivariate ormalverteilungen K z p ( x z) = ( x µ, Σ ) = Parameter: µ =( µ,..., µ ) (Clusterzentren); Σ= ( Σ,..., Σ ) (Kovarianzmatrizen) K Cluster-spezifische Parameter K 29

30 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung der Daten in einem Cluster Clusterzentrum ormalverteilung p( x z = ) = ( x µ, Σ ) Clusterovarianz = exp ( x µ Σ µ Z 2 T ) ( x ) Beispiel D=2: Dichte, Samples aus Verteilung ormalisierer Z = 2π Σ D/2 /2 30

31 Probabilistisches Clustern: Gaußsches Mischmodell Interpretation der Parameter µ, Σ D Parameter µ ist der Mittelpunt des Clusters Kovarianzmatrix Σ M ( DxD ) beschreibt die Form des Clusters, d.h. wie Dichte um den Mittelwert streut 3

32 Beispiel Gaußsches Mischmodell Gesamtmodell: Gaußsches Mischmodell Erzeugt Daten bestehend aus mehreren Clustern Beispiel K = 3, 500 Datenpunte gezogen Clusterzentren Clusterovarianzen Geben an, wie die Punte um das Clusterzentrum streuen 32

33 Probabilistisches Clustern: Gaußsches Mischmodell Wir ziehen Datenpunte aus dem Gaußschen Mischmodell Graphisches Modell, Parameter explizit (Parameter eine ZV) z z2 z3 x x2 µ x 3 π Σ z x Plate-otation Parameter oppeln Beobachtungen 33

34 Clustern mit Gaußschem Mischmodell Modellparameter Θ beschreiben Datenverteilung Relative Größe der Cluster: Lage der Cluster: Form der Cluster: Clustern = Anpassen des Modells an Daten = Parameterlernen 34

35 Clustern mit Gaußschem Mischmodell (Maximum Lielihood) Parameterlernproblem Gegeben: Daten X = { x,..., x } Gesucht: Parameter Θ= ( π, µ, Σ) Optimierungsriterium Lielihood: arg max px ( Θ ) = arg max p( x Θ) (i.i.d) Θ Θ n= = arg max p( x, z Θ) Θ n= = arg max p( z π ) p( x z, µ, Σ) Θ n= n Produt von Summen: schwierig zu optimieren z z n n n n n n n 35

36 Maximum Lielihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten Definiere * Θ = Z = { z,..., z } (Clus terzugehörigeiten) arg max pxz (, Θ) Θ = arg max p( z π ) p( x z, µ, Σ) Θ n= zn = arg max π ( x µ, Σ ) Θ n= = K = arg max z (log( π ) + log( ( x µ, Σ )) Θ n= = K n n n n n n n n z n Produt von Produten: leichter zu optimieren (Log!) 36

37 Maximum Lielihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten * Θ = Lielihood Maximierung ist relativ einfach, wenn wir X und Z ennen (geschlossene Lösung) π = arg max pxz (, Θ) * * µ = znx n= Θ n = z, z {0,} Indiator: x in Cluste r? n n n n= 37

38 Maximum Lielihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten * Θ = arg max pxz (, Θ) Θ Lielihood Maximierung ist relativ einfach, wenn wir X und Z ennen (geschlossene Lösung) Σ = ) ) * * * zn ( xn µ ( x n µ n= = z, z {0,} Indiator: x in Cluste r? n n n n= T 38

39 EM Algorithmus Problem: Z nicht beobachtet! Wir müssen schwieriges Problem lösen: * Θ = Θ px Θ = Θ pzn xn Θ n= z arg max ( ) arg max (, ) Lösung mit dem EM-Algorithmus ( Expectation- Maximization ) n 39

40 EM Algorithmus Iteratives Verfahren: bestimme Betrachte Q-Funtion Beginne mit zufälligem. Iteriere: Expectation: Maximization: Theorem (Konvergenz): Θ Allerdings nur loales Maximum Θ, Θ, Θ, Parameterwert im letzten Schritt 40

41 EM für Gaußsches Mischmodell Q-Funtion für Gaußsches Mischmodell [ ] Q( ΘΘ, ) = log pxz (, Θ) X, Θ t Z = pz ( X, Θ )log px (, Z Θ) Z = pz ( X, Θ ) z (log π + log ( x µ, Σ )) t n n Z n= = K = pz ( X, Θ ) z (log π + log ( x µ, Σ )) n= = Z K n= = t K [ ] t t n n = z X, Θ (log π + log ( x µ, Σ )) n t n (Def. Erwartungswert) 4

42 EM für Gaußsches Mischmodell Q-Funtion = Lielihood der vollständigen Daten, wobei Indiatoren ersetzt sind durch ihre Erwartungswerte K log pxz (, Θ ) = z (log( π ) + log( ( x µ, Σ )) K n= = n n Q( ΘΘ, ) = [ z X, Θ ](log( π ) + log( ( x µ, Σ) ) t n t n n= = "Responsibilities" 42

43 EM für Gaußsches Mischmodell Expectation Schritt: Berechnung der Responsibilities γ ( z ): = [ z X, Θ ] = pz ( = x, Θ ) n n t n n t = = = = pz ( n =, xn Θt ) p( x Θ ) K pz ( =, x Θ ) j= K n n n t t pz ( =, x Θ ) nj n t p( z = Θ ) p( x z =, Θ ) j= j= n t n n t pz ( = Θ ) p( x z =, Θ ) nj t n nj t π ( x µ, Σ ) K n π ( x µ, Σ ) j n j j 43

44 EM für Gaußsches Mischmodell Maximization Schritt: maximiere in Ergebnis: π = µ = γ( zn ) x = γ ( zn ), n= n= n= [ ] Q( ΘΘ, ) = log pxz (, Θ) X, Θ Σ = γ ( zn )( xn µ )( x ) n µ n t Θ= ( π, µ, Σ) Erwarteter Anteil von Punten in Cluster Gewichteter Mittelwert für Cluster T Erwartete Anzahl von Punten in Cluster t Gewichtete Kovarianz für Cluster 44

45 Zusammenfassung EM EM Zusammenfassung: Starte mit zufälligen Expectation: berechne Responsibilities Maximization: Wiederholen bis Konvergenz weiche Clusterzugehörigeiten Berechnung der neuen Parameter gegeben weiche Clusterzugehörigeiten Gaußsches Mischmodell + EM Weicher K-Means 45

46 Vergleich mit K-Means (formal) Gaußsches Mischmodell mit festen Clusterovarianzen Expectation: Maximization: Für ε 0 harte Berechnung der neuen Clusterzentren Im Grenzfall ε 0 wird Gaußsches Mischmodell zu K- Means 46

47 Beispiel Gaußsches Mischmodell Clustering 47

52 Überblic Problemstellung/Motivation Deterministischer Ansatz: -Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 52

53 Problem I: Singularitäten EM maximiert Lielihood Problem: Singularität für Lielihood wird unendlich für! Overfitting : Modell zu sehr an Daten angepasst In der Praxis: Während EM diesen Fall detetieren und entsprechende Clusteromponente neu initialisieren 53

54 Problem II: Wie bestimmt man Anzahl der Cluster? Maximum Lielihood Schätzung Je mehr Komponenten wir zulassen, desto größer wird (bis Anzahl Komponenten = ) Modell mit Clustern nutzlos! Lielihood ann nicht über Anzahl Cluster entscheiden Ebenfalls Overfitting Phänomen 54

55 Disussion Gaußsches Mischmodell Probabilistisches Verfahren Singularitäten Anzahl Cluster muss vorgegeben werden Problem ist der Maximum Lielihood Ansatz ML Ansatz erlaubt, Parameter zu sehr an den Datensatz anzupassen (Overfitting) Lösung: Regularisierung durch Prior 55

56 Prior Verteilungen für Gaußsches Mischmodell Gaußsches Mischmodell ann durch Prior Verteilungen erweitert werden ZV Prior-Verteilung Erwartung für Parameterwerte (degenerative Fälle unwahrscheinlich) Gesamtverteilung Σ p( π, µ, ) = p( π ) p( µ Σ) p( Σ) 56

57 Prior Verteilungen für Gaußsches Mischmodell Prior auf Mischgewichten: Dirichlet Verteilung Hyperparameter ormalisierer Beispiel K = 2 Konjugierter Prior: Günstig für Bayessche Inferenz (Posterior hat dieselbe Form wie Prior) 57

58 Prior Verteilungen für Gaußsches Mischmodell Gesucht: ur vereinfachter Fall: univariate Gaußverteilung Konjugierter Prior: ormal Gamma Verteilung Hyperparameter, die Form der Verteilung bestimmen ormal-gamma Verteilung mit 58

59 MAP Lösung Gaußsches Mischmodell Maximum a posteriori Parameterschätzung: Anpassung des EM Algorithmus: maximiere Entsprechende Änderung im M-Schritt notwendig (eine Details) 59

60 Vorteile von Prior Verteilung Löst das Problem der Singularitäten Prior verhindert den Fall 60

61 Bayessche Lösung MAP Bayes Wenn Hauptinteresse Clusterzugehörigeit ist, wollen wir eigentlich die Bayessche Lösung Maximum a posteriori Lösung ann als (grobe) Approximation an Bayes-Lösung verstanden werden Algorithmen für die Bayessche Lösung: Variational Inference, Sampling (eine Details) 6

62 Vorteile von Prior Verteilung Löst das Problem, dass wir Anzahl Cluster vorgeben müssen In der endgültig gefundenen Lösung sind die Responsibilities für einige Komponenten oft ull Grund (anschaulich): Wenn eine Komponente eine Daten erlärt, ann die a-posteriori Verteilung der Parameter auf die Prior-Verteilung gesetzt werden Details im Bishop-Textbuch Automatischer Trade-off zwischen begrenzter Modellomplexität und Anpassung an Daten 62

63 Zusammenfassung Clusterproblem Deterministischer Ansatz: K-Means Schnell, einfach, nicht probabilistisch Probabilistischer Ansatz mit Gaußschem Mischmodell Allgemeiner + eleganter als K-Means Training mit EM Algorithmus Verstecte Variable (Clusterzugehörigeit) Konstruiere Modell, das die Daten erzeugt haben önnte Prior-Verteilungen auf Parametern um Overfitting zu vermeiden 63

64 Acnowledgements Folien (insb. Grafien) basierend auf C. Bishop, Pattern Recognition and Machine Learning, Kapitel 9/0 64

65 EM für Gaußsches Mischmodell MAP-Schätzung Maximization Schritt: maximiere in Ergebnis: Erwarteter Anteil von Punten in Cluster ML-Schätzung: Prior: MAP-Schätzung: π = Θ= ( π, µ, Σ) ( ΘΘ, ) = ( ΘΘ, ) + log ( Θ), p( Θ) p( π,, π ) p( µ Σ ) p( Σ ) t t p p π = K = = K α, = = (, ) C(,, ) µ µ α α π + α K = + α K 65

66 EM für Gaußsches Mischmodell MAP-Schätzung Maximization Schritt: maximiere in Ergebnis: Gewichteter Mittelwert für Cluster ML-Schätzung: Prior: MAP-Schätzung: Θ= ( π, µ, Σ) ( ΘΘ, ) = ( ΘΘ, ) + log ( Θ), p( Θ) p( π,, π ) p( µ Σ ) p( Σ ) t t p ( ) = (, ) p µ σ µ µ βσ K = = µ = γ( zn ) x n= µ = γ( z ) n xn β µ 0 β + n= n + 66

67 EM für Gaußsches Mischmodell MAP-Schätzung Maximization Schritt: maximiere in Ergebnis: Gewichtete Kovarianz für Cluster ML-Schätzung: Prior: MAP-Schätzung: Θ= ( π, µ, Σ) ( ΘΘ, ) = ( ΘΘ, ) + log ( Θ), p( Θ) p( π,, π ) p( µ Σ ) p( Σ ) t t p ( ) = (, ) p µ σ µ µ βσ σ 2 K = = = γ ( zn )( xn µ )( x ) n µ n= σ µ µ 2 2 = ( )( ) γ zn xn µ + n= 2 + a β 2 2 ( σ0 ) = ( σ, ) p Gam ab ( ) b T 67