Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer

2 Überblick Problemstellung/Motivation Deterministischer i ti Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II 2

3 Überblick Problemstellung/Motivation Deterministischer i ti Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II 3

4 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster Sawade/La andwehr/scheffer: Maschinelles Lernen II 4

5 Clusteranalyse: Was ist Clustern? Annahme oft, dass Datenpunkte zu verschiedenen Klassen gehören aber wir sehen keine Klassenlabels! Nicht-überwachtes Lernen: rekonstruiere Klassen ohne Labels Sawade/La andwehr/scheffer: Maschinel lles Lernen II 5

6 Clusteranalyse: Anwendungen Überblick über eine Dokumentenkollektion Z.B. Suchmaschine: Suchwort Kohl Liefert grosse Menge von Dokumenten Helmut Kohl (Politik) Kohl s (US Kaufhaus) Kohl (Gemüse) Idee: zeige dem Nutzer die Cluster, um genauere Auswahl des Themas zu ermöglichen Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 6

7 Clusteranalyse: Anwendungen Spam Kampagnen identifizieren Spam-Kampagne: große Menge ähnlicher (aber nicht gleicher) s Eine Kampagne ist ein deutlicher Cluster ähnlicher s Sawade/La andwehr/scheffer: Maschinelles Lerne n II 7

8 Überblick Problemstellung/Motivation Deterministischer i ti Ansatz: K-Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II 8

9 Problemstellung Clustering (Deterministisch) i ti Gegeben Daten mit Anzahl vermuteter Cluster Gesucht Zuweisung der Daten zu Clustern 1,,K Clusterzentren Oft problematisch (woher wissen wir K?) z.b. Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 9

10 Problemstellung Clustering (Deterministisch) i ti Gesucht Zuweisung der Daten zu Clustern: Clusterzentren,..., K, 1 k 1,..., Ziel/Optimierungskriterium K Abstand zwischen Punkten im selben Cluster klein und Abstand zwischen Punkten in verschiedenen Clustern groß Minimiere quadratische Abstand zum Clusterzentrum: N K J r x n1 k1 nk n k Minimieren in r,...,, r und,...,, 2 1 n 1 K K Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 10

11 K-Means Algorithmus Gleichzeitiges Min. über und schwierig Iterativer Algorithmus: Abwechselnde Minimierung Starte mit zufälligen Update Expectation Maximization Iteriere bis Konvergenz Konvergenz sicher, weil J immer sinkt aber im Allgemeinen nur lokales Optimum Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 11

12 K-Means Algorithmus Expectation Schritt Einfach: ordne jeden Punkt dem ihm nächsten Cluster(zentrum) zu Sawade/La andwehr/s Scheffer: Maschinelles Lernen II 12

13 Sawade/Landwehr/Scheffer: Maschinelles Lernen II K-Means Algorithmus 13 Maximization Schritt Ableitungen Null setzen

14 K-Means Algorithmus Maximization Schritt Schwerpunkt der Punkte, die in den Cluster fallen Sawade/La andwehr/s Scheffer: Maschinelles Lernen II 14

15 Sawade/Landwehr/Scheffer: Maschinelles Lernen II 15 K-Means: Beispiel K = 2

22 K-Means: Beispiel K = 2 Kostenfunktion J fällt kontinuierlich Iterationen 22 Sawade/La andwehr/scheffer: Maschinelles Lernen II

23 Kommentare K-Means Einfach zu implementieren Relativ schnell: O(NK) per Iteration Nur lokales aes Optimum gaa garantiert: unterschiedliche esc edc e Startwerte = unterschiedliche Lösungen Nicht probabilistisch Muss Anzahl Cluster vorgeben Sawade/La andwehr/s Scheffer: Maschinelles Lernen II 23

24 Probabilistisches Clustern besser Clustern sollte Konfidenz liefern: für einige Datenpunkte können wir keine sichere Entscheidung treffen! Ursprüngliche Klassen Beobachtete Daten (nicht beobachtet) Probabilistische Cluster Clustern Sicher Cluster 3! Cluster 1 oder 2? 24 Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II

25 Vorgegebene Anzahl von Clustern? Woher wissen wir, wie viele Cluster in Daten? Manchmal klar aus der Anwendungsdomäne Oftmals aber auch unklar Besser wäre es, wenn Anzahl Cluster vom Clustering Algorithmus mit bestimmt wird Sawade/La andwehr/scheffer: Maschinelles Lerne n II 25

26 Überblick Problemstellung/Motivation Deterministischer i ti Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II 26

27 Probabilistisches Clustern mit Generativem Modell Idee: Generatives Modell, dass die Daten erzeugt haben könnte Modell hat Parametervektor (,, ) Clusterzugehörigkeit: versteckte Variable in diesem Modell Modell (,, ) Daten Sawade/La andwehr/s Scheffer: Maschinelles Lerne n II 27

28 Probabilistisches Clustern: Gaußsches Mischmodell Ersetze feste Clusterzuweisungen r,..., 1 r N durch entsprechende Zufallsvariablen z z Zufallsvariable Clusterzugehörigkeit z1 z2 z... z K Generativer Prozess für x n Wähle Clusterkomponente z, abhängig von Generiere Beobachtung x n, abhängig von z,, z k 1,..., N 0 1: x in Cluster k 0 z.b. z 2:sonst 1 0 Komponente 2 Komponente 1 Komponente 3 D Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 28

29 Probabilistisches Clustern: Gaußsches Mischmodell Cluster wählen, anschliessend Datenpunkt generieren Verteilung über Clusterzugehörigkeit z: multinomial K 1,.. K i i1 Pa ramete r (., ), 1 Verteilung über Datenpunkte gegeben Cluster: Multivariate Gaussverteilungen K p( x z) zk ( x k, k) k1 Parameter: =(,..., ) (Clusterzentren); (,..., ) (Kovarianzmatrizen) 1 K 1 K 29 Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II

30 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung der Daten in einem Cluster k Clusterzentrum Normalverteilung p( x z 1) ( x, ) k k k Clusterkovarianz Normalisiere i r 1 1 T 1 exp ( x k ) k ( x k ) Z 2 Beispiel D=2: Dichte, Samples aus Verteilung Z 2 D/2 1/2 Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II 30

31 Probabilistisches Clustern: Gaußsches Mischmodell Interpretation der Parameter k, k D Parameter ist der Mittelpunkt des Clusters k Kovarianzmatrix k M ( DxD ) beschreibt die Form des Clusters, d.h. wie Dichte um den Mittelwert streut Sawade/La andwehr/s Scheffer: Maschinelles Lernen II 31

32 Beispiel Gaußsches Mischmodell Gesamtmodell: Gaußsches Mischmodell (mehrere Cluster mit Gaussverteilung) Beispiel K = 3, 500 Datenpunkte gezogen Clusterzentren Clusterkovarianzen Geben an, wie die Punkte um das Clusterzentrum streuen 32 Sawade/La andwehr/scheffer: Maschinel lles Lerne n II

33 Probabilistisches Clustern: Gaußsches Mischmodell Wir ziehen N Datenpunkte aus dem Gaußschen Mischmodell Graphisches Modell, Parameter explizit (Parameter keine ZV) z1 z2 z3 x1 x2 x 3, z N x N Plate-Notation Parameter koppeln Beobachtungen 33 Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II

34 Clustern mit Gaußschem Mischmodell Modellparameter beschreiben Datenverteilung Relative Größe der Cluster: Lage der Cluster: Form der Cluster: Clustern = Anpassen des Modells an Daten = Parameterlernen Sawade/La andwehr/s Scheffer: Maschinelles Lernen II 34

35 Clustern mit Gaußschem Mischmodell (Maximum Likelihood) Parameterlernproblem Gegeben: Daten X { x,..., 1 x } N Gesucht: Parameter (,, ) Optimierungskriterium Likelihood: arg max px ( ) arg max p( xn ) (i.i.d) N n1 N arg max p( x, z ) n1 N z n arg max p ( z ) p ( x z,, ) n1 Produkt von Summen: schwierig zu optimieren z n n n n n n 35 Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II

36 Maximum Likelihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten Definiere Z { z,..., 1 z ) N (Clust erzugehörigkeiten) * arg max pxz (, ) N arg max p( zn ) p( xn zn,, ) n1 N K znk arg max ( x, ) n1 k1 N K k n n n arg max z (log( ) log( ( x, )) n1 k1 nk k n n n z nk Produkt von Produkten: leichter zu optimieren (Log!) Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 36

37 Maximum Likelihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten * arg max pxz (, ) Likelihood Maximierung ist relativ einfach, wenn wir X und Z kennen (geschlossene Lösung) N N z, z {0,1} Indikator: x in Cluste r k? k nk nk n n1 N N * k k * 1 k Nk N z x n1 nk n 37 Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II

38 Maximum Likelihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten * arg max pxz (, ) Likelihood Maximierung ist relativ einfach, wenn wir X und Z kennen (geschlossene Lösung) N N z, z {0,1} Indikator: x in Cluste r k? k nk nk n n1 * N 1 * * k znk ( xn ( x k n k Nk n1 ) ) T Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 38

39 EM Algorithmus Problem: Z nicht beobachtet! Wir müssen schwieriges Problem lösen: N * px pzn xn n1 z arg max ( ) arg max (, ) Lösung mit dem EM-Algorithmus ( Expectation- Maximization ) n Sawade/La andwehr/s Scheffer: Maschinelles Lernen II 39

40 EM Algorithmus Iteratives Verfahren: bestimme,,, Betrachte Q-Funktion Parameterwert Beginne mit zufälligem. Iteriere: Expectation: Maximization: Theorem (Konvergenz): 1 Allerdings nur lokales Maximum im letzten Schritt Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 40

41 EM für Gaußsches Mischmodell Q-Funktion für Gaußsches Mischmodell Q (, log p ( X, Z ) X, t ) Z pz ( X, )log px (, Z ) Z t N K x t (Def. Erwartungswert) pz ( X, ) z (log log (, )) t nk k n k k Z n1 k1 N K pz ( X, ) z (log log ( x, )) n1 k1 Z N K n1 k1 t nk k n k k z X, (log log ( x, )) nk t k n k k Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 41

42 EM für Gaußsches Mischmodell Q-Funktion = Likelihood der vollständigen Daten, wobei Indikatoren ersetzt sind durch ihre Erwartungswerte N K pxz (, ) z (l og( ) log( ( x, )) n1 k1 N K nk k n n n Q(, ) [ z X, ](log( ) log( ( x, n) ) t nk t k n n n1 k1 "Responsibilitie s" Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 42

43 EM für Gaußsches Mischmodell Expectation Schritt: Berechnung der Responsibilities ( z ): [ z X, ] p( z 1 x, ) nk nk t nk n t p ( z 1 ) p( x z 1, ) K j1 nk t n nk t pz ( 1 ) p( x z 1, ) nj t n nj t k ( xn k, k) : K ( x, ) j1 j n j j Bayes Regel Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 43

44 EM für Gaußsches Mischmodell Maximization Schritt: maximiere in (,, ) Ergebnis: Q(, ) log p( X, Z ) X, t t Erwartete Anzahl von Punkten in Cluster k Erwarteter Anteil von Punkten in Cluster k Gewichteter Mittelwert für Cluster k Gewichtete Kovarianz für Cluster k 44 Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II

45 Vergleich mit K-Means EM Zusammenfassung: Starte mit zufälligen Expectation: berechne Responsibilities weiche Clusterzugehörigkeiten Maximization: Berechnung der neuen Parameter gegeben weiche Clusterzugehörigkeiten Wiederholen bis Konvergenz Gaußsches Mischmodell + EM Weicher Weicher K-Means Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 45

46 Vergleich mit K-Means (formal) Gaußsches Mischmodell mit festen Clusterkovarianzen Expectation: Maximization: Für ε 0 harte Berechnung der neuen Clusterzentren Im Grenzfall ε 0 wird Gaußsches Mischmodell zu K- Means Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 46

47 Sawade/Landwehr/Scheffer: Maschinelles Lernen II 47 Beispiel Gaußsches Mischmodell Clustering

52 Überblick Problemstellung/Motivation Deterministischer i ti Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II 52

53 Problem I: Singularitäten EM maximiert Likelihood Problem: Singularität für Likelihood wird unendlich für! Overfitting : Modell zu sehr an Daten angepasst In der Praxis: Während EM diesen Fall detektieren und entsprechende Clusterkomponente neu initialisieren Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 53

54 Problem II: Wie bestimmt man Anzahl der Cluster? Likelihood Funktion Je mehr Komponenten wir zulassen, desto größer wird (bis Anzahl Komponenten = N) Modell mit N Clustern nutzlos! Likelihood kann nicht über Anzahl Cluster entscheiden Ebenfalls Overfitting Phänomen Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 54

55 Diskussion Gaußsches Mischmodell Probabilistisches Verfahren Singularitäten gua Anzahl Cluster muss vorgegeben g werden Problem ist der Maximum Likelihood Ansatz ML Ansatz erlaubt, Parameter zu sehr an den Datensatz anzupassen (Overfitting) Lösung: Regularisierung durch Prior Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 55

56 Prior Verteilungen für Gaußsches Mischmodell Gaußsches Mischmodell kann durch Prior Verteilungen erweitert werden ZV Prior-Verteilung Erwartung für Parameterwerte (degenerative Fälle unwahrscheinlich) Gesamtverteilung Sawade/La andwehr/s Scheffer: Maschinel lles Lernen II 56

57 Prior Verteilungen für Gaußsches Mischmodell Prior auf Mischgewichten: Dirichlet Verteilung Beispiel K = 2 Hyperparameter Normalisierer Konjugierter Prior: Günstig für Bayessche Inferenz (Posterior hat dieselbe Form wie Prior) Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 57

58 Prior Verteilungen für Gaußsches Mischmodell Gesucht: Nur vereinfachter Fall: univariate Gaußverteilung Konjugierter Prior: Normal Gamma Verteilung Normal-Gamma Verteilung mit Hyperparameter, p die Form der Verteilung bestimmen 58 Sawade/La andwehr/s Scheffer: Maschinelles Lerne n II

59 MAP Lösung Gaußsches Mischmodell Maximum a posteriori Parameterschätzung: Anpassung des EM Algorithmus: maximiere Entsprechende Änderung im M-Schritt notwendig (keine Details) Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II 59

60 Vorteile von MAP gegenüber ML Löst das Problem der Singularitäten Prior verhindert den Fall Sawade/La andwehr/scheffer: Maschinelles Lernen II 60

61 Vorteile von MAP gegenüber ML Löst das Problem, dass wir Anzahl Cluster vorgeben müssen Lösungen für Mischgewichte im Modell mit Prior: oft Grund (anschaulich): h) Automatischer Trade-off zwischen begrenzter Modellkomplexität und Anpassung an Daten Sawade/La andwehr/s Scheffer: Maschinelles Lerne n II 61

62 Bayessche Lösung MAP Bayes Wenn Hauptinteresse Clusterzugehörigkeit ist, wollen wir eigentlich die Bayessche Lösung Maximum a posteriori Lösung kann als (grobe) Approximation an Bayes-Lösung verstanden werden Algorithmen für die Bayessche Lösung: Variational Inference, Sampling (keine Details) 62 Sawade/La andwehr/s Scheffer: Maschinelles Lerne n II

63 Zusammenfassung Clusterproblem Deterministischer Ansatz: K-Means Schnell, einfach, nicht probabilistisch Versteckte Variable (Clusterzugehörigkeit) Konstruiere Modell, das die Daten erzeugt haben könnte Probabilistischer Ansatz mit Gaußschem Mischmodell Allgemeiner + eleganter als K-Means Training mit EM Algorithmus Prior-Verteilungen auf Parametern um Overfitting zu vermeiden 63 Sawade/La andwehr/s Scheffer: Maschinel lles Lerne n II

64 Acknowledgements Folien (insb. Grafiken) basierend auf C. Bishop, Pattern Recognition and Machine Learning, Kapitel 9/10 Sawade/La andwehr/scheffer: Maschinelles Lernen II 64