4.3 Hierarchisches Clustering

Transkript

1 4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings, die die Daten zunehmend feiner aufteilen C 1 = {D} enthält alle Daten in einem Cluster C n = {{x i } : x i œ D} enthält einen Cluster pro Datenpunkt C i Clustering ist in Clustering enthalten, d.h. C i 1 C j œ C i : C l œ C i 1 : C j C l 32

2 Dendrogramm Dendrogramm veranschaulicht Folge von Clusterings C 1 C n

3 Agglomerative vs. divisive Verfahren Verfahren zur hierarchischen Clusteranalyse einteilbar in agglomerative, welche die Daten zunehmend gruppieren, d.h. in jedem Schritt werden zwei Cluster miteinander verschmolzen; sie heißen auch bottom up -Verfahren, da Dendrogramm von unten nach oben aufgebaut wird divisive, welche die Daten zunehmend aufteilen, d.h. in jedem Schritt wird ein Cluster in zwei aufgeteilt; sie heißen auch top down -Verfahren, da Dendrogramm von oben nach unten aufgebaut wird 34

4 Hierarchisches agglomeratives Clustering (HAC) Agglomerative Verfahren beginnen mit jedem Datenpunkt in einem eigenen Cluster und verschmelzen in jedem Schritt zwei Cluster miteinander Es werden die beiden Cluster verschmolzen, die am nächsten zueinander sind, d.h. man benötigt ein Distanzmaß für Cluster 35

5 Cluster-Distanzmaße Distanzmaße für Cluster lassen sich aus den Distanzen der darin enthaltenen Datenpunkte ableiten Single-Link (C i,c j )=min{d(x, y) x œ C i, y œ C j } Complete-Link (C i,c j ) = max{d(x, y) x œ C i, y œ C j } Average-Link (C i,c j )= 1 C i C j ÿ xœc i ÿ yœc j d(x, y) 36

6 Hierarchisches agglomeratives Clustering (HAC) 1 // Beginne mit jedem Datenpunkt in eigenem Cluster 2 C n = {{x i } : x i œ D}; 3 4 for( int t = n; t > 1; t--) { 5 // Bestimme Paar der nä chsten Cluster 6 Ci ú,cú j = arg min (C i,c j ); C i,c j œc t : C i =C j 7 8 // Verschmelze die beiden Cluster 9 C t 1 =! C t \ ) C ú i,cú j *" fi ) C ú i fi C ú j * ; 10 } 37

7 Beispiel HAC Betrachte die folgenden Datenpunkte im R 2 x 1 =(1, 0) x 2 =(2, 1) x 3 =(8, 0) x 4 = (12, 1) x 5 = (15, 1) d = S T W X U V 0.00 mit Distanzmatrix d 38

8 Beispiel HAC HAC mit Single-Link basierend auf Distanzmatrix d C 1 = {{x 1, x 2, x 3, x 4, x 5 }} C 2 = {{x 1, x 2 }, {x 3, x 4, x 5 }} C 3 = {{x 1, x 2 }, {x 3 }, {x 4, x 5 }} C 4 = {{x 1, x 2 }, {x 3 }, {x 4 }, {x 5 }} C 5 = {{x 1 }, {x 2 }, {x 3 }, {x 4 }, {x 5 }} d = S T W X U V

9 Beispiel HAC HAC mit Complete-Link basierend auf Distanzmatrix d C 1 = {{x 1, x 2, x 3, x 4, x 5 }} C 2 = {{x 1, x 2, x 3 }, {x 4, x 5 }} C 3 = {{x 1, x 2 }, {x 3 }, {x 4, x 5 }} C 4 = {{x 1, x 2 }, {x 3 }, {x 4 }, {x 5 }} C 5 = {{x 1 }, {x 2 }, {x 3 }, {x 4 }, {x 5 }} d = S T W X U V

10 HAC in Python import numpy as np import pandas as pd from sklearn.preprocessing import MinMaxScaler from scipy.cluster.hierarchy import linkage from scipy.cluster.hierarchy import dendrogram import matplotlib.pyplot as plt # Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Leistung, Verbrauch und Herkunft extrahieren X = cars.iloc[:, [3,4]].values # Herkunft extrahieren y = cars.iloc[:, 7].values # Daten normalisieren min_max_scaler = MinMaxScaler() min_max_scaler.fit(x) X_normalized = min_max_scaler.transform(x) # Bezeichnungen der Autos extrahieren labels = cars.iloc[:,8].values 41

11 HAC in Python # Hierarchisches agglomeraties Clustering mit Complete-Linkage clusters = linkage(x_normalized, method='complete', metric='euclidean') # Dendrogramm ausgeben dendrogram = dendrogram(clusters, labels=labels) plt.tight_layout() plt.ylabel('euclidean distance') plt.show() Vollständiges Jupyter-Notebook unter:

12 HAC in Python 43

13 Hierarchisches divisives Clustering (HDC) Divisive Verfahren beginnen mit allen Datenpunkten in einem einzelnen Cluster und teilen in jedem Schritt einen Cluster in zwei Cluster auf Welcher Cluster soll aufgeteilt werden? Wie verteilt man die Datenpunkte darin auf zwei Cluster? Auswahl z.b. des Clusters mit dem größten Durchmesser diam(c i ) = max{d(x, y) x œ C i, y œ C i } 44

14 Hierarchisches divisives Clustering (HDC) Aufteilung der Datenpunkte im ausgewählten Cluster C i wähle Datenpunkt x mit größter Distanz q yœc i d(x, y) zu den anderen Datenpunkten im Cluster Datenpunkte werden in zwei Cluster und aufgeteilt initialisiere C j = {x} und C j C l = C i \{x} betrachte jeden Datenpunkt y in, falls 1 C j C l ÿ d(y, z) < 1 ÿ d(y, z) C l zœc j zœc l C l verschiebe den Datenpunkt nach C j 45

15 Hierarchisches divisives Clustering (HDC) Alternativ kann k-means als Komponente in einem hierarchischen divisiven Verfahren dienen teile Cluster durch Anwendung von k-means (k=2) auf fahre rekursiv mit den entstandenen Clustern fort 46

16 4.4 Dichtebasiertes Clustering Verfahren zur Clusteranalyse mit Repräsentanten (z.b. k-means) finden nur konvexe Cluster; zudem wird jeder Datenpunkt eingeordnet Dichtebasierte Verfahren identifizieren Punktmengen, die zusammenhängen und eine durchgängig hohe Dichte haben, als Cluster Density-Based Spatial Clustering of Applications with Noise (DBSCAN) Quelle: Zaki and Meira [4] 47

17 DBSCAN Epsilon-Nachbarschaft eines Datenpunktes x N (x) ={y d(x, y) Æ } beinhaltet alle Punkte mit Distanz kleiner gleich ε Datenpunkt heißt Kern (core), wenn es mindestens minpts Punkte in seiner Epsilon-Nachbarschaft gibt Datenpunkt heißt Grenze (border), wenn er kein Kern ist, aber in der Epsilon-Nachbarschaft eines Kerns liegt Sonstige Datenpunkte sind Rauschen (noise) 48

18 Kern, Grenze und Rauschen minpts =6 Quelle: Zaki and Meira [4] Datenpunkt x ist ein Kern Datenpunkt y ist eine Grenze Datenpunkt z ist Rauschen 49

19 Erreichbarkeit Ein Datenpunkt x ist direkt erreichbar von y, wenn y ein Kern ist und x œ N (y) gilt Ein Datenpunkt x ist erreichbar von y, wenn es eine Folge von Datenpunkten x 0,...,x l gibt, so dass x 0 = x und x l = y gilt und für alle 1 Æ i Æ l x i direkt erreichbar von x i 1 ist Erreichbarkeit ist nicht symmetrisch, da y ein Kern sein muss, aber x kein Kern sein könnte 50

20 Verbundenheit und Dichtebasierter Cluster Zwei Datenpunkte x und y heißen verbunden, wenn es einen Kern z gibt, so dass sowohl x als auch y von z erreichbar sind Dichtebasierter Cluster ist eine maximale Menge von verbundenen Datenpunkten, d.h. es können gibt keine weiteren Punkte, die hinzugefügt werden können 51

21 DBSCAN Idee: Berechne Epsilon-Nachbarschaft für alle Datenpunkte Bestimme alle Kerne Bestimme Rauschen Lasse von jedem Kern, der noch nicht Teil eines Clusters ist, einen neuen Cluster wachsen Achtung: Wenn Datenpunkte nur Teil eines Clusters sein können, dann ist DBSCAN nicht deterministisch, da die Zuweisung von Datenpunkten zu Clustern von der Reihenfolge deren Betrachtung abhängt 52

22 DBSCAN 1 dbscan(d,, minpts) { 2 // Kerne 3 Cores = ÿ; 4 5 for(x œ D) { 6 // Epsilon - Nachbarschaft berechnen 7 N (x) = computeneighborhood(x, ); 1 densityconnected(x, k) { 2 for(y œ N (x)) { 3 id(y) =k; 4 if (y œ Cores) densityconnected(y, k); 5 } 6 } 8 9 // Cluster -ID des Knotens initialisieren 10 id(x) =ÿ; // Ist der Datenpunkt ein Kern? 13 if (N (x) Ø minpts) Cores = Cores fi {x}; 14 } // Cluster von jedem Kern aus wachsen lassen 17 k =0; 18 for(x œ Cores) { 19 k++; 20 id(x) = k; 21 densityconnected(x,k); 22 } // Clustering, Grenze und Rauschen bestimmen 25 C = ÿ; 26 for(i =1...k) C = C fi {{x œ D : id(x) =k}}; Noise = {x œ D : id(x) =ÿ}; 29 Border = D\{Cores fi Noise}; 30 return C, Cores, Border, Noise; 31 } 53

23 DBSCAN Quelle: Zaki and Meira [4] 54

24 DBSCAN in Python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler from sklearn.cluster import DBSCAN from matplotlib.backends.backend_pdf import PdfPages import matplotlib import matplotlib.pyplot as plt # Autodaten einlesen cars = pd.read_csv('../data/auto-mpg/auto-mpg.data', header=none, sep='\s+') # Leistung, Verbrauch und Herkunft extrahieren X = cars.iloc[:, [3,4]].values # Herkunft extrahieren y = cars.iloc[:, 7].values # Daten normalisieren min_max_scaler = MinMaxScaler() min_max_scaler.fit(x) X_normalized = min_max_scaler.transform(x) # DBScan (epsilon=0.05, minpts=5) anwenden db = DBSCAN(eps=0.05, min_samples=5, metric='euclidean') db.fit_predict(x_normalized) 55

25 DBSCAN in Python # Herkunft # U.S. : o / Europe: x / Japan : + m = ['o' if o==1 else 'x' if o==2 else '+' for o in y] # Verfügbare Farben c = ['red', 'blue', 'green', 'yellow', 'violet'] # Cluster Labels l = db.labels_ # Autos plotten for i in range(0,len(x)): plt.scatter(x[i,0], X[i,1], color=('black' if l[i] == -1 else c[l[i]]), marker=m[i]) plt.xlabel('leistung [hp]') plt.ylabel('gewicht [lbs]') plt.show() Vollständiges Jupyter-Notebook unter:

26 DBSCAN in Python 57

27 Zusammenfassung Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar ist agglomerative Verfahren verschmelzen wiederholt die zueinander nächsten Cluster divisive Verfahren beruhen auf einer wiederholten Aufteilung von Clustern DBSCAN als dichtebasiertes Verfahren zur Clusteranalyse findet auch nicht-konvexe Cluster 58

28 Literatur [1] S. Raschka: Machine Learning in Python, mitp, 2017 (Kapitel 3) [2] M. J. Zaki und W. Meira: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 13 & 14) 59