k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

Größe: px

Ab Seite anzeigen:

Download "k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering"

Nadine Vogt
vor 6 Jahren
Abrufe

1 Rückblick k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering Hierarchisches Clustering bestimmt eine Folge von Clusterings, die als Dendrogramm darstellbar ist agglomerative Verfahren verschmelzen wiederholt die zueinander nächsten Cluster divisive Verfahren beruhen auf einer wiederholten Aufteilung von Clustern 35

2 5.4 Dichtebasiertes Clustering Verfahren zur Clusteranalyse mit Repräsentanten (z.b. k-means) finden nur konvexe Cluster; zudem wird jeder Datenpunkt eingeordnet Dichtebasierte Verfahren identifizieren Punktmengen, die zusammenhängen und eine durchgängig hohe Dichte haben, als Cluster Density-Based Spatial Clustering of Applications with Noise (DBSCAN) Quelle: Zaki and Meira [4] 36

3 DBSCAN Epsilon-Nachbarschaft eines Datenpunktes x N (x) ={y d(x, y) Æ } beinhaltet alle Punkte mit Distanz kleiner gleich ε Datenpunkt heißt Kern (core), wenn es mindestens minpts Punkte in seiner Epsilon-Nachbarschaft gibt Datenpunkt heißt Grenze (border), wenn er kein Kern ist, aber in der Epsilon-Nachbarschaft eines Kerns liegt Sonstige Datenpunkte sind Rauschen (noise) 37

4 Kern, Grenze und Rauschen minpts =6 Quelle: Zaki and Meira [4] Datenpunkt x ist ein Kern Datenpunkt y ist eine Grenze Datenpunkt z ist Rauschen 38

5 Erreichbarkeit Ein Datenpunkt x ist direkt erreichbar von y, wenn y ein Kern ist und x œ N (y) gilt Ein Datenpunkt x ist erreichbar von y, wenn es eine Folge von Datenpunkten x 0,...,x l gibt, so dass x 0 = x und x l = y gilt und für alle 1 Æ i Æ l x i direkt erreichbar von x i 1 ist Erreichbarkeit ist nicht symmetrisch, da y ein Kern sein muss, aber x kein Kern sein könnte 39

6 Verbundenheit und Dichtebasierter Cluster Zwei Datenpunkte x und y heißen verbunden, wenn es einen Kern z gibt, so dass sowohl x als auch y von z erreichbar sind Dichtebasierter Cluster ist eine maximale Menge von verbundenen Datenpunkten, d.h. es können gibt keine weiteren Punkte, die hinzugefügt werden können 40

7 DBSCAN Idee: Berechne Epsilon-Nachbarschaft für alle Datenpunkte Bestimme alle Kerne Bestimme Rauschen Lasse von jedem Kern, der noch nicht Teil eines Clusters ist, einen neuen Cluster wachsen Achtung: Wenn Datenpunkte nur Teil eines Clusters sein können, dann ist DBSCAN nicht deterministisch, da die Zuweisung von Datenpunkten zu Clustern von der Reihenfolge deren Betrachtung abhängt 41

8 DBSCAN 1 dbscan(d,, minpts) { 2 // Kerne 3 Cores = ÿ; 4 5 for(x œ D) { 6 // Epsilon - Nachbarschaft berechnen 7 N (x) = computeneighborhood(x, ); 1 densityconnected(x, k) { 2 for(y œ N (x)) { 3 id(y) =k; 4 if (y œ Cores) densityconnected(y, k); 5 } 6 } 8 9 // Cluster -ID des Knotens initialisieren 10 id(x) =ÿ; // Ist der Datenpunkt ein Kern? 13 if (N (x) Ø minpts) Cores = Cores fi {x}; 14 } // Cluster von jedem Kern aus wachsen lassen 17 k =0; 18 for(x œ Cores) { 19 k++; 20 id(x) = k; 21 densityconnected(x,k); 22 } // Clustering, Grenze und Rauschen bestimmen 25 C = ÿ; 26 for(i =1...k) C = C fi {{x œ D : id(x) =k}}; Noise = {x œ D : id(x) =ÿ}; 29 Border = D\{Cores fi Noise}; 30 return C, Cores, Border, Noise; 31 } 42

9 DBSCAN Quelle: Zaki and Meira [4] 43

10 DBSCAN in R 1 # Bibliothek dbscan laden -- zuerst über Paketmanager installieren 2 library(dbscan) 3 4 # Distanzmatrix auf standardisierten Merkmalen der Autodaten 5 d <- dist(scale(autos[c(" Gewicht"," Beschleunigung"," Zylinder", 6 " Hubraum","PS"," Jahr"," Verbrauch" )])) 7 8 # DBSCAN mit Epsilon = 0.5 und minpts = 10 anwenden 9 clustering <- dbscan(d, eps=0.5, minpts=10) # Cluster ausgeben 12 clustering$ cluster # Modellnamen in Cluster 5 ausgeben 15 autos$ Model[clustering$ cluster == 6] # Ausgabe 18 amc gremlin amc hornet amc hornet ford maverick plymouth valiant 44

11 5.5 Validierung Wie lässt sich die Güte eines Clusteranalyse-Verfahrens messen, wenn ideales Clustering (nicht) bekannt ist? externe Gütemaße (ideales Clustering bekannt) interne Gütemaße (ideales Clustering nicht bekannt) Wie robust ist ein Clusteranalyse-Verfahren gegenüber kleinen Veränderungen der Daten (z.b. unterschiedliche Stichproben oder Ausreißer? Wie lassen sich die richtigen Werte für die Parameter der Verfahren (z.b. Anzahl von Clustern k) bestimmen? 45

12 Externe Gütemaße Externe Gütemaße nehmen an, dass Informationen über ein ideales Clustering verfügbar sind, beispielsweise in Form von Klassen (z.b. Themen bei Dokumenten) ideales Clustering T = {T 1,...,T k } berechnetes Clustering C = {C 1,...,C r } Reinheit (purity) bestimmt für einen Cluster inwiefern nur Datenpunkte einer Klasse enthalten sind purity(c i )= 1 C i max T j C i fl T j C i 46

13 Externe Gütemaße Reinheit (purity) eines Clusterings ist dann definiert als das gewichtete Mittel der Reinheitswerte der Cluster purity(c) = ÿ C i C i n purity(c i) Zuweisung von Datenpunkten zu Clustern in T und C können als Zufallsvariablen interpretiert werden und man kann die aus Kapitel 4 bekannten informationstheoretischen Maße bedingte Entropie H(T C) Informationsgewinn I(T, C) =I(C, T ) verwenden, um den Grad ihrer Abhängigkeit zu messen 47

14 Interne Gütemaße Interne Gütemaße kennen kein ideales Clustering; sie vergleichen die Distanzen zwischen Punkten im gleichen Cluster und die Distanzen zwischen Punkten in verschiedenen Clustern BetaCV als Verhältnis der durchschnittliche Distanzen q q 1 C i ( C i 1) d(x, y) C i œc x,yœc i BetaCV (C) = q q d(x, y) xœc i,yœc j C i œc,c j œc,c i =C j 1 C i C j 48

15 Interne Gütemaße Dunn Index betrachtet Verhältnis der minimalen Distanz zwischen Punktpaare in verschiedenen Clustern und der maximalen Distanz solcher im gleichen Cluster DunnIndex(C) = min d(x, y) xœc i,yœc j,c i =C j max d(x, y) xœc i,yœc i Interne Gütemaße können verwendet werden, um einen geeigneten Parameterwert (z.b. für k, ε oder minpts) zu bestimmen 49

16 Robustheit Alternativ kann ein Parameterwert für k mittels Messen der Robustheit des bestimmten Clusterings bestimmt werden Intuition: Bei geeignetem Wert von k soll sich das ermittelte Clustering nur wenig verändern, wenn Daten ein wenig geändert werden ziehe n Stichproben der Daten D i berechne auf jeder Stichprobe Clusterings für k = 2 k max wähle jenes k, für das sich die auf den unterschiedlichen Stichproben bestimmten Clusterings am wenigsten unterscheiden (z.b. laut externem Gütemaß) 50

17 Zusammenfassung DBSCAN als dichtebasiertes Verfahren zur Clusteranalyse findet auch nicht-konvexe Cluster Validierung von Clusterings mittels externer Gütemaße, unter Berücksichtigung eines idealen Clusterings, oder externer Gütemaße Parameter der Verfahren zur Clusteranalyse können mittels Gütemaßen oder durch Messen der Robustheit auf Stichproben bestimmt werden 51

18 Literatur [1] L. Fahrmeir, R. Künstler, I. Pigeot und G. Tutz: Statistik Der Weg zur Datenanalyse, Springer 2012 [2] R. Kabacoff: R In Action, Manning 2015 [3] N. Zumel und J. Mount: Practical Data Science with R, Manning 2014 [4] M. J. Zaki und W. Meira Jr.: Data Mining and Analysis, Cambridge University Press, 2014 (Kapitel 15 & 17) 52

Ähnliche Dokumente

4.3 Hierarchisches Clustering

4.3 Hierarchisches Clustering k-means teilt Daten in disjunkte flache Cluster auf, die in keiner Beziehung zueinander stehen Hierarchische Clusteranalyse erzeugt eine Folge C 1,...,C n von Clusterings,