5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Transkript

1 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene Ansätze von nichtpartitionierenden Verfahren zu kennen und Clusteranlayse mit der Entscheidungsbaumtechnik kombinieren können. Eine Zerlegung einer Datenmenge D = {x 1,..., x n } IR p in seine Clusterstruktur ist definiert als eine Zerlegung von D in k disjunkte Teilmengen D 1,..., D k mit D = D 1... D k D i für i = 1,..., k D i D j = für i, j = 1,..., k, i j Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Bei der Generierung von Entscheidungsbäumen wurde von Datensätzen ausgegangen, die als einen Attributwert eine Klassenzugehörigkeit enthalten. In vielen Anwendungen ist solch eine Klassenzugehörigkeit nicht verfügbar oder zu aufwendig zu bestimmen. Unter Umständen ist noch nicht einmal bekannt, welche Klassen es gibt und wie diese charakterisiert werden könnten. Mit Verfahren der Clusteranalyse lassen sich Klassenzugehörigkeiten aus den gegebenen Daten schätzen. Die Cluster D i sind genau dann eine gute Repräsentation der Clusterstruktur von D, falls alle Datensätze innerhalb der Cluster einen geringen Abstand und alle Datensätze in verschiedenen Clustern einen großen Abstand voneinander haben. Der Abstand soll dabei die Ähnlichkeit zwischen Objekten zum Ausdruck bringen, d.h. kleiner Abstand bedeutet ähnliche Objekte und großer Abstand bedeutet unähnliche Objekte. Abstand bzw. Ähnlichkeit wird durch den Begriff der Metrik formalisiert. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 170

2 Metrik Definition 5.1. Es sei M eine Menge. Eine Funktion d : M IR heißt Metrik gdw. die folgenden Bedingungen erfüllt sind: 1. d(x, y) 0 für alle x, y M. 2. d(x, y) = 0 genau dann, wenn x = y. 3. d(x, y) = d(y, x) für alle x, y M. 4. d(x, z) d(x, y) + d(y, z) für alle x, y, z M. Das Tupel (M, d) heißt metrischer Raum. Sequentielle agglomerative hierarchische nichtüberlappende Verfahren Sequentielle Verfahren der Clusteranalyse ermitteln die Cluster Schritt für Schritt. Agglomerative Verfahren bauen die Clusterstruktur bottom-up auf, d.h. zunächst betrachtet man die Datenmenge D als n Cluster. Durch das Zusammenlegen von ähnlichen Clustern entsteht bottomup eine Hierarchie von Clustern. Je nach maximal erlaubtem Abstand ergeben sich dann unterschiedlich viele Cluster. Die Vorderung D i D j stellt eine Nichtüberlappung der Cluster dar. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Beispiel 5.1. Beispiele für Metriken (Distanzfunktionen): euklidische Norm: d(x, y) = p i=1 (x i y i ) 2 Anzahl verschiedener Attributwerte: d(x, y) = p i=1 δ(x i, y i ) mit Für Mengen X und Y : δ(x i, y i ) = d(x, Y ) = { 0 falls xi = y i 1 sonst X Y X Y X Y Algorithmus 5.1. Sequentielle agglomerative hierarchische nichtüberlappende Clusteranalyse (SAHN) 1. Setze C := {{x 1 },..., {x n }} und k := n. 2. Bestimme C i und C j mit d(c i, C j ) = min 1 r,s k,r s d(c r, C s ) Falls d(c i, C j ) > dmax gehe zu C := (C \ {C i, C j }) (C i C j ) und k := k 1 Falls k = 1 gehe zu 4. Sonst weiter mit Ausgabe von k und C. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 174

3 In dem Algorithmus wird ein Abstandsmaß d(c i, C j ) für Cluster verwendet. Dieses Abstandsmaß wird auf Basis einer Metrik definiert.typischerweise benutzt man: Minimalabstand (Single Linkage): d(c i, C j ) = Maximalabstand (Complete Linkage): d(c i, C j ) = mittlerer Abstand (Average Linkage): min d(x, y) x C i,y C j max d(x, y) x C i,y C j 1 d(c i, C j ) = d(x, y) C i C j x C i,y C j Dendogramm Der Verlauf der Cluster-Verschmelzung kann mit einem sogenannten Dendogramm visualisiert werden. Die Höhe von Verbidungslinien entspricht dem Abstand zwischen Clustern. So ist direkt erkennbar, wieviele Cluster entstehen, wenn man dmax variiert. a c b d e f g e f g a b c d Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Der Parameter dmax legt fest, bis zu welchem Abstand Cluster verschmolzen werden. Schritt 3 bedeutet: Die einzelnen Cluster C i, C j werden aus der Clusterstruktur entfernt und ein neues Cluster mit den Datensätzen aus C i vereinigt mit den Datensätzen aus C j wird in die Clusterstruktur eingefügt. Bei Benutzung des Minimalabstabstandes für die Distanz zwischen Clustern ist der SAHN-Algorithmus identisch mit dem Algorithmus von Kruskal zur Berechnung von Minimalgerüsten. k-means Verfahren Cluster C i können auch durch ihre Zentren v i charakterisiert werden. Die Zuordnung einzelner Datensätze x i zu den k Clustern erfolgt dann mit der Nächste-Nachbar-Regel, d.h. x j gehört zu Cluster C i genau dann, wenn gilt: d(x j, v i ) = min d(x j, v l ) l=1,...,k Als Clusterzentren nimmt man üblicherweise den Schwerpunkt der Datensätze des Clusters: v i := 1 C i x l C i x l Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 178

4 Bestimmt man die Clusterzentren neu, so ergeben sich möglicherweise andere Cluster, da die Zugehörigkeit eines Datensatzes x j zu einem Cluster C i ja über die Clusterzentren definiert ist. Nach der Veränderung der Clusterzentren muß demnach auch eine neue Aufteilung der Datensätze auf Cluster erfolgen. Dies führt wiederum zu neuen Clusterzentren. k-means Algorithmus: Es werden abwechselnd die Cluster und ihre Zentren bestimmt. Bemerkungen: Die Prototypen in Schritt 1 können z.b. k zufällig ausgewählte Datensätze sein. Alternative Abbruchbedingungen für den Algorithmus: In den Iteration t und t + 1 enthalten die Cluster die gleichen Datensätze. Bestimmung eines Maßes für die Änderung an den Clusterzentren. Abbruch, falls dieses Maß einen kritische Grenze unterschreitet. Die Berechnung des Schwerpunktes ist nur in Vektorräumen möglich. Liegt kein Vektorraum vor, müssen die Prototypen v i auf eine andere Weise ermittelt werden. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Algorithmus 5.2. Gegeben Datenmenge D, eine gewünschte Clusteranzahl k, eine maximale Anzahl von Iterationen tmax. 1. Initialisiere Prototypen v 1,..., v k. 2. Ordne die Datensätze x i gemäß der Nächste-Nachbar-Regel den k Zentren zu. So entstehen neue Cluster C 1,..., C k. Der k-means-algorithmus versucht, Abweichungen von den Schwerpunkten der Cluster klein zu halten. Dies entspricht der Minimierung des folgende Maßes: wc(c) = k i=1 x j C i d(x j, v i ) 2 3. t := t + 1. Falls t = tmax gehe zu 4. Berechne die Zentren v i von C i neu. Dies führt häufig zu kreisförmigen (oder elliptischen) Clustern gleicher Größe. Clusterstrukturen können aber auch irregulär sein. 4. Ausgabe der Clusterstruktur und der Zentren v 1,..., v k. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 182

5 5. Clusteranalyse Hopkins-Index Hopkins-Index 5. Clusteranalyse Hopkins-Index Interpretation des Hopkins-Index Eine Clusteranalyse ist natürlich nur dann sinnvoll, wenn die zu analysierenden Datensätze auch wirklich Häufungen enthalten. Um dies festzustellen, eignet sich der Hopkins-Index h. Zur Bestimmung des Hopkins-Index wählt man: ein m << n, zufällig und gleichverteilt m Punkte R = {r 1,..., r m } aus der konvexen Hülle der Datensätze D sowie m Datensätze S = {s 1,..., s m } D. 1. Für h 0.5 sind die Abstände zwischen den Datensätzen aus D etwa so groß wie die Abstände zwischen beliebigen Punkten innerhalb der konvexen Hülle von D. Dies deutet darauf hin, daß S (bzw. D) eine ähnliche Verteilung hat wie die Menge R. Da R zufällig verteilt ist, ist also auch D zufällig verteilt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Clusteranalyse Hopkins-Index Es seien nun: d ri := der Abstand von r i zum nächsten Datensatz in D. d si := der Abstand von s i zum nächsten Nachbarn in D. Der Hopkins-Index h ist dann definiert durch h = m i=1 dp r i m i=1 dp r i + m i=1 dp s i Der Hopkins-Index hängt stark von der Wahl von R und S ab. Daher sollte man die Bestimmung des Hopkins-Index mehrmal durchführen und den Mittelwert der einzelnen Werte nehmen. 5. Clusteranalyse Hopkins-Index 2. Für h 0 sind die Abstände zwischen den Daten aus D relativ groß. Dieser Fall kann auftreten, wenn die Datensätze von D regelmäßig in etwa gleichem Abstand in der konvexen Hülle verteilt sind. Kleine Werte des Hopkins-Index deuten also auf eine regelmäßige Struktur von D hin. Der Wertebereich des Hopkins-Index ist h [0, 1]. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/ Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 186

6 5. Clusteranalyse Hopkins-Index 3. Für h 1 sind die Abstände zwischen den Datensätzen aus D relativ klein. Dies kann durch Cluster verursacht werden, innerhalb derer die Daten relativ dicht liegen. Aus einem hohen Hopkins-Index kann also geschlossen werden, daß D eine ausgeprägte Clusterstruktur besitzt. Wissensbasierte Systeme II FH Bonn-Rhein-Sieg, WS 03/04 187