4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17
Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 2 / 17
Idee der Clusteranalyse Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 3 / 17
Idee der Clusteranalyse Problemstellung Einteilung einer Menge von n Individuen {a 1,..., a n } in Teilmengen, sogenannte Cluster! Die Einteilung soll so erfolgen, dass sich die Individuen innerhalb eines Clusters möglichst ähnlich sind (Homogenität innerhalb der Cluster) sich die Cluster untereinander möglichst unterscheiden (Heterogenität über die Cluster hinweg) Beachte: Die Klassen/Gruppen sind vorab nicht bekannt und werden gesucht! (im Gegensatz zur Diskriminanzanalyse) 4 / 17
Idee der Clusteranalyse Datensituation Gegeben sind n Individuen mit zugehörigen Merkmalsvektoren x i, i = 1,..., n C = {C 1,..., C k } sei eine Partition der Individuen in k Cluster Gesucht ist eine disjunkte Zerlegung {C 1,..., C k } mit folgenden Eigenschaften: k a) C i = {a 1,..., a n } i=1 b) C i C j = i j 5 / 17
Distanzmaße Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 6 / 17
Distanzmaße Distanz zwischen den Individuen Für Distanzmaße d : Ω x Ω R postuliert man: d(a i, a j ) = d(a j, a i ) d(a i, a i ) = 0 d(a i, a j ) 0 i, j d(a i, a j ) d(a i, a r ) + d(a r, a j ) (Dreiecksungleichung) Typische Distanzmaße: p d q (x i, x j ) = q l=1 (x il x jl ) q (L q -Metrik) p d 2 (x i, x j ) = l=1 (x il x jl ) 2 (euklidische Distanz) d 1 (x i, x j ) = p l=1 x il x jl (Manhattan-Metrik) 7 / 17
Hierarchische Klassifikationsverfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 8 / 17
Hierarchische Klassifikationsverfahren Grundstruktur Konstruktion einer Hierarchie von Partitionen C = {C 1,..., C k }. Die Anzahl der Cluster variiert dabei von 1 bis zur Anzahl der Individuen! Agglomerative Verfahren: zu Beginn bildet jedes Individuum einen eigenen Cluster Divisive Verfahren: zu Beginn ein großer Cluster, der alle Individuen enthält Merke: Die Hierarchie enthält das Klassifikationsergebnis für jede mögliche Anzahl an Clustern (beliebig wählbar) Hierarchischen Klassifikationen erfordern Definition der Distanz zwischen Individuen (vgl. Metriken Folie 7) Distanz zwischen Clustern Linkage 9 / 17
Hierarchische Klassifikationsverfahren Linkage-Methoden C r, C s : Cluster Single Linkage: D(C r, C s ) = Complete Linkage: D(C r, C s ) = Average Linkage: D(C r, C s ) = 1 min a i C r,a j C s d(a i, a j ) max d(a i, a j ) a i C r,a j C s C r C s Zentroid-Verfahren: D(C r, C s ) = x r x s 2 a i C r,a j C s d(a i, a j ) Cr Cs Ward: D(C r, C s ) = C r + C x s r x s 2, x r, x s : Mittelwert der Individuen in Cluster C r, C s 10 / 17
Hierarchische Klassifikationsverfahren Agglomerative Verfahren Algorithmus: 1 Start: Feinste Partition: Jedes Individuum bildet einen eigenen Cluster: C = {{a 1 },..., {a n }} 2 Vereinige im ν-ten Schritt zwei Cluster C r, C s mit dem kleinsten Abstand und berechne den Homogenitätsindex: h ν = min r s D(C r, C s ). 3 Wiederhole 2. bis ein großer Cluster entsteht, der alle Individuen enthält: C = {a 1,..., a n } Die Distanzen der Individuen werden durch die festgelegte Metrik, die Distanzen der Cluster durch die festgelegte Linkage-Methode bestimmt! 11 / 17
Hierarchische Klassifikationsverfahren Divisive Verfahren Algorithmus: 1 Start: Gröbste Partition: Ein großer Cluster, der alle Individuen enthält: C = {a 1,..., a n }. 2 Sukzessive Unterteilung der Partition bis die feinste Partition entsteht: C = {{a 1 },..., {a n }} Beachte: 2 n 1 Möglichkeiten zu splitten Für großes n ist agglomerativ einfacher! 12 / 17
Hierarchische Klassifikationsverfahren Dendrogramm Graphische Darstellung einer hierarchischen Clusterung y Achse: Homogenitätsmaß h je kleiner h, desto homogener ist der Cluster! Sukzessives Zusammenfassen bzw. sukzessive Aufteilung im Plot erkennbar. 13 / 17
Nichthierarchische Verfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 14 / 17
Nichthierarchische Verfahren Grundprinzip Ziel: Finde die Partition C = {C 1,..., C k } bestehend aus k Clustern, die bezüglich eines Gütekriteriums optimal ist! Man betrachtet für jede Partition ein Optimalitätskriterium, das die Heterogenität erfasst: H(C opt ) = min H(C) C Austauschverfahren: 1 Wähle eine zufällige Ausgangspartionen aus k Individuen 2 Prüfe in der Partition C alt, ob die Zuordnung jeweils eines Individuums in einen anderen Cluster, das betrachtete Optimalitätskriterium minimiert. Beachte: Die Anzahl der Cluster k muss vom Anwender fest vorgegeben werden! Je nach gewählter Ausgangspartition, können unterschiedliche Cluster entstehen. 15 / 17
Nichthierarchische Verfahren Optimalitätskriterien 1 Varianzkriterium k H(C) = x i x r 2 r=1 x i C r 2 Determinantenkriterium ˆ= k-means clustering H(C) = W(C) C min 3 Verallgemeinertes Determinantenkriterium H(C) = k r=1 ( ) 1 n r log W(C r ) n r C min Merke: Die Determinante entspricht einer verallgemeinerten Varianzmatrix! 16 / 17
Nichthierarchische Verfahren k-means clustering Vorgehen: 1 Wähle zufällig k Individuen bzw. die zugehörigen Merkmalsvektoren x als Clusterschwerpunkte Z r, r = 1,..., k. Die Clusteranzahl k ist fest! 2 Ordne jedes Individuum dem Clusterzentrum zu, zu dem die geringste Distanz d r, r = 1,..., k besteht. 3 Berechne neue Clusterschwerpunkte Z r, r = 1,..., k als Mittelwertsvektoren der Merkmalsvektoren der Individuen im Cluster! 4 Wiederhole 2. und 3. bis zur Konvergenz. 17 / 17