Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt.

Transkript

1 8 Clusteranalyse Ziel: Unterteilung beobachteter Objekte in homogene Gruppen. Vorab meist weder Anzahl noch Charakteristika der Gruppen bekannt. Anwendungsbeispiele: Mikrobiologie: Ermittlung der Verwandtschaft bei Kleinstlebewesen Medizin: Bestimmung von Patienten mit demselben Krankheitsbild zwecks gezielter Therapie oder Ursachenforschung Marketing: Finden von Absatzregionen mit ähnlichen Merkmalen zwecks gezielter Werbung, Produkttests auf repräsentativen Märkten Schritte einer Clusteranalyse: 1. Messung der Ähnlichkeiten unter Objekten: Berechnung eines Ähnlichkeitsmaßes für jedes Paar von Objekten. 2. Gruppierung der Objekte: Bilden von homogenen Gruppen ähnlicher Objekte, mit großen Unterschieden zwischen den Gruppen (Heterogenität). Beispiel 8.1. Archäologie Relief in der Apadana von Persepolis (Südiran): 24 steinerne persische Bogenschützen mit leichten Unterschieden (Lockung des Barts, Kopfschmuck,...). Fragen: Sind alle Bogenschützen in derselben Zeit entstanden? Stammen sie von einem oder mehreren Bildhauern? Antwort mittels Clusteranalyse. 132

2 Identifikation von 21 Unterschiedsmerkmalen (A - U) zwischen den Schützen. Jedes Merkmal mit nur wenigen Variationen (meist 2 oder 3, bis zu 6). Zur Gruppierung Feststellung der Ähnlichkeiten unter den Bogenschützen. Welche Bogenschützen sind sich am meisten/wenigsten ähnlich? Notwendig: Ähnlichkeitsmaß. Bogen- Merkmal schütze A B C D E F G H I J K L M N O P Q R S T U

3 8.1 Ähnlichkeits- und Distanzmaße Bemerkung 8.2. Wir kehren wieder zur Standard-Notation zurück. p-dimensionales Merkmal X = (X 1,..., X p ) beobachtet an n Objekten. Stichprobe: {x 1,..., x n } mit i-ter Beobachtung x i = (x i,1,..., x i,p ). Darstellung der Stichprobe als Datenmatrix : x 1,1... x 1,p x 1 X =.. =.. x n,1... x n,p x n Die meisten Clusterverfahren teilen x 1,..., x n in k disjunkte, alle Objekte umfassende Gruppen (Cluster) C 1,..., C k ein, so dass C i C j =, i = j, und k C i = {x 1,..., x n }. Jede Beobachtung (Objekt) gehört zu genau einem Cluster. i=1 Definition 8.3. Ähnlichkeitsmaß Gegeben seien n Objekte {x 1,..., x n }. Ein Ähnlichkeitsmaß (similarity measure) s ordnet je zwei Objekten x i, x j einen Ähnlichkeitswert s(x i, x j ) zu. Dabei besitze die Funktion s folgende Eigenschaften: s(x i, x j ) = s(x j, x i ) (Symmetrie) s(x i, x j ) s(x i, x i ). Die symmetrische n n-matrix S = [s(x i, x j )] i,j heißt Ähnlichkeitsmatrix. Häufig fordert man als Normierung s(x i, x j ) [0, 1]. Alternativ: Messung von Unähnlichkeit als Abstand der Objekte: 134

4 Definition 8.4. Distanzmaß Gegeben seien n Objekte {x 1,..., x n }. Ein Distanzmaß d ordnet je zwei Objekten x i, x j einen Abstand d(x i, x j ) zu. Nötige Eigenschaften von d: d(x i, x j ) = d(x j, x i ) (Symmetrie) d(x i, x j ) 0 und d(x i, x i ) = 0. Die symmetrische n n-matrix D = [d(x i, x j )] i,j heißt Distanzmatrix. Gilt zusätzlich d(x i, x j ) d(x i, x l ) + d(x l, x j ) (Dreiecksungleichung), so spricht man von einem metrischen Distanzmaß. Distanzmaße in Ähnlichkeitsmaße umwandeln und umgekehrt: Bemerkung 8.5. Zusammenhang Ähnlichkeitsmaß und Distanzmaß Ist s ein normiertes Ähnlichkeitsmaß mit 0 s(x i, x j ) 1, so ist d mit d(x i, x j ) = 1 s(x i, x j ) ein Distanzmaß. Ist d Distanzmaß mit maximaler Distanz d max = max i,j d(x i, x j ) zwischen zwei Objekten, so ist s mit s(x i, x j ) = 1 d(x i, x j )/d max Ähnlichkeitsmaß. Bemerkung 8.6. Ähnlichkeit und Distanz: Situationen Für verschiedene Situationen benutzt man verschiedene Maße s und d: X 1,..., X p binäre Merkmale mit genau zwei Ausprägungen 0 und 1, X 1,..., X p nominal skaliert (mindestens ein Variable mit mehr als zwei Ausprägungen), X 1,..., X p ordinal skaliert, X 1,..., X p metrisch skaliert. Wir betrachten nur reine Situationen, d.h. alle Merkmale mit selbem Skalenniveau. Bei unterschiedlichen Skalenniveaus alle Merkmale an niedrigstes Skalenniveau anpassen und mit Maß hierfür arbeiten (aber: Informationsverlust) oder ein kombiniertes Maß verwenden. 135

5 Beispiel 8.7. Binäre Variablen Sei X ein 7-dimensionales Merkmal, das in jeder Komponente nur die Ausprägungen 0 und 1 annimmt. Ausprägungen für drei Objekte: x 1 = (1, 0, 0, 1, 0, 1, 1), x 2 = (0, 0, 1, 1, 1, 0, 0), x 3 = (1, 0, 0, 1, 1, 0, 0). Vergleich x 1 und x 2 : An Positionen 2 und 4 stimmen beide Objekte überein, für 1, 3, 5, 6, 7 hingegen nicht. Vergleich x 1 und x 3 : Übereinstimmung an Positionen 1, 2, 3 und 4. x 1 und x 3 scheinen sich ähnlicher zu sein als x 1 und x 2. Bemerkung 8.8. Ähnlichkeits- und Distanzmaße für binäre Variablen Sei X ein p-dimensionales Merkmal, das in jeder Komponente nur die Ausprägungen 0 und 1 annimmt. Kontingenztafel der Anzahl der Kombinationen (1, 1), (1, 0), (0, 1), (0, 0) für je zwei Objekte x i und x j : x i 1 0 Allgemeines Ähnlichkeitsmaß: M(atching)-Koeffizient: S(imilarity)-Koeffizient: x j 1 a b a + b 0 c d c + d s(x i, x j ) = a + c b + d p a + δd a + δd + λ(b + c) s(x i, x j ) = a + d p s(x i, x j ) = a a + b + c 136

6 Beispiel 8.9. Binäre Variablen: Ähnlichkeitstafeln für Beispiel 8.7: x x x x x x Resultierende Matching-Koeffizienten: s(x 1, x 2 ) = 2 7, s(x 1, x 3 ) = 4 7, s(x 2, x 3 ) = 5 7, s(x 1, x 1 ) = s(x 2, x 2 ) = s(x 3, x 3 ) = 7 7 = 1. Ähnlichkeitsmatrix: S = Resultierende Similarity-Koeffizienten: 1 s(x 1, x 2 ) = = 1 6, s(x 1, x 3 ) = 2 s(x 2, x 3 ) = = 0.5. Ähnlichkeitsmatrix: S = = 2 5 Hier sind sich jeweils x 2 und x 3 ähnlicher als x 1 und x 3, und diese wiederum ähnlicher als x 1 und x

7 Bemerkung Ähnlichkeits- und Distanzmaße für nominale Variablen Sei X ein p-dimensionales Merkmal mit nominal skalierten Komponenten, von denen mindestens eine mehr als zwei Ausprägungen annehmen kann. Der verallgemeinerte M-Koeffizient ist s(x i, x j ) = u, wobei u gleich p Anzahl der Komponenten, in denen x i und x j übereinstimmen. Beispiel Bogenschützen (Fortsetzung Beispiel 8.1) Ähnlichkeitsmatrix aus dem verallgemeinerten M-Koeffizienten: S = 1 21 S, mit S = Dabei wurde 0 (Relief an dieser Stelle zerstört) als normale Ausprägung gezählt. Stattdessen möglich: 0 als fehlende Beobachtung interpretieren und Ähnlichkeitswerte unter Berücksichtigung der Nullen adjustieren. 138

8 Beispiel Ordinale Variablen Merkmale Schulbildung (Ausprägungen Hauptschulabschluss, mittlere Reife und Abitur ) und Note in einem Leistungstest (Noten von 5 bis 1). Realisierungen für zwei Personen: x 1 = (mittlere Reife, 3), x 2 = (Abitur, 5) Binärkodierung zur Messung der Ähnlichkeiten: Die 3 Ausprägungen der Schulbildung mittels dreier binärer Variablen kodieren, die das Erreichte von der geringsten bis zur höchsten Schulbildung angeben ( 1 : erreicht, 0 : nicht erreicht, höhere Schulbildung umfasst niedrigere). Für die Note im Leistungstest entsprechend fünf binäre Variablen. Für 1. Person also (1, 1, 1, 0, 0), für 2. Person (1, 0, 0, 0, 0). Neue binäre Beobachtungsvektoren durch Konkatenation: x 1 = (1, 1, 0, 1, 1, 1, 0, 0), x 2 = (1, 1, 1, 1, 0, 0, 0, 0). Bemerkung Ähnlichkeits- und Distanzmaße für ordinale Variablen Sei X p-dimensionales Merkmal mit ordinal skalierten Komponenten. Für jede der p Komponenten Konstruktion so vieler binärer Merkmale, wie die Komponente Ausprägungen besitzt. Die binären Variablen pro Komponente werden von der niedrigsten bis zur erreichten Ausprägung mit der Ausprägung 1 versehen. Restliche binäre Variablen für diese Komponente erhalten Wert 0. Dadurch Umkodierung der ordinalen in binäre Merkmale und Nutzung eines Ähnlichkeitsmaßes für binäre Variablen. Alternativer Vorschlag für ordinalskalierte Merkmale: Kodierung der Merkmalsausprägungen mit den Zahlen 1 bis Anzahl der 139

9 Ausprägungen und Nutzung eines Ähnlichkeits- bzw. Distanzmaßes für metrisch skalierte Variablen. Dann setzt man allerdings mehr an die Variablen voraus, als sie erfüllen. Bemerkung Ähnlichkeits- und Distanzmaße für metrische Variablen Sei X p-dimensionales Merkmal mit metrisch skalierten Komponenten. Meist misst man dann statt der Ähnlichkeit die Distanz. Gängige Maße: L q -Norm ( ) p 1/q d q (x i, x j ) = x i,l x j,l q, q 1, l=1 Euklidische Distanz p d 2 (x i, x j ) = (x i x j ) (x i x j ) = (x i,l x j,l ) 2, l=1 City-Block-Metrik d 1 (x i, x j ) = p x i,l x j,l, l=1 Mahalanobisdistanz d(x i, x j ) = (x i x j ) Σ 1 (x i x j ). Hierbei bezeichnet Σ eine Schätzung der Kovarianzmatrix von (X 1,..., X p ). Die skalenabhängigen L q -Normen sollten stets auf Basis der standardisierten Beobachtungen bestimmt werden. 140

10 euklidische Distanz = Länge der Verbindungsstrecke Abbildung: Euklidische Distanz x 4 x 2 x 1 x 3 Abbildung: City-Block-Metrik x 4 x 2 x 1 x 3 City-Block-Distanz = Länge des Wegs, den man in einer Stadt mit gitterförmigem Straßennetz zurücklegen müsste Abbildung: Mahalanobisdistanz x 4 x 2 x x1 1 x 3 Mahalanobis-Distanz Schritt 1: Kovarianzstruktur feststellen, Transformation auf runde Struktur x 4 x 2 x x1 1 x 3 Schritt 2: In der runden Struktur euklidische Distanzen feststellen 141

11 8.2 Zweiter Schritt: Cluster-Algorithmen Gruppierung der Objekte anhand ihrer Ähnlichkeiten. Unterscheidung: hierarchische und optimal partitionierende Verfahren. Bemerkung Hierarchische Clusterverfahren Hierarchische Clusterverfahren konstruieren eine Folge von Partitionen der Objektmenge. Zwei grundlegende Vorgehensweisen: Agglomerative Verfahren: Start mit maximal möglicher Clusteranzahl (jede Beobachtung bildet eine Gruppe); in jedem Schritt Vereinigung der beiden ähnlichsten bisherigen Cluster zu einem neuen. Divisive Verfahren: Start mit kleinstmöglicher Clusteranzahl (alle Beobachtungen in einer Gruppe); in jedem Schritt Aufspaltung eines Clusters in zwei zueinander möglichst unähnliche Gruppen. Bei beiden Varianten ist die Clusteranzahl nicht im Vorhinein festgelegt, sondern wird während der Durchführung bestimmt. Im Folgenden nur agglomerative Verfahren, da einfacher und in Programmpaketen die Regel. Hierarchische Clusterverfahren benötigen Ähnlichkeits-/ Distanzmaße nicht nur für Paare von Objekten, sondern auch zwischen den Gruppen: Bemerkung Distanz zwischen Clustern Seien n Objekte {x 1,..., x n } in l Gruppen C 1,..., C l mit n 1,..., n l Objekten eingeteilt. Mögliche Abstandsmaße D zwischen Gruppen C i und C j : nächster Nachbar (nearest neighbour): D(C i, C j ) = min d(x a, x b ), x a C i, x b C j (geringste Distanz zwischen je einem Objekt aus C i und C j ) 142

12 entferntester Nachbar (furthest neighbour): D(C i, C j ) = max d(x a, x b ), x a C i, x b C j (größte Distanz zwischen je einer Beobachtung aus C i und C j ) mittlerer Nachbar: D(C i, C j ) = 1 n i n j d(x a, x b ), x a C i x b C j (Durchschnitt aller Distanzen zwischen Beobachtungen aus C i und C j ) Zentroid-Distanz: D(C i, C j ) = x i x j, (euklidischer Abstand zwischen den Gruppenzentren x i = 1 n i xa C i x a ) Hierbei sei d ein Distanzmaß für Abstände zwischen Objekten, vgl. Def Da die Zentroid-Distanz auf der euklidischen Distanz beruht, sollte sie nur für metrische skalierte Variablen benutzt werden. Hierarchische agglomerative Clusterverfahren: Single Linkage Verfahren (nächster Nachbar), Complete Linkage Verfahren (entferntester Nachbar), Average Linkage Verfahren (durchschnittlicher Abstand), Zentroid Verfahren (Zentroid-Distanz). 143

13 Bemerkung Agglomerative Verfahren: Vorgehensbeschreibung Objekte x 1,..., x n sind in k Cluster C 1,..., C k einzuteilen. Ablauf eines agglomerativen Clusterverfahrens auf Basis eines Objekt- Distanzmaßes d (Bem. 8.8, 8.10, 8.13 und 8.14) und einer Clusterdistanz D (Bem. 8.16): 1. Ausgangsclusterung: C i = {x i }, jedes Objekt bildet ein Cluster 2. Wiederholung der folgenden Schritte Berechnung der Distanzen zwischen je zwei Clustern C i und C j für alle i, j (i = j) Vereinigung der beiden Cluster mit der kleinsten Distanz zu einem neuen Cluster; entstehende neue Clusterung: C 1,..., C l bis alle Objekte zu einem Cluster vereint sind. 3. Bestimmung einer geeigneten Clusteranzahl k über geeignetes Kriterium: Durch ein Homogenitätsmaß, d.h. Vorgabe einer Grenze für die Homogenitäten innerhalb der Gruppen, oder mittels des Dendrogramms. Statt eines Distanzmaßes d Verwendung eines Ähnlichkeitsmaßes s möglich, wobei dann Cluster mit der größten Ähnlichkeit vereinigt werden. Bemerkung Dendrogramm Vorlesung Dendrogramm eines hierarchisches Clusterverfahrens zeichnet in Form eines Stammbaums auf, welche Cluster im Ablauf des Verfahrens in welcher Reihenfolge vereinigt (getrennt) wurden. Schematisches Aussehen: 144

14 * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num Case 8 8 Case Case 7 7 Case 9 9 Case 4 4 Case 6 6 Case Case Case Case Case 5 5 Case 1 1 Case 2 2 Case 3 3 Case Case Case Case Case Case Case Case Case Case Case Links stehen die Objekte (hier bezeichnet mit laufenden Nummern). Senkrechte Striche zeigen an, wo zwei Cluster vereinigt wurden: Von links nach rechts verfolgt man die sukzessive Vereinigung der Cluster. Hier wurden zuerst Objekt 8 und 10 sowie 1 und 2 geclustert (jeweils gleiche, minimale Distanz). Die waagerechte Länge zwischen zwei senkrechten Strichen zeigt die Distanz zwischen den zugehörigen Clustern. Anhaltspunkt für geeignete Clusteranzahl: Suche Stelle im Dendrogramm mit langen waagerechten Strichen über die komplette Höhe des Diagramms (dort deutlich getrennte Cluster mit großer Distanz, die spät vereinigt 145

15 werden). Hier zwei Cluster: eines aus Beobachtungen 15-18, anderes mit Rest. Beispiel Bogenschützen (Fortsetzung Beispiele 8.1 und 8.11) Dendrogramm für die persischen Bogenschützen mittels der Ähnlichkeitsmatrix aus verallgemeinertem M-Koeffizienten und Single-Linkage: Dendrogramm Bogenschützen Die größte Lücke zwischen senkrechten Strichen legt drei Gruppen nahe: zwei große Cluster aus Schützen Nr (ohne 12) sowie 1-8 und 20-24, sowie einzelne Beobachtung Nr. 12. Cluster 1 besteht aus inneren Figuren, Cluster 2 aus Figuren am Rand. Archäologen erhielten ähnliches Ergebnis. 146

16 Bemerkung Bei Verwendung des nächsten, des entferntesten oder des mittleren Nachbarn wachsen die Distanzen während des Clusterns monoton an. Nach Vereinigung von C 1 und C 2 hat C 0 := C 1 C 2 zu jedem anderen Cluster C 3 einen mindestens so großen Abstand wie zuvor C 1 zu C 2 (sei n i die Anzahl der Elemente von Cluster C i, i = 0,..., 3): min d(x a, x b ) = min{ min d(x a, x b ), a C 0,b C 3 a C 1,b C 3 max d(x a, x b ) = max{ max d(x a, x b ), a C 0,b C 3 a C 1,b C 3 D(C 0, C 3 ) = min d(x a, x b )} a C 2,b C 3 max d(x a, x b )} a C 2,b C 3 n 1 n 1 + n 2 D(C 1, C 3 ) + n 2 n 1 + n 2 D(C 2, C 3 ) D(C 1, C 2 ), min d(x a, x b ) a C 1,b C 2 max d(x a, x b ) a C 1,b C 2 Dies gilt jedoch nicht unbedingt bei Verwendung der Zentroid-Distanz, z. B. C 3 = {(0, 0)}, C 1 = {( 0.55, 1)}, C 2 = {(0.55, 1)}. Beispiel Schweizer Banknoten: Kann man mit Hilfe hierarchischer Clusterverfahren die echten von den falschen trennen? Scatterplot der ersten beiden Hauptkomponenten (vgl. Bsp. 4.19): Ergebnisse verschiedener agglomerative Clusterverfahren unter Verwendung des euklidischen Abstandes als Distanzmaß (Quelle: deutscher Wikipedia-Eintrag Hierarchische Clusteranalyse ): 147

17 Single Linkage: Complete Linkage: 148

18 Average Linkage: Zentroid-Verfahren: 149

19 Fazit: Verschiedene Verfahren liefern recht unterschiedliche Ergebnisse. Keines der vier vorgestellten Clusterverfahren liefert hier wirklich gute Ergebnisse. Bei der Wahl der Clusteranzahl neben großen Distanz-Unterschied auch Größe der entstehenden Cluster berücksichtigen (z.b. wenn wie hier bekannt ist, dass ungefähr gleichgroße Cluster gesucht werden). Es gibt aber auch ein Clusterverfahren, dass für das Banknoten-Beispiel ein richtig gutes Ergebnis liefert: Bemerkung Clusterverfahren nach Ward Das Clusterverfahren nach Ward läuft in den gleichen Grundschritten ab wie die anderen agglomerativen Verfahren. In jedem Iterationsschritt werden aber jeweils die beiden Cluster vereint, deren Verbindung den kleinsten Zuwachs an Heterogenität der entstehenden Partition hervorbringt. Sei C 1,..., C l die momentane Partition der Objektmenge. Messung der Heterogenität des Clusters C i über Variabilität innerhalb von C i : x a C i x a x i 2 Dabei ist x i Zentrum des Clusters C i, x y die euklidische Distanz. Heterogenität der Partition C 1,..., C l als Summe der einzelnen Variabilitäten: H(C 1,..., C l = l i=1 x a C i x a x i

20 Eine Vereinigung von zwei Clustern führt zu einem Heterogenitätszuwachs. Es werden diejenigen Cluster C i und C j vereinigt, die zum geringsten Zuwachs führen. Da die euklidische Distanz verwendet wird, sollte das Verfahren von Ward nur für metrisch skalierte Variablen angewendet werden. Übertragung des Ward-Verfahrens auf nominal skalierte Merkmale: Messung der Homogenität der Cluster durch den Informationsinhalt, der in gewissem Sinn ebenfalls die Variabilität innerhalb des Clusters beschreibt. Beispiel Nochmal die Schweizer Banknoten: Ergebnis des Ward- Clusterverfahrens: Abschließende Bemerkung: In R gibt es z. B. den Befehl hclust(). Eine Distanzmatrix kann man mit dist() basteln. 151

21 8.3 Partitionierende Verfahren Im Gegensatz zu hierarchischen bestimmen partitionierende Clustermethoden eine Partitionierung der Objektmenge in k Cluster, so dass ein vorgegebenes Homogenitätskriterium optimiert wird. Dabei geht man meist davon aus, dass die Anzahl k der Cluster bekannt ist oder im Vorhinein geschätzt wurde. Wichtigstes partitionierendes Verfahren: k-means (kmeans() in R) Vorgehen: 1. Aufteilung der beobachteten Objekte in k beliebige Gruppen 2. Bestimmung der Gruppenzentren (Gruppenmittelwerte, Zentroide) 3. Bestimmung des Abstands jedes Objekts zu allen Gruppenzentren 4. Neuzuweisung jedes Objekts zu derjenigen Gruppe, zu deren Zentrum es den geringsten Abstand hat Wiederholung von 2. bis 4., bis keine Neuzuweisung von Objekten mehr vorgenommen wird. Konvergenz: k-means Clustern konvergiert bei Verwendung der L 2 -Distanz und der Gruppenmittelwerte binnen endlich vieler Schritte: Es gibt nur endlich viele Partitionierungen endlich vieler Objekte und daher auch nur endlich viele Gruppenzentren. Im Laufe des Clusterns wird zudem die Summe aller Abstände zu Gruppenzentren immer kleiner. Sind x (l) 1,..., x(l) k die Gruppenzentren und C1 l,..., Cl k die Cluster im l-ten Schritt, so gilt k j=1 i Cj l x i x l j 2 k j=1 i Cj l+1 x i x l j 2 k j=1 i Cj l+1 x i x l+1 j 2 Aber: Kein konvexes Optimierungsproblem. Lösung abhängig von den Startwerten. Es gibt verschiedene Varianten des Verfahrens, die sich im We- 152

22 sentlichen durch eine mehr oder weniger clevere Initialisierung der Zentren unterscheiden. Üblich mehrere Durchläufe mit verschiedenen Startwerten. Man wählt dann die Lösung mit dem geringsten Wert des Zielkriteriums k j=1 i C l x i x l j j 2. Bemerkung Bemerkung zu Clusteranalyseverfahren: Clusteranalyse ist deskriptiv. Es werden keine Tests durchgeführt. Die Effektivität der verschiedenen Clustertechniken hängt von der Lage und Form der wahren Cluster ab, die nicht bekannt sind. Nützlich: Resultate verschiedener Verfahren vergleichen. Führen verschiedene Ansätze zu ähnlichen Ergebnissen, die auch inhaltlich Sinn machen, so kann man auf die gefundenen Cluster vertrauen. Clusteranalysemethoden können ausreißeranfällig sein, insbesondere wenn sie auf der euklidischen Distanz basieren. Ohne die Existenz deutlicher Trennungen keine guten Ergebnisse erzielbar. Nichtlineare Strukturen werden von wenigen Clusteranalyseverfahren getrennt, z.b. kreisförmige (Gruppe 1) innerhalb U-förmiger Punktwolke (Gruppe 2) Statt Objekten kann man auch Variablen clustern: Alternative zur Faktorenanalyse, extrahiert allerdings keine verborgenen Faktoren, sondern findet nur ähnliche Variablengruppen. 153