Einführung in die Clusteranalyse



Ähnliche Dokumente
Primzahlen und RSA-Verschlüsselung

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Zeichen bei Zahlen entschlüsseln

Statistische Auswertung:

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Berechnung der Erhöhung der Durchschnittsprämien

Professionelle Seminare im Bereich MS-Office

Fortgeschrittene Statistik Logistische Regression

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Insiderwissen Hintergrund

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

QM: Prüfen -1- KN

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Tutorial: Homogenitätstest

Excel Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F

Varianzanalyse (ANOVA: analysis of variance)

Konzepte der Informatik

Clustering Seminar für Statistik

1 Mathematische Grundlagen

Anwendungshinweise zur Anwendung der Soziometrie

Willkommen zur Vorlesung Statistik

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Professionelle Diagramme mit Excel 2010 erstellen. Peter Wies. 1. Ausgabe, 2. Aktualisierung, März Themen-Special W-EX2010DI

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

einfache Rendite

Plotten von Linien ( nach Jack Bresenham, 1962 )

Überblick über die Verfahren für Ordinaldaten

AUTOMATISIERTE HANDELSSYSTEME

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Druckvorlagen Als Druckvorlagen sind dafür vorhanden:!liste1.ken (Kennzahlen)!Liste2.KEN (Kontennachweis)

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Guide DynDNS und Portforwarding

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

4. Erstellen von Klassen

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Korrelation (II) Korrelation und Kausalität

Einführung in statistische Analysen

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Data Mining: Einige Grundlagen aus der Stochastik

Stichprobenauslegung. für stetige und binäre Datentypen

Kontingenzkoeffizient (nach Pearson)

1 topologisches Sortieren

Das Wachstum der deutschen Volkswirtschaft

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Webergänzung zu Kapitel 10

Mitarbeiterbefragung als PE- und OE-Instrument

Trainingsplan 16-wöchiger Trainingsplan für einen Triathlon (Volkstriathlon), Einsteiger

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Dossier: Rechnungen und Lieferscheine in Word

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Die Methode des Robusten Trends und der CAC40 (Frankreich)

Lineare Gleichungssysteme

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

Multicheck Schülerumfrage 2013

EINMALEINS BEZIEHUNGSREICH

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

DPF Dynamic Partial distance Function

W-Rechnung und Statistik für Ingenieure Übung 11

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Zusammenfassende Beurteilung der Unterrichtsbeispiele für Wirtschaft und Recht

Einfache statistische Auswertungen mit dem TI-Nspire

Arbeitshilfen zur Auftragsdatenverarbeitung

5 Zusammenhangsmaße, Korrelation und Regression

II. Zum Jugendbegleiter-Programm

Moderne Behandlung des Grauen Stars

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Änderung des IFRS 2 Anteilsbasierte Vergütung

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

impact ordering Info Produktkonfigurator

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Theoretische Grundlagen der Informatik WS 09/10

Modellbildungssysteme: Pädagogische und didaktische Ziele

Leitfaden #1a. "zanox Publisher-Statistik" (next generation)

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Theorie qualitativen Denkens

Repetitionsaufgaben: Lineare Funktionen

Sollsaldo und Habensaldo

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen!

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Ergebnisse der NOVIBEL-Kundenzufriedenheitsanalyse 2002

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

3. LINEARE GLEICHUNGSSYSTEME

Transkript:

Arbeitsgemeinschaft Statistische Methoden der Sozialwissenschaften Einführung in die Clusteranalyse Fabian Pfeffer 0. Mai 00 Inhaltsverzeichnis Einführung Proximitätsmaße. Ähnlichkeitsmaße bei binären Merkmalen. Distanzmaße bei metrischen Merkmalen Clusteralgorithmen. Hierarchische, agglomerative Clusterverfahren. Das Single-Linkage-Verfahren. Weitere Clusterverfahren. Validitätsprüfung und Interpretation der berechneten Clusterlösung Anwendungsbeispiel. Generelle praktische Vorüberlegungen. Vorstellung des Beispiel-Datensatzes. Distanzmatrix und Dendogramm 5 Ergänzung: Das K-Means-Verfahren 5. Der K-Means-Algorithmus 5. Empirische Umsetzung in Clementine und STATA 6 Fazit Dieses Vortragsskript basiert auf einem Hausarbeitsentwurf und ist als solches sicherlich ausführlicher als im Rahmen des AGSMS-Vortrags notwendig. Für den schnellen Leser sollte aber insbesondere zur Vorbereitung auf den Vortrag die Lektüre der Kapitel (Anfang),.,. und 6 genügen.

Einführung Clusteranalyse ist der Begriff für eine Vielzahl verschiedener Verfahren zur Zuordnung einzelner Objekte zu einer Gruppe, sprich Klassifikation einzelner Entitäten. Sie ist eine multivariate statistische Prozedur, um heterogene Objekte einer gegebenen Gesamtheit in relativ homogene Gruppen einzuteilen. Erstmals in den 60er Jahren in der Biologie zur Klassifikation biologischer Spezies angewandt, findet die Clusteranalyse heute in zahlreichen wissenschaftlichen Disziplinen Anwendung; so beispielsweise in der Anthropologie (z.b. Auffinden homogener Kulturregionen), der Psychologie (z.b. Auffinden von Persönlichkeitstypen, Erstellung von Patientenprofilen), der Geografie (z.b. Einteilung in homogene Regionen), der Soziologie und Politologie (z.b. Typologisierung von Individuen oder Ländern) oder der betriebswirtschaftlichen Praxis (z.b. Erstellen von Kundenprofilen). Das methodische Vorgehen der Clusteranalyse geschieht in folgenden Schritten:. Auswahl der zu berücksichtigenden Einheiten und Merkmale. Errechnung der Ähnlichkeit zwischen den Einheiten anhand aller ausgewählter Merkmale. Anwendung eines Fusionierungsalgorithmus zur Gruppeneinteilung. Validitätsprüfung der resultierenden Clusterlösung Es sollte an dieser Stelle betont werden, dass die Clusteranalyse trotz ihres Vorgehens der aktiven Gruppeneinteilung lediglich ein Instrument zur Gruppenaufdeckung darstellt. Sie soll im Datensatz vorhandene Strukturen aufdecken, die so ohne weiteres nicht sichtbar wären. Im Allgemeinen führen verschiedene Clustermethoden jedoch auch zu verschiedenen Ergebnissen. Die eigentliche Herausforderung bei der Clusteranalyse ist entsprechend, zu wissen, welche Gruppen wahr sind und welche den Daten durch die Clustermethode lediglich zugeschrieben wurden (Aldenderfer/Blashfield 98: 6). Das Vorgehen der Klassifikation von Objekten ist wohl einer der zentralen Bausteine der Wissensgenerierung jeder Wissenschaft. Ganz besonders in den Sozialwissenschaften wird die theoretische Weiterentwicklung oft durch klassifikatorische Systeme vorangetrieben (erinnert sei hier für den Fall der Soziologie lediglich an Bourdieus Feine Unterschiede). Die Clusteranalyse kann in dieser Hinsicht folgende Funktionen erfüllen: - Entwicklung neuer Typologien und Klassifikationen - Daran anschließende Generierung neuer Hypothesen - Empirischer (Hypothesen)test bestehender theoretischer Klassifikationskonzepte Da die Methoden der Clusteranalyse relativ simple mathematische Prozeduren ohne tiefgehende statistische Argumentation darstellen, müssen ihre deskriptiven Ergebnisse für eine fruchtbare weitere Verwendung im sozialwissenschaftlichen Erkenntnisprozess zum Großteil durch starke theoretische Explikationen und Interpretationen gestützt werden. Im Folgenden beschränke ich mich jedoch auf die Darstellung der grundlegende methodischen Vorgehensweise der Clusteranalyse. - -

Proximitätsmaße In einem ersten Schritt müssen die Ähnlichkeiten zwischen allen Objekten der Gesamtheit paarweise bestimmt werden. Zur Quantifizierung der Ähnlichkeiten zwischen zwei Objekten stehen zwei Arten von Proximitätsmaßen zur Verfügung: i) Ähnlichkeitsmaße zur Beschreibung der Ähnlichkeiten zweier Objekte. Je ähnlicher sich zwei Objekte sind, desto höher das zugehörige Ähnlichkeitsmaß ii) Distanzmaße zur Beschreibung der Unähnlichkeit zweier Objekte. Sie verhalten sich reziprok: Je ähnlicher sich zwei Objekte sind, desto niedriger das Distanzmaß. Die Wahl des Proximitätsmaßes richtet sich in erster Linie nach der Art der Fragestellung: Ähnlichkeitsmaße bieten sich an, um Profil-Ähnlichkeit von Objekten zu untersuchen ohne dabei etwaige Niveauunterschiede der Merkmale zu beachten (so z.b. bei der Untersuchung von Einkommensentwicklungen). Distanzmaße bieten sich an, um absolute Unterschiede zwischen Objekten zu messen (z.b. Untersuchung von Einkommenshöhen). Ferner legt auch das Skalenniveau der Merkmale die Wahl bestimmter Proximitätsmaße nahe: Liegen alle untersuchten Merkmale in Form binärer Variablen vor, so finden Ähnlichkeitsmaße Anwendung, bei metrischer Datenstruktur in der Regel Distanzmaße. In den folgenden Abschnitten werden für beide Fälle einige konkrete Maße vorgeführt. Der Ausgangspunkt der Clusteranalyse ist in beiden Fällen derselbe: Es wird eine Ähnlichkeits- oder Distanzmatrix errechnet, welche (KxK) Objekte kreuztabelliert und ein entsprechendes Proximitätsmaß p enthält (vgl. Tabelle ). Tabelle : Struktur einer Ähnlichkeits- oder Distanzmatrix Objekt Objekt Objekt... Objekt K Objekt p Objekt p p Objekt p p p............... Objekt K p K p K p K... p KK Die Zellen oberhalb der Hauptdiagonale können leer bleiben, da sie schlicht eine Spiegelung der Zellen unterhalb der Hauptdiagonale entlang dieser wären. Die p- Koeffizienten in den Zellen der Hauptdiagonale geben den Wert für maximale Ähnlichkeit, beziehungsweise minimale Distanz wieder.. Ähnlichkeitsmaße bei binären Merkmalen Sofern alle untersuchten Merkmale in Form 0/-codierter Variablen vorliegen, beziehungsweise nominale Merkmale zu Dummy-Variablen umgewandelt wurden, stehen (unter anderen) folgende Ähnlichkeitskoeffizienten, die jeweils paarweise für zwei Objekte berechnet werden, zur Auswahl: Dichotomisierung von ursprünglich metrischen Variablen ist ein probates Mittel, um ein einheitliches Skalenniveau zu schaffen. Der damit verbundene Informationsverlust kann bekanntermaßen reduziert werden, indem die Ausgangsvariable in m Kategorien aufgeteilt und durch (m-) Dummy-Variablen dargestellt wird. Problematisch ist hierbei allerdings, dass das auf diese Weise verschlüsselte Merkmal mit einem (m-)-fachen Gewicht in die Berechnung eingeht. Dies kann u.u. zu beträchtlichen Verzerrungen in der Analyse führen. - -

Tanimoto-(Jaccard) a a + b + c () Russel & Rao (RR) a a + b + c + d = a m () Simple Matching (M) a + d a + d = a + b + c + d m () Wobei a = Anzahl der Merkmale, die bei beiden Objekten zutreffen (X i =Y i =) b = Anzahl der Merkmale, die nur bei Objekt X zutreffen (X i =, Y i =0) c = Anzahl der Merkmale, die nur bei Objekt Y zutreffen (X i =0, Y i =) d = Anzahl der Merkmale, die bei beiden Objekten nicht zutreffen (X i =Y i =0) m = Anzahl aller beobachteter Merkmale (=a+b+c+d) Somit setzt der Tanimoto-(Jaccard)-Koeffizient (Gleichung ) die Anzahl gemeinsamer, zutreffender Merkmale in Verhältnis zu den Merkmalen, die bei mindestens einem der beiden Objekt zutreffen. Der RR-Koeffizient (Gleichung ) hingegen setzt die Anzahl gemeinsamer, zutreffender Merkmale in Verhältnis zur Anzahl aller beobachteten Merkmale. Der M-Koeffizient (Gleichung ) wiederum berücksichtigt im Zähler zusätzlich auch gemeinsame, nicht zutreffende Merkmale, also alle übereinstimmenden Merkmale. Die Darstellung der Ergebnisse der paarweise berechneten Ähnlichkeitskoeffizienten geschieht in einer Ähnlichkeitsmatrix wie in Tabelle. Die drei Ähnlichkeitsmaße weisen einen Wertebereich zwischen 0 (totale Unähnlichkeit) und (totale Ähnlichkeit) auf. Sie liefern allerdings verschieden hohe Ähnlichkeitswerte (generell gilt: M > Tanimoto > RR) und können zu verschiedenen Ähnlichkeitsrangordnung der Objekte führen.. Distanzmaße bei metrischen Merkmalen Weisen alle untersuchten Variablen metrisches oder quasi-metrisches Skalenniveau auf, so werden in der Regel Distanzmaße zur paarweisen Bestimmung der Ähnlichkeit zwischen den Objekten verwendet. (Ein Ähnlichkeitsmaß, das in diesem Fall auch benutzt werden kann ist der Q- Korrelationskoeffizient, auf den an dieser Stelle nicht weiter eingegangen wird). Im Konkreten sind dies: City-Block-Metrik J d p, q = x pj xqj () j= Quadrierte euklidische Distanz J p, q = j= d x x (5) pj qj Für die Wahl eines passenden Ähnlichkeitskoeffizienten ist unter anderem folgende Überlegung wichtig: Hat das Zutreffen einer binär gemessenen Eigenschaft (z.b. Geschlecht= Männlich Weiblich ) in der Realität den selben Informationsgehalt, wie das Nicht-Zutreffen dieser Eigenschaft (Geschlecht Männlich = Weiblich ), so sollte der RR- oder M-Koeffizient verwendet werden, da hier alle Merkmalsübereinstimmungen, ob positiv oder negativ, eingehen. Ist der Informationsgehalt allerdings nicht derselbe (insbeondere bei nachträglich dichotomisierten Merkmalen, z.b. Klasse= Arbeiter ), so muss die negative Übereinstimmung der Dummy- Variablen in der ( nicht-binären ) Realität nicht unbedingt eine Merkmalsübereinstimmung zur Folge haben. Hier sollte man deshalb auf den Tanimoto-Koeffizienten ausweichen. - -

Wobei d p,q = Distanz der Objekte p und q x pj bzw. x qj = Wert der Variablen j bei Objekt p bzw. q (j=,,...,j) Wie leicht ersichtlich ist, bauen die angeführten Distanzkoeffizienten auf einer gemeinsamen Basis, der sogenannten L-Norm, auf. Die quadrierte euklidische Distanz unterscheidet sich als Distanzmaß von der City-Block-Metrik dadurch, dass durch die Aufsummierung der quadrierten Differenzwerte aller Variablen große Differenzen mit mehr Gewicht in die Berechnung eingehen (ähnlich z.b. der least-squares-methode in der Regressionsanalyse). Die quadrierte euklidische Distanz liegt zahlreichen Clusteralgorithmen zugrunde, so dass sie auch hier als Proximitätsmaß für alle weiteren Berechnungen herangezogen wird. Clusteralgorithmen Auf Grundlage eines der Proximitätsmaße aus Abschnitt (in den behandelten Verfahren die quadrierte euklidische Distanz) soll nun ein Fusionierungsprozess vorgenommen werden, der eine sinnvolle Zuordnung der einzelnen Objekte zu Gruppen liefert (clustering). Dazu bestehen wiederum zahlreiche Clusteralgorithmen, von denen im Folgenden nur einige wenige vorgestellt werden.. Hierarchische, agglomerative Clusterverfahren Generell unterscheiden wir Clusterverfahren in partitionierende und hierarchische Verfahren. Partitionierende Clusterverfahren bauen auf einer gegebenen Gruppeneinteilung auf und tauschen so lange Objekte zwischen den Gruppen aus, bis eine optimale Einteilung gegeben ist. Dahingegen zeichnen sich hierarchische Clusterverfahren dadurch aus, dass die Gruppenanzahl und - verteilung erst durch schrittweise (und nicht revidierbare ) Verteilung jedes einzelnen Objektes geschieht. Entweder geht man hierzu von der größtmöglichen Gruppe, die alle Objekte umfasst, aus und teilt diese sukzessive in kleinere Gruppen auf (diversive Verfahren) oder startet mit den kleinstmöglichen Gruppen, nämlich allen einzelnen Objekten, und verteilt diese nach und nach auf größere Gruppen (agglomerative Verfahren). Letztere sind die in der Praxis gängigsten Verfahren. Im Weiteren werden deshalb zunächst nur hierarchische, agglomerative Verfahren vorgestellt (Kapitel. und.). Die generelle Vorgehensweise solcher Algorithmen ist folgende (vgl. Backhaus et al. 000):. Erstellen der Distanzmatrix mit allen Einzelobjekten ( feinste Partition ). Suche nach den beiden ähnlichsten Objekten/Clustern (geringste Distanz). Zusammenfassen der beiden ähnlichsten Objekte/Cluster zu einem Cluster. Berechnung der neuen Distanzen und Erstellen einer neuen Distanzmatrix 5. Wiederholung der Schritte - bis alle Objekte einer Gruppe zugeordnet sind Die grafische Darstellung hierarchischer Clusterverfahren geschieht gewöhnlich in Form eines sogenannten Dendogramms (vgl. Abbildung ). Dies ist eine Art Stammbaum, aus dem abzulesen ist, in welchem Schritt welche Objekte zu einem Cluster vereinigt wurden und auf welchem Niveau die Distanz zwischen Bei diesen Verfahren ergibt sich je nach untersuchter Fragestellung unter Umständen das Problem, dass die Wahl der Startpartition (gegebene Gruppenanzahl und -auteilung) oft nur subjektiv begründbar und das empirische Ergebnis damit verstärkt anfechtbar ist. - 5 -

den vereinigten Objekten/Clustern jeweils liegt (meist wird die Distanz normiert auf eine Skala von 0 bis 5). Die Lesart der Abbildung verläuft gemäß der Logik der agglomerativen Verfahren von links nach rechts (bei divisiven Verfahren entsprechend umgekehrt). Somit wird in Abbildung nochmals nachvollziehbar, dass mit zunehmender Durchlaufzahl agglomerativer Algorithmen, die Distanz zwischen den vereinigten Objekten höher ist. Abbildung : Aufbau eines Dendogramms für hierarchische Verfahren Distanzmaß bei Clusterfusion (reskaliert) 0 5 0 5 0 5 ID +---------+---------+---------+---------+---------+ òòø òòôòòòòòòòòòòòòòòòòòòòòòòòòòòø òò ó òòòòòòòòûòòòòòòòòòòòø ùòòòòòòòòòòòòòòòòòòòø 5 òòòòòòòò ó ó ó 6 òòòòòòòòòòòòòòòòòòòòôòòòòòòòò ó 7 òòòòòòòòòòòòòòòòòòòò ó 8 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò Die Darstellung der Clusterlösung anhand eines Dendogramms bringt einige entscheidende Vorteile mit sich. Speziell werden hier zwei Beobachtungen besonders anschaulich: Deutlich getrennte Klassen sind dadurch erkennbar, dass ihr Zusammenschluss im Verlauf der Clusteranalyse (sprich beim Fortschreiten der Clusterbildung nach rechts ) lange unverändert bleibt. In Abbildung ist dies zum Beispiel für das Cluster der Objekte, und zu beobachten. Ferner fallen in dieser Darstellung gegebenenfalls Ausreißer aus der Datenmenge schnell ins Auge: Sie werden spät oder zuletzt mit anderen Objekten oder Clustern zu einer gemeinsamen Gruppe fusioniert; siehe Objekt 8 in Abbildung. Darüber hinaus bietet die grafische Darstellung des gesamten Clusterprozesses eine entscheidende Hilfestellung für ein in der Clusteranalyse zentrales Problem: Wieviele Cluster werden als endgültige Lösung zur weiteren Verwendung ausgewählt? Jeder Anwender muss selbst wählen, welche Ebene der Clusteranalyse sinnvoll für die gewünschten Zwecke zu Grunde gelegt werden kann, also welche Anzahl von Clustern am ehesten seinen eigenen Vorstellungen entspricht (die einfachste Gruppierungslösung wäre z.b. die Wahl der zwei Cluster, die im letzten Schritt der agglomerativen Clusteranalyse gebildet werden). Denn im Gegensatz zu partitioniertenden Verfahren, bei denen die Clusteranzahl bereits vorgegeben ist, muss die geeignete Ebene der Clusterlösung oftmals außerhalb konkreter statistischer Kriterien ausgewählt werden. Ein Dendogramm kann hier wichtige Dienste leisten. Ein - wenn auch weiches - statistisches Kriterium, das bei der Entscheidung helfen kann, wird in Abschnitt. für den Fall des Ward-Verfahrens angeführt. Darüber hinaus stellen Kaufmann/Pape (996: Absatz. und 6.) einige statistische Plausibilätsüberlegungen und Ansätze zur stochastischen Ermittelung der Clusterzahl vor. - 6 -

. Das Single-Linkage-Verfahren Nach dem oben dargestellten Vorgehen, werden beim ersten Durchlauf agglomerativer Algorithmen die zwei ähnlichsten Objekte zu einem ersten Cluster vereinigt. In der Folge muss für dieses neu entstandene Cluster die Distanz zu allen verbleibenden Objekten (in späteren Durchläufen auch anderen Clustern) berechnet werden. Die in der Folge vorgestellten Clusteralgorithmen unterscheiden sich in der Weise der Distanzberechnung zwischen zu Clustern zusammengefassten Objekten. Das weit verbreitete Single-Linkage-Verfahren basiert auf folgender Idee: Die Distanz zwischen einem Cluster M und anderen Objekten/Clustern entspricht der geringsten Distanz zwischen den einzelnen Objekten des Clusters M und anderen Objekten. Nehmen wir an, die Objekte A und B wurden zu einem Cluster AB vereinigt und es soll die Distanz d zu einem Objekt X bestimmt werden, so gilt also folgende Beziehung: oder ausführlicher d(x,ab) = min {d(x,a);d(x,b)} (6) d(x,ab) = 0,5 {d(x,a)+d(x,b) - d(x,a)-d(x,b) } (7) In anderen Worten wird einem neu gebildeten Cluster also die kleinste Distanz zugewiesen, die zwischen den einfachen Distanzen der alten (unvereinigten) Objekte dieses Clusters und einem anderen Objekt bestand. Damit dürfte auch der synonym gebrauchte Name nearest neighbour method oder auch minimum distance method für dieses Verfahren nachvollziehbar werden. Das Vorgehen der single-linkage-methode hat bestimmte absehbare Wirkungen auf die Eigenschaften der entstehenden Clusterlösung: Wenn für die Distanzberechnung alleine der nearest neighbour einbezogen wird, umgekehrt also alle anderen Objekte des untersuchten Clusters nicht ins Gewicht fallen, können letztere beträchtlich weit voneinander entfernt liegen. Eine solche vergleichbar niedrige Anforderung an die Gruppenhomogenität der einzelnen Cluster hat zur Folge, dass dieses Verfahren (im Gegensatz zu allen anderen) relativ unterschiedlich stark besetzte Cluster identifizieren kann. Oftmals liefert es wenige große und viele kleinere Cluster. Letztere dienen insbesondere dazu, etwaige Ausreißer in der Objektmenge zu identifizieren. Andererseits besitzt das single-linkage-verfahren die nachteilhaftige Tendenz zur Kettenbildung: Bei fehlender Trennschärfe zwischen Gruppen und insbesondere bei Bestehen einer Brücke (Objekt das in einer geringen Distanz zu ansonsten hinreichend gut getrennten Gruppen liegt) werden ungerechtfertigt große und folglich heterogene Cluster identifiziert.. Weitere Clusterverfahren Für die Distanzberechnung zwischen neu generierten Clustern besteht eine Reihe weiterer Verfahren, von denen hier nur einige kurz skizziert werden sollen: Complete-Linkage-Verfahren: Praktisch als Gegenstück zum single-linkage- Verfahren wird hier nicht die geringst mögliche sondern die maximale Distanz zwischen den Clustern berechnet. Parallel zu der Veranschaulichung in Gleichung (6) gilt also: d(x,ab) = max {d(x,a);d(x,b)} (8) - 7 -

Dies impliziert auch entsprechend gegenläufige Tendenzen der enstehenden Clusterlösung: Durch die Orientierung am furthest neighbour ist das Verfahren einerseits besonders anfällig für Ausreißer (diese sollten um stark verzerrte Clusterlösungen zu vermeiden also vor Berechnung ausgeschlossen werden); andererseits besteht in diesem Verfahren die Tendenz zur Bildung relativ kleiner Gruppen (keine Kettenbildung). Average-Linkage-Verfahren: Nicht überraschend existiert zwischen dem Ansatz des single- und des complete-linkage-verfahrens ein Mittelweg. Das averagelinkage-verfahren berechnet die durchschnittlichen Distanzen zwischen den generierten Clustern. Bestehende Cluster werden hier also mit anderen Objekten/Clustern fusioniert, wenn die Objekte im Mittel hinreichend ähnlich sind. Ähnlich orientiert sich das Zentroid-Verfahren vorrangig für intervallskalierten Merkmale am jeweiligen Klassenschwerpunkt. Ward-Verfahren: Neben einer weiteren Methode der Distanzbildung, unterscheidet sich dieses Verfahren auch im Fusionierungsprozess von den vorgestellten linkage-verfahren. Hier werden diejenigen Objekte/Cluster vereinigt, die einen möglichst geringen Heterogenitätszuwachs (gemessen durch die Fehlerquadratsumme) im Cluster und folglich in der Gesamtheit zur Folge haben. Ausgehend von einer Fehlerquadratsumme von 0 (jedes Objekt bildet ein eigenes Cluster ohne Streuung) sollen jeweils die kleinsten Schritte zur Erhöhung der Fehlerquadratsumme gegangen werden. Die Entscheidung, nach welchem Fusionierungsschritt eine geeignete Clusterlösung erreicht ist, ist wie weiter oben beschrieben zu einem guten Teil von den individuellen Vorstellungen des Betrachters in Hinblick auf sein Untersuchungsziel abhängig. Beim Ward-Verfahren kann die Entscheidung allerdings durch eine statistische Methode, das sogenannte Elbow-Kriterium gestützt werden. Dazu werden in einem Koordinatensystem die Clusteranzahl und ihre korrespondierende Fehlerquadratsumme abgetragen. Ein oftmals deutlich auszumachender Knick ( elbow ) in der entstehenden Gerade weist auf eine sprunghafte Zunahme der Clusterheterogenität hin und legt nahe, nicht über die an dieser Stelle vorliegende Clusterlösung hinauszugehen (vgl. Backhaus/Erichson/Plinke/Weiber 000: 75-76). Außerdem kann darauf hingewiesen werden, dass es sich aufgrund der verschiedenen absehbaren Tendenzen der Verfahren durchaus anbieten kann, mehrere zu kombinieren; z.b. kann das single-linkage-verfahren zum Aufspüren und späteren Ausschluss von Ausreißern einem der oben aufgeführten Verfahren vorgeschaltet werden.. Validitätsprüfung und Interpretation der berechneten Clusterlösung Zur Prüfung der Güte und Interpretation der Ergebnisse der Clusteranalyse stehen mehrere Möglichkeiten offen. Hier sollen drei statistische Mittel und zwei eher pragmatisch Überlegungen kurz skizziert werden: F-Wert: Der F-Wert gibt den Grad der Homogenität der einzelnen Cluster an und kann für jedes Cluster und für jede Variable getrennt nach folgender Formel berechnet werden: - 8 -

v(j,c) F = (9) v(j) mit v(j,c) als Varianz der Variable J im Cluster C und v(j) als Varianz der Variable J in der Grundgesamtheit. Wenn F>, liegt im Cluster eine höhere Streuung der Variable vor, als in der Grundgesamtheit und das Cluster ist damit im Hinblick auf diese Variable als nicht homogen zu betrachten. Annehmbare Clusterlösungen sollten deshalb für hinreichend viele, wenn nicht alle Variablen einen F-Wert kleiner innerhalb aller Cluster aufweisen. t-wert: Ergänzend zum F-Wert kann für jede Variable in jedem Cluster ein t- Wert durch folgende Formel bestimmt werden: X(J,C) - X(J) t = (0) S(J) mit X (J, C) / X (J) als Mittelwert der Variable J im Cluster C / in der Grundgesamtheit und S(J) als Standardabweichung der Variable J in der Grundgesamtheit. t>0 zeigt an, dass die Variable J im Cluster C stärker besetzt ist als in der Grundgesamtheit, bzw. bei t<0 schwächer. Damit dienen t-werte vor allem der Interpretation der Cluster ( Wodurch zeichnet sich das Cluster aus? ) und dem Abgleich mit theoretischen Erwartungen (siehe unten), welcher für sich wiederum in gewisser Weise die Güte der Clusterergebnisse prüfen kann. Diskriminanz- oder Regressionsanalyse: Es ist ebenfalls denkbar, die entstandene Clusterlösung durch etablierte statistische Verfahren einer Prüfung zu unterziehen. Eine sich der Clusteranalyse anschließende Diskriminanzanalyse oder logistische Regression definiert als Zielvariable die Zugehörigkeit zu einem der gefundenen Cluster und untersucht den Einfluss der in der Clusteranalyse verwendeten Merkmale als unabhängige Variablen. Daraus sollte erkennbar werden, welche Merkmale besonderen Einfluss zur Bildung der Klassen haben und eine Interpretation der Cluster leichter fallen. Stabilitätsprüfung: Wie aus den bisherigen Ausführungen ersichtlich sein sollte, stehen sowohl verschiedene Ähnlichkeitsmaße wie auch Clusteralgorithmen zur Verwendung. Die Stabilität der Ergebnisse einer Anwendung der Clusteranalyse kann insbesondere überprüft werden, indem eine weitere Clusteranalyse auf Grundlage eines anderen Ähnlichkeitsmaßes und unter Verwendung eines anderen Algorithmus angewandt wird. Dieses Vorgehen mag nicht sonderlich einfallsreich sein, seine Wirksamkeit liegt in Anbetracht der Vielfalt möglicher Clustermethoden allerdings auf der Hand. Eine exakte Übereinstimmung der Clusterlösungen ist allerdings generell nicht zu erwarten. Theoretische Überlegung: Zuletzt - und im Rahmen sozialwissenschaftlicher Forschungspraxis wohl am nächstliegendsten - bleibt der Abgleich der empirischen Ergebnisse mit einem theoretischem Modell. Wenn auf diese Weise ex-ante festgesetzte Typologien oder Klassifikationen bestätigt oder verworfen werden, ist die Clusteranalyse in diesem Sinne auch hypothesentestend. - 9 -

Anwendungsbeispiel. Generelle praktische Vorüberlegungen Bevor oben beschriebene Verfahren anhand eines einfachen Beispiel-Datensatzes veranschaulicht werden, sollen kurz einige allgemeine Überlegung zur praktischen Durchführung einer Clusteranalyse angeführt werden. Backhaus et al. führen folgende Punkte an, die vor Durchführung einer Clusteranalyse beachtet werden sollten (000: 80-8): - Ausreißer: Einzelne Objekte, die sich in vielen Merkmalen und extrem von der Masse aller Objekte unterscheiden, führen wie bereits erwähnt zu deutlichen Verzerrungen in der Analyse. Sie sollten deshalb identifiziert (z.b. durch das single-linkage-verfahren) und ausgeschlossen werden. - Hochkorrelierende Variablen: In eine Clusteranalyse gehen alle Variablen mit gleichem Gewicht ein. Liegen korrelierert Variablen vor, die eine gemeinsame latente Variable messen, so geht diese latente Variable ungerechtfertigterweise mit höherem Gewicht in Analyse ein. Der Ausschluss hochkorrelierender Variablen oder die Verdichtung dieser Variable zu einem Faktor durch Faktorenanalyse schaffen Abhilfe. - Konstante Merkmale: Variablen, die für alle Objekte den gleichen oder nahezu gleichen Wert annehmen haben einerseits logischerweise keine Trennungskraft, können andererseits aber durchaus zu Verzerrungen im Prozess der Clusteranalyse führen. Sie sind deshalb auszuschließen. - Verschieden skalierte Variablen: Variablen mit verschieden breiten Skalierungen sollten standardisiert werden, um ungewünschte Gewichtungen einzelner Variablen zu vermeiden. Breitskalierte Variablen lassen eine höhere Varianz zu und gingen als solche mit höherem Gewicht in die Analyse ein.. Vorstellung des Beispiel-Datensatzes Unser Beispieldatensatz besteht aus Beobachtungseinheiten, für welche jeweils folgende Variablen erfasst wurden (vgl. Tabelle ): - Alter: Alter des Befragten in Jahren - SES: Sozioökonomischer Status (Prestigemaß mit W={0;60}) - Distanz: Distanz zwischen Wohn- und Geburtsort in km - Telefon: Monatliche Telefonkosten für Fern- und Auslandsgespräche in - Reisekilometer: Jährlich zurückgelegte Reisekilometer Obwohl ein einfaches Anwendungsbeispiel keiner tiefschürfenden theoretischen Überlegungen bedarf, so ist doch denkbar, dass die hier eingeschlossenen Variablen dazu dienen könnten, mögliche Mobilitätstypen aufzudecken. Wohnmobilität, Fernkontakte und Reisekilometer sollen hier einige Dimensionen des Mobilitätsverhaltens erfassen und mit Alter und sozioökonomischem Status des Befragten in Verbindung gesetzt werden. Die letzte Spalte in Tabelle beinhaltet das Endergebnis der Analyse und soll an dieser Stelle noch nicht interpretiert werden. Gemäß den Ausführungen im vorhergehenden Abschnitt wurden Korrelationen zwischen den Variablen untersucht und in der Mehrzahl der Fälle als nichtexistent und nicht-signifikant gefunden. Einzig die Variable Telefon korreliert mit den Variablen SES und Distanz, wird hier aber aufgrund der ihr unterstellten Messung einer eigenen Dimension in der Analyse beibehalten. Für die weitere - 0 -

Analyse wurden ferner alle Variablen zur Vermeidung von ungewünschten Gewichtungen z-standardisiert. Tabelle : Häufigkeitsmatrix ID Alter SES Distanz Telefon Reisekilometer Clusterzuordnung 5 90 50 00 600 B 50 00 900 50 000 E 9 5 0 0 500 A 7 5 50 50 800 A 5 7 05 0 90 000 C 6 8 80 50 80 90 B 7 60 0 0 0 00 D 8 70 50 0 00 B 9 90 00 00 500 C 0 5 0 0 00 800 C 56 80 0 0 0 D 70 0 5 0 0 D 0 05 00 80 50 B 5 60 0 80 000 A. Distanzmatrix und Dendogramm Auf Grundlage der z-standardisierten Variablen wurde die Distanz zwischen allen Objekten durch die quadrierte euklidische Distanz gemessen (vgl. Abschnitt.). Tabelle gibt die entstandene Distanzmatrix wieder. Tabelle : Distanzmatrix ID 5 6 7 8 9 0 Quadrierte Euklidische Distanz 5 6 7 8 9 0,00 9,76,00 7,9 5,59,00 7,98,69,7,00,75,5 8,87 8,,00,7 8,0,,8 0,50,00 0,85 7,7 7,0 8,8 6,79 7,,00,88 5,8 6,9 8,,68,5 9,9,00 0,7 0,9 6,88 5,7,5 9,88,07,6,00,50 6,70 6, 5,6,09 0,55 7,9,,8,00 8,88,5 6,95 9,,6 5,0,58 7, 8,5,09,00 5,0 0,8 0,,86 9,7,,58, 8,7 0,,,00,67,55 6,0 7, 6,7,6 6,0, 8, 8,60 5,75 0,5,00 0,,7,6,9 7, 6, 0,0 0,55,0,88,7,78 8,0,00 Zur Erinnerung: Hohe Distanzwerte zeigen eine geringe Ähnlichkeit zwischen den Objekten an. Damit können in Tabelle erste Beobachtungen über die Unterschiedlichkeit der einzelnen Objekte angestellt werden: Für Objekt (ID) fällt auf, dass hier durchweg besonders hohe Distanzwerte vorliegen. Dies ist ein erster Hinweis darauf, dass dieses Objekt als Ausreißer aus der Datenmenge gelten kann (die spätere Analyse wird dies bestätigen). Bei Nichtberücksichtigung des Objekts finden wir folgende Extremfälle: - Die größte Distanz besteht zwischen Objekt und. Ein Blick auf die Variablenwerte dieser Objekte (vgl. Tabelle ) lässt dies nachvollziehbar werden: Beobachtungseinheit zeichnet sich insbesondere durch ein hohes Alter und sehr geringe Mobilität auf allen drei Mobilitätsdimensionen aus, - -

während Objekt bei jungem Alter relativ hohe Mobilität aufweist. - Die geringste Distanz besteht zwischen den Objekten und. In der Tat wird aus Tabelle sichtbar, dass beide Objekte in allen Variablen annährend gleiche Ausprägungen aufweisen. Auf Grundlage der errechneten quadrierten euklidischen Distanzen wird nun als Clusteralgorithmus das Single-Linkage-Verfahren angewandt (vgl..). Tabelle protokolliert die einzelnen Fusionierungsschritte. Im ersten Schritt werden die Objekte und, welche bereits oben als ähnlichste Objekte identifiziert wurden, vereinigt. Es wird ebenfalls der zugrunde liegende Distanzkoeffizient berichtet, welcher in diesem Fall noch direkt aus der Distanzmatrix in Tabelle abzulesen ist; im Verlauf des weiteren Clusterprozesses allerdings nicht mehr, da dem Algorithmus mit jedem Schritt eine um eine Spalte und Zeile reduzierte Distanzmatrix mit neuberechneten Distanzwerten zugrunde liegt. Tabelle : Fusionierungsverlauf Schritt 5 6 7 8 9 0 Clusterfusion Cluster Cluster Distanz,7,9 7,58 8,88 5 0,09 6,5, 7,58 5 9,8, 5,88 7 5,0 0,9 Eine sehr viel anschaulichere Darstellung des Fusionsprozesses liefert das zugehörige Dendogramm (vgl. Abbildung ). Erneut können wir hier bereits beobachtete Zusammenhänge nachvollziehen: Die ähnlichsten Objekte und wurden ganz zu Anfang ( früh entspricht hier also links ) fusioniert. Die als weit voneinander entfernte identifizierten Objekte und werden entsprechend erst relativ spät in ein Cluster zusammengefasst (aus dem Fusionsprotokoll in Tabelle wird deutlicher dass dies sogar erst im zweitletzten Schritt und über das Brückenobjekt 7 erfolgt). Auch Objekt wird erwartungsgemäß als eindeutiger Ausreißer identifiziert. Es wird als solches zuletzt und bei hoher Distanz zum letzten Cluster mit diesem fusioniert. Die Entscheidung für eine bestimmte Clusterlösung und deren Interpretation soll durch die Buchstaben A bis D deutlich gemacht werden ( E für den Ausreißer). In der Tat sind die Objekte in den jeweiligen Clustern relativ leicht charakterisierbar: - Cluster A: Tourismustyp (mittleres Alter und SES, geringe Distanz und Telefonkosten, sehr hohe Reisekilometer) - Cluster B: Studententyp (relativ jung und niedriger SES, mittlere Mobilität auf allen drei Dimensionen) - -

- Cluster C: Businessreisender (mittleres Alter und hoher SES, mittlere Distanz und Telefonkosten, hohe Reisekilometer) - Cluster D: Immobiler Typ (hohes Alter, mittlerer bis geringer SES, geringe Mobilität auf allen Ebenen) Abbildung : Dendogramm Distanzmaß bei Clusterfusion (reskaliert) 0 5 0 5 0 5 Cl. ID +---------+---------+---------+---------+---------+ A òø A òôòòòòòòòòòòòø A ò ó B òòòûòø ùòòòø B 8 òòò ó ó ó B 6 òòòòòôòòòòòòò ùòòòòòø B òòòòò ó ó C 5 òòòûòòòòòòòø ó ó C 0 òòò ùòòòòò ùòòòòòòòòòòòòòòòòòòòòòòòòòø C 9 òòòòòòòòòòò ó ó D 7 òûòòòòòø ó ó D ò ùòòòòòòòòòòòòòòò ó D òòòòòòò ó E òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò Wie unter. beschrieben, zeichnen sich deutlich getrennte Klassen dadurch aus, dass ihr Zusammenschluss über folgende Fusionierungsschritte hinweg relativ lange unverändert bleibt. In Abbildung gilt dies zum Beispiel für das Cluster A und D. An dieser Stelle soll die empirische Illustration der angeführten Konzepte enden. In einer tatsächlichen empirischen Untersuchung müsste sich hier natürlich eine eingehende Validitätsprüfung gemäß Abschnitt. anschließen. 5 Ergänzung: Das K-Means-Verfahren Nachdem sich die bisherigen Ausführungen ausschließlich auf hierarchische Clusterverfahren bezogen haben, soll zum Abschluss ergänzend ein Algorithmus aus der Gruppe der partitionierenden Clusterverfahren vorgestellt werden. Bei dem K-Means-Verfahren handelt es sich um ein iterativ-partielles Verfahren, das trotz anderer Grundstruktur des Fusionierungsalgorithmus in Bezug auf mögliche Ausgangsproblematiken, Interpretation und Validitätsprüfung in weiten Teilen den bereits vorgestellten Techniken entspricht. Deshalb konzentrieren sich die folgenden komprimierten Erläuterungen ausschließlich auf die zentralen Besonderheit des K-Means Verfahrens. 5. Der K-Means-Algorithmus Wie bei allen partitionierenden Verfahren wird als Startpunkt des Verfahrens eine bestimmte Anzahl k von Clustern vorgegeben. Der Algorithmus tauscht sodann - -

alle Objekte solange zwischen den Clustern aus, bis keine Verbesserung der Clusterstruktur mehr möglich ist, sprich die Streuung innerhalb der Cluster auf ein Minimum gesunken ist. Genauer werden folgende Schritt vollzogen:. Vorgabe der Clusteranzahl k (vgl. Fußnote ). Auswahl von k Initial-Clusterzentren: k Objekte werden als Ausgangs-Clusterzentren festgelegt. Die Auswahl dieser Objekte ist entweder zufallsgesteuert, systematisch (erste k Objekte, systematische Auswahl jedes i-ten Objekts, etc.), statistisch fundiert (die k unähnlichsten Objekte 5 ) oder inhaltlich zu begründen.. Zuordnung aller Objekte zu einem der k Clusterzentren: Jedes Objekt X wird dem Clusterzentrum K zugeordnet, zu dem der geringste Abstand (quadrierte euklidische Distanz) besteht.. Neuberechnung der Clusterzentren: Für solchermaßen generierte neue Cluster muss ein neues Clusterzentrum berechnet werden. Die k Clusterzentren (C k ) ergeben sich als Durchschnitts- Vektor der im Cluster vereinigten Objekte (k means, daher auch der Name), also C = X mit k k x n k x ji( k ) i= jk = nk wobei n k als Anzahl der Objekte im Cluster k und x ji(k) als q-te Variable des Objektes i im Cluster k. () 5. Wiederholung der Schritte - bis keine Neuordnung der Objekte mehr stattfindet (oder Abbruch bei vorgegebenem maximalem Iterationsschritt). Für das K-Means-Verfahren ergeben sich hinsichtlich der Modellprüfung und Interpretation der Cluster einige zusätzliche Möglichkeiten: - Insbesondere durch Veränderung der Initial-Clusterzentren sollte überprüft werden, ob eine stabile Clusterlösung gefunden ist. - Als allgemeine Prüfgröße steht die Streuungsquadratsumme innerhalb der Cluster (die durch den Algorithmus ja stets minimiert werden soll) zur Verfügung. Ähnlich der Varianzanalyse kann diese als (durch die Clusteraufteilung) nicht-erklärte Streuung interpretiert werden. Die Streuungsquadratsumme errechnet sich für alle Variablen j der Objekte g aus Cluster k folgendermaßen: SQ = ( x x () ( k ) gj kj ) k j SQ kann nun beispielsweise für eine verändert Anzahl Cluster untersucht werden und mithilfe statistischer Maße bewertet werden (PRE-Maß, maximale F-Statistik, Bealsche F-Werte, siehe hierzu Bacher 996: 6-) - Da das K-Means-Verfahren sich in seinem Vorgehen stark auf Clusterzentren konzentriert, liegt es auf der Hand, für die Interpretation der entstandenen Cluster ebenfalls vorrangig Bezug auf die Clusterzentren (neben der Clustergröße und -streuung) zu nehmen. So kann beispielsweise der Abstand zwischen den Clustern durch die quadrierten euklidischen Distanzen zwischen 5 Hier ergibt sich allerdings das Problem, dass auf diese Weise auch Ausreißer zu Initial-Clusterzentren werden. - -

ihren Clusterzentren gemessen und interpretiert werden; die Signifikanz der Unterschiede zwischen den einzelnen Clustermittelwerten untersucht werden (anhand des t-werts); oder auch der Unterschied zwischen Cluster- und Gesamtmittelwert auf Signifikanz geprüft werden (anhand der z-werte). 5. Empirische Umsetzung in Clementine und STATA Während das Statistikpaket STATA bereits K-Means-Algorithmen umfasst (StataCorp. 00), kommt SPSS bislang ohne diese aus und bietet stattdessen ein eigenständiges Programm für Clusteranalysen mit dem Namen Clementine an (SPSS 00). Sowohl Clementine als auch STATA sollen hier für eine knappe empirische Umsetzung des K-Means-Verfahrens verwendet werden. Der Einfachheit halber greifen wir auf den bereits benutzten Beispieldatensatz zurück (wobei der früher identifizierte Ausreißer ausgeschlossen wurde). Der Beispielcharakter der Anwendung muss hier besonders unterstrichen werden, ist das K-Means-Verfahren doch auf sehr viel größere Datensätze ausgelegt und liefert bei fast überlappungsfreier Clusterstruktur erst ab einer Stichprobengröße über 500 brauchbare Ergebnisse, bei sich überlappenden Clustern bedarf es einer noch höheren Fallzahl (genauer zum asymptotischen Verhalten des K-Means- Verfahrens siehe Bacher 996: 0-6). Dennoch mögen die Berechnungen dazu dienen, das K-Means-Verfahren nochmals zu veranschaulichen und vor allem einige wenige weitere Illustrationsmöglichkeiten für die Ergebnisse von Clusteranalysen darzustellen. Das Programmpaket Clementine bietet einen Algorithmus für das K-Means- Verfahren an, der folgende Setzungen vornimmt: Für die Initialclusterzentren werden die am weitesten voneinander entfernten Objekte ausgewählt. Außerdem werden automatisch alle Variablenwerte über die Formel x i =(x i -x min )/(x max -x min ) standardisiert. Als Distanzmaß ist die quadrierte euklidische Distanz festgelegt. Die verbleibende selbst zu treffende Entscheidung über die Clusteranzahl fiel hier (gemäß der Lösung aus.) auf k=. Der K-Means-Algorithmus kommt nach Iterationen zu einer gleichmäßig verteilten Clusterlösung mit Clustern mit jeweils Objekten und einem Cluster mit Objekten. Es zeigt sich, dass die Objektbesetzung der Cluster exakt jener aus Abschnitt. entspricht! Zur besseren Interpretation der Cluster gibt Clementine für jedes Cluster den Mittelwert samt Standardabweichung an. Aus Tabelle 5 ist damit schnell ersichtlich, welche Cluster den bereits weiter oben gefundenen Mobilitätstypen entsprichen. Tabelle 5: Clementine-Output: Clustermittelwerte und Standardabweichung Alter Reisekm. Telefon SES Distanz Cluster Cluster Cluster Cluster Overall 6,75, 6,0 7,0 0,6 (,75) (8,) (7,) (,0) (,9) 95,0.766,67,.766,67.06,5 (5,) (750,56) (57,7) (5,66) (.55,) 0,0 6, 6,67 56,67,6 (,) (55,08) (0,8) (0,8) (99,7) 86,5 05,0 0,0 6,67,08 (,9) (5,0) (,6) (,55) (9,8),5 7, 8,, 89,6 (79,7) (0,5) (7,6) (5,7) (,9) entspricht Student Business Immobiler Tourist - 5 -

Im Programmpaket STATA stehen dem Anwender mehr Einflussmöglichkeiten auf die veränderbaren Teile des K-Means-Algorithmus zur Verfügung. So steht ihm beispielsweise die Wahl der Initialclusterzentren (hier ausgewählt: erste k Objekte) und die Wahl des Ähnlichkeitsmaßes (hier ausgewählt: euklidische Distanz) frei. Es wurden z-standardisierte Werte zugrunde gelegt. Die vorgegebene Clusteranzahl wurde bei k= belassen. Das Ergebnis des Clusterprozesses bestätigt erneut die relativ hohe Stabilität der früher erreichten Clusterlösung: Lediglich zwei Objekte sind hier aus dem Cluster Student in das Cluster Immobile übergewechselt (Objekt 6 und ), ansonsten ist die Verteilung nach wie vor die gleiche wie in den vorhergehenden Clusterlösungen. Dabei gilt folgende Entsprechung: - Studententyp, - Immobiler Typ (+Student), - Tourismustyp und - Businessreisender. STATA ermöglicht die Abtragung der Ausprägungen aller Objekte auf jeweils zwei Variablen in einer sogenannten Scatterplot-Matrix (siehe Annex I). Die Objektpunkte werden mit einer Zahl zwischen und, die deren Clusterzugehörigkeit wiedergibt, dargestellt. In der Matrix in Annex I können nun für alle Variablenkombinationen die Verteilung der Objekte im zweidimensionalen Raum und für diesen die Trennschärfe der Cluster untersucht werden. Es können auch erste Rückschlüsse auf die Trennungskraft einzelner Variablen gezogen werden. Weitergehende statistische Analysemöglichkeiten in diese Richtung wurden bereits in Abschnitt 5. angezeigt. 6 Fazit Ziel war die Beschreibung der grundlegenden Vorgehensweise von Clusteranalysen. Im Rahmen dieser Arbeit konnten aus der Menge möglicher Clusterverfahren nur einige wenige ausgewählt werden. Grundlage jedes Clusterverfahrens ist die Berechnung eines Proximitätskoeffizienten für alle Untersuchungsobjekte. Eine Auswahl der wichtigsten Ähnlichkeits- und Distanzmaße wurde aufgezeigt; für den weiteren Verlauf allerdings ausschließlich die (quadrierte) euklidische Distanz zur Anwendung gebracht. In einem nächsten Schritt wurde die Vorgehensweise von Clusteralgorithmen im Allgemeinen vorgestellt und die Methode hierarchischer, agglomerative Verfahren und hier besonders das single-linkage-verfahren näher betrachtet. Anhand eines einfachen, konstruierten Beispieldatensatzes wurde für letzteres Verfahren eine empirische Illustration vollzogen. Durch eine Distanzmatrix, ein Fusionierungsprotokoll und ein Dendogramm sollten die Grundlagen des Clusteralgorithmus nachvollziehbar gemacht werden. Wenn auch die Güte und die Interpretation der berechneten Clusterlösung in einem solchen Datenbeispiel nicht im Vordergrund steht, so erhielt jene in einer weiterführenden Analyse doch anschauliche Bestätigung: Das ergänzend vorgestellte K-Means-Verfahren als Beispiel für die Klasse partitionierender Clusterverfahren lieferte keine stark abweichenden Ergebnisse. Ferner wurden in diesem Rahmen weitere Darstellungsmöglichkeiten clusteranalytischer Ergebnisse deutlich (Tabelle 5 und Annex I). Darüber hinausgehende grafische Darstellungsmethoden konnten hier nicht behandelt werden, auch wenn ihnen als hilfreiche Stütze des strukturaufdeckenden Zieles der Clusteranalyse besondere Bedeutung zukommt. Auch gewinnen Güteprüfung und Ansätze zur Interpretation der Cluster zur analytischen Einbindung der deskriptiven Ergebnisse in der Praxis sicherlich mehr Gewicht, als ihnen in dieser Arbeit zukommen konnten. - 6 -

References Aldenderfer, Mark S./Roger K. Blashfield, 98: Cluster Analysis. Beverly Hills / London / New Delhi: Sage Publications. Bacher, Johann, 996: Clusteranalyse. Anwendungsorientiere Einführung. München / Wien: R. Oldenourg Verlag. Backhaus, Klaus et al., 000: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 9. Auflage. Berlin et al.: Springer. Kaufmann, Heinz/Heinz Pape, 996: Clusteranalyse. In: Lutz Fahrmeiret al. (Hrsg.), Multivariate statistische Verfahren. Berlin / New York: de Gruyter, 7-56. SPSS, 00: K-means Algorithm. Clementine 8.0 Algorithmus Guide. 5-5. StataCorp., 00: Stata Statistical Software: Release 8.0. Cluster Analysis. College Station: Stata Corporation. - 7 -

Annex I: STATA-Output: Verteilung der Clusterobjekte auf jeweils zwei Variablen alter 0 - ses - distanz 0 - - 0-0 telefon reisekm - 0