Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Ähnliche Dokumente
Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

4.4 Hierarchische Clusteranalyse-Verfahren

Multivariate Verfahren

4.Tutorium Multivariate Verfahren

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Clusteranalyse mit SPSS

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Präsentation der Ergebnisse von Clusteranalysen Antje Seidel-Schulze, Difu Berlin

3. Lektion: Deskriptive Statistik

Lage- und Streuungsparameter

Statistik II: Klassifikation und Segmentierung

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Methoden der Klassifikation und ihre mathematischen Grundlagen

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Clusteranalyse K-Means-Verfahren

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Ähnlichkeits- und Distanzmaße

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Klassifikation und Ähnlichkeitssuche

Hierarchische Clusteranalyse

20 Clusteranalyse Praktische Anwendung

Hypothesentests mit SPSS

z Partitionierende Klassifikationsverfahren

Aufgaben zur Multivariaten Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Statistische Grundlagen I

Einführung in die Cluster-Analyse mit SPSS

Clusteranalyse und Display-Methoden

4.3 Hierarchische Klassifikationsverfahren

der Datenauswertung (Übung)

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Auswahlverfahren. Verfahren, welche die prinzipiellen Regeln zur Konstruktion von Stichproben angeben

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien

6. Multivariate Verfahren Zufallszahlen

2. Datenvorverarbeitung

Faktorenanalyse und Clusteranalyse

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Proseminar: Web-Performance

Clusteranalyse Softwareeinsatz anhand eines konkreten Beispiels mit SPSS

Kapitel 2. Mittelwerte

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Dieses Kapitel vermittelt:

Angewandte Statistik 3. Semester

Netzwerkanalyse II. Übersicht. VL Forschungsmethoden. 1 Rollen, Positionen, Cluster Strukturelle Äquivalenz Cluster Blockmodels. 2 Beispiele.

Tabelle 1.5: Relative Wichtigkeit von Ausprägungen.

Tabelle A 1: Vorzeitiger Abgang vom Gymnasium (Diskretes Übergangsratenmodell)

Kapitel VII - Konzentration von Merkmalswerten

Konzepte II. Netzwerkanalyse für Politikwissenschaftler

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Multivariate Statistische Methoden

Mehrdimensionale Skalierung

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Grundlagen der empirischen Sozialforschung

Multiple Regressionsanalyse - Kurzabriss

von 1970 bis 2010 Mediensoziologische Forschung in vergleichender Perspektive Funktionen von Medien im Zeitverlauf von 1970 bis 2010

So lügt man mit Statistik

Der Weg eines Betrunkenen

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

» S C H R I T T - F Ü R - S C H R I T T - A N L E I T U N G «M U L T I P L E L I N E A R E R E G R E S S I O N M I T S P S S / I B M Daniela Keller

Inhaltsverzeichnis. Vorwort

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

1.5 Berechnung von Rangzahlen

Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung

Teil: lineare Regression

Informationen zur KLAUSUR am

Seminar zum Thema Künstliche Intelligenz:

SozialwissenschaftlerInnen II

unabhängigen Variablen Eine Funktion dient der Beschreibung von Zusammenhängen zwischen mehreren verschiedenen Faktoren.

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Statistik eindimensionaler Größen

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Clustern: Voraussetzungen

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Einführung in die Korrelationsrechnung

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse für Netzwerke

Tutorial: Balken- und Tortendiagramm

Marktdifferenzierung durch Nischenbildung - Eine Clusteranalyse für den Friseurmarkt im Städtevergleich

Quadratische Gleichungen

Übungen mit dem Applet x /s-regelkarte nach Shewhart

Multivariate Statistische Methoden und ihre Anwendung

Parametrische vs. Non-Parametrische Testverfahren

Statistische Auswertung in der Betriebsprüfung

Kap. 5 Spatial (räumliches) Data Mining

Mathematische Grundlagen III

Ingenieur- und Beratungsbüro B. Villing, Target Costing

Statistik II: Grundlagen und Definitionen der Statistik

Check P Ergebnisbericht für den Bildungsraum Nordwestschweiz. Lukas Giesinger, Jeannette Oostlander & Stéphanie Berger

Bevölkerungsstruktur in deutschen Städten

Hinweise zur Lösungsfindung und zur didaktischen Aufbereitung Teil 2

Transkript:

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken Dr. Ralf Gutfleisch, Frankfurt am Main Haben Sie schon mal geclustert? war die Frage, die zu Beginn des Workshops der Arbeitsgemeinschaft Methodik im Verband Deutscher Städtestatistiker (VDSt) auf der Frühjahrstagung in Saarbrücken gestellt wurde. Ziel der dreistündigen Veranstaltung war es, die Methodik der Clusteranalyse vorzustellen. Neun Vorträge beschäftigten sich mit Anwendungsbeispielen, Präsentationshilfen und einschlägigen Datenverarbeitungs-Instrumenten. Ein Veranstaltungsreader mit allen Vorträgen und Literaturvorschlägen ist in Vorbereitung und wird auf der Internetseite der Städtestatistik bereitgestellt. Dieser Beitrag gibt einen Methodenüberblick und diente als Einstieg in den Workshop. 1. Fragestellung Drei Fragen stehen im Vordergrund dieser Einführung: o Was ist eine Clusteranalyse? o Welche Voraussetzungen sind notwendig? o Wie wird geclustert? Ziel ist es, die Methodik des Analyseverfahrens transparent zu machen. Dabei wird ein pragmatischer Zugang gewählt, der auch Anfängern den Einsatz der Clusteranalyse ermöglicht. Die Verfahrensabläufe werden Schritt für Schritt beschrieben und auch solche Prozesse erläutert, die im Programmhintergrund ablaufen. Darüber hinaus werden Handlungsempfehlungen gegeben, um Entscheidungen zu erleichtern, die an zentralen Stellen zu treffen sind. 2. Definition Die Clusteranalyse ist ein Gruppenbildungsverfahren. Das Ziel des Verfahrens besteht darin, ähnliche Objekte zu Gruppen zusammenzufassen. Wissenschaftlich exakt ausgedrückt lautet dies: Ziel der Clusteranalyse ist es, aus einer heterogenen Gesamtheit von Objekten homogene Teilmengen zu identifizieren. Abzuleiten ist die Verfahrensweise auch von der Etymologie des Wortstamms Cluster. Aus dem englischen Sprachraum kommend, lässt es sich mit Haufen, Klumpen oder auch Ballung übersetzen. Eine Zusammenballung von Objekten lässt sich leicht assoziieren. Abbildung 1: Sumo-Ringer Abbildung 2: Sumo-Ringer gruppiert

190 Haben Sie schon mal geclustert? In der deutschen Sprache findet man ein Pendant im althochdeutschen Grimm schen Wörterbuch, indem das Wort Kluster verwendet wird. Die Übersetzung lautet hierfür: was dicht und dick zusammensitzt. Beim Versuch einer einfachen Darstellung der Clusteranalyse tauchte nach dieser Übersetzung schnell das Bild der Sumo-Ringer auf wegen ihrer Körperfülle dick und aufgrund ihres Sportes dicht zusammensitzend. Die Ringer sind damit leicht vergleichbar mit den Objekten einer Clusteranalyse. Betrachtet man die Sumo-Ringer in Abbildung 1, stellt man zunächst ein Haufen sitzender Kämpfer fest. Sie lassen sich nur schwer gruppieren, da gemeinsame Attribute auf Anhieb nur schwer erkennbar sind. Erst beim zweiten Blick wird deutlich, dass gruppenbildende Merkmale Haarfarbe und Schürze sind. Innerhalb einer Gruppe sind diese gleich eingefärbt, z.b. blaue Schürze und schwarze Haare. Damit unterscheidet sie sich auch von Anderen, z.b. den Weißhaarigen und Grünschürzigen. Durch das Einkreisen in Abbildung 2 werden die vier Gruppen leicht erkennbar. Nach diesem Prinzip funktioniert auch die Clusteranalyse. Würde man sie clustern, wären die zu gruppierenden Objekte die Sumo- Ringer. Die Merkmale unterschiedlicher Ausprägung wären deren Haar- und Schürzenfarbe. Die Cluster wären die vier gebildeten Gruppen (z.b. schwarze Haare/blaue Schürze oder weiße Haare/grüne Schürze). Das Ergebnis wäre idealtypisch und entspricht einer der Grundregeln der Clusteranalyse: Objekte innerhalb einer Gruppe sollen homogen sein, Objekte zwischen den Gruppen sollen heterogen sein. In der Praxis werden natürlich selten Sumo- Ringer geclustert, obwohl das Anwendungsspektrum mittlerweile breit gestreut ist. Auffällig ist, dass seit den 90er Jahren vermehrt geclustert wird. Zurückzuführen ist dies zum einen auf die bedienerfreundlicheren Programme, zum anderen auf die zahlreichen Erfahrungen mit der Methode. Einige Beispiele seien hier genannt: Marketing: Zusammenhang zw. Selbstbild und Wahl einer Automarke Archäologie: Kultureller Fingerabdrücke in der Kategorie Schmuck in hallstattzeitlichen Siedlungen im Mittelrheingebiet Botanik: Ein pflanzensoziologisches Modell der Schattentoleranz von Baumarten in den Bayerischen Alpen

Haben Sie schon mal geclustert? 191 Im Umfeld der Städtestatistiker wird die Clusteranalyse u.a. für Wahlanalysen, Bevölkerungsanalysen, Bürgerumfragen, Umwelt- und Wirtschaftsanalysen eingesetzt. Der größte Anteil stellt hier sozio-ökonomische Analysen dar (siehe z.b. Nürnberger und Frankfurter Sozialraumanalysen). 3. Vorüberlegungen Bevor eine Clusteranalyse gerechnet wird, sind zahlreiche Vorüberlegungen notwendig. Die Auswahl und die Aufbereitung der Variablen spielen hierbei eine wichtige Rolle. Sie haben einen wesentlichen Einfluss auf das Analyseergebnis und die darauf aufbauende Interpretation. Wichtige Punkte im Einzelnen: Anzahl Merkmale: Für die Anzahl der Merkmale (Variablen) gibt es keine Begrenzung. Es sollte jedoch bei den Vorüberlegungen darauf geachtet werden, dass nur relevante themenspezifische Variablen einbezogen werden. Anzahl Objekte: Die Anzahl der Objekte ist ebenfalls nicht begrenzt. Skalenniveau: Es ist kein spezielles Skalenniveau erforderlich. Es können alle Daten einbezogen werden. Standardisierung: Die Daten sollten vor dem Rechenbeginn standardisiert werden, um sie vergleichen zu können. Die Standardisierung erfolgt mithilfe einer z- Transformation. Sie gewährleistet, dass der Mittelwert gleich Null und die Standardabweichung gleich Eins ist. Ausreißer: Ausreißer sind Objekte, die im Gesamtvergleich Extremwerte aufweisen. Sie sollten ausgeschlossen werden, da der Fusionierungsprozess beeinflusst wird. Zusammenhänge können dadurch nur noch schlecht erkannt werden. Korrelationen: Hoch korrelierende Variablen sollten ebenfalls ausgeschlossen werden, wenn sie aus wichtigen inhaltlichen Gründen nicht einbezogen werden müssen. Das Ergebnis kann anderenfalls durch Überbewertungen verzerrt werden. Dies müsste bei der Interpretation beachtet werden. Konstante Ausprägungen: Variablen mit konstanten Ausgangswerten führen zu einer Nivellierung der Unterschiede und werden häufig aus der Analyse entfernt (z.b. ein Frauenanteil, der in allen Bezirken 50 % beträgt). Sie führen zu keiner Differenzierung und erschweren damit die Interpretation. 4. Ablauf Sind die Vorüberlegungen abgeschlossen, sind drei Schritte für die Berechnung der Analyse erforderlich: o Bestimmung der Distanz durch die Proximitätsmaße o Auswahl des Fusionierungsalgorithmus o Bestimmung der Clusteranzahl. 4.1 Proximitätsmaße Die Proximitätsmaße geben die Distanz der Merkmale zwischen den einzelnen Objekten wieder. Es wurde eine Reihe von Maßen entwickelt, die abhängig sind vom Skalenniveau der Ausgangswerte. Da es sich bei den meisten von den Städtestatistikern eingesetzten Variablen um metrisch skalierte Daten handelt, kommen von den einsetzbaren Maßen meist die L- Normen zum Einsatz. Bei der L2-Norm, der Quadrierten Euklidischen Distanz, werden die Differenzen zwischen den einzelnen Objekten am deutlichsten. Hier werden die quadrierten Differenzwerte addiert und aus der Summe die Quadratwurzel gezogen. Unterschiede zwischen ähnlichen und unähnlichen Objekten treten deutlicher hervor. Ist das Distanzmaß bestimmt wird die Distanzmatrix automatisch berechnet. 4.2 Fusionierung Die Distanzmatrix bildet nun den Ausgangspunkt für die Fusionierung mit Hilfe der Cluster-Algorithmen. Die Clusteranalyse bietet den Anwendern ein breites Spektrum an Algorithmen zur Gruppierung an.

192 Haben Sie schon mal geclustert? Abbildung 3: Überblick über ausgewählte Proximitätsmaße nach BACKHAUS (2006) Abbildung 4: Überblick über ausgewählte Cluster-Algorithmen nach BACKHAUS (2006) Die häufigste Anwendung findet die partitionierenden und die hierarchischen Verfahren. Die partitionierenden Verfahren gehen von gegebenen Clustern aus. Wird die gewünschte Anzahl festgelegt, werden die einzelnen Objekte mit Hilfe eines Algorithmus so lange zwischen den Clustern umgeordnet, bis ein Optimum erreicht ist. Der Nachteil des Verfahrens liegt in der vorzugebenden Startpartition. Bei den hierarchischen Verfahren wird zwischen agglomerativen und divisiven Algorithmen unterschieden. Beim divisiven Algorithmus startet die Clusteranalyse mit der gröbsten Partition. Alle Objekte befinden sich in einem Cluster. Im Laufe des Rechenprozesses wird dieser Großcluster in immer kleinere Cluster aufgeteilt. Beim agglomerativen Verfahren findet der Prozess in umgekehrter Reihenfolge statt. Der Rechenprozess geht von der feinsten Partition aus. Hier stellt jedes Objekt ein Cluster dar. Objekte mit der geringsten Distanz werden miteinander verbunden. Das Verfahren läuft solange, bis ein Großcluster entstanden ist. Die hierarchische Beziehung zwischen den einzelnen Clusterlösungen besteht in der nicht mehr aufzulösenden Bindung. Im Gegensatz zu den partitionierenden Verfahren ist eine einmal vorgenommene Verschmelzung nicht mehr zu lösen. In der Praxis findet das agglomerative Verfahren die häufigere Anwendung; hier vor allem das Ward-Verfahren. Der Unterschied zwischen den verschiedenen agglomerativen Verfahren liegt in der Bestimmung der Distanzen. Das Ward-Verfahren

Haben Sie schon mal geclustert? 193 fasst nicht wie andere Verfahren diejenigen zusammen, die die geringste Distanz aufweisen. Es werden vielmehr die Objekte miteinander vereinigt, die das Varianzkriterium (=Fehlerquadratsumme) am wenigsten erhöhen. Das Varianzkriterium stellt die Summe der Entfernungsquadrate zwischen den Gruppenmittelpunkten der Cluster dar. Vor jeder Zusammenführung mit einem neuen Cluster wird die Gesamtvarianz des alten Clusters berechnet und nur jene Cluster zusammengeführt, die die Varianz am wenigsten verändern. Je höher die Fehlerquadratsumme ist, desto heterogener sind die fusionierten Cluster. Zu Beginn werden dadurch kleine Cluster gebildet, die später zu großen fusioniert werden. Dieser Vorgang wird solange fortgeführt, bis alle Cluster miteinander vereint sind. Die Schwierigkeit besteht nun darin, eine geeignete Clusteranzahl zu bestimmen. 4.3 Clusterzahl Zur Bestimmung der geeigneten Clusteranzahl bestehen folgende Möglichkeiten: o Fehlerquadratsumme o Elbow-Kriterium o Dendrogramm. Fehlerquadratsumme: In der von den Programmen ausgegeben Zuordnungsübersichten werden die einzelnen Fusionierungsschritte angegeben (vgl. Abbildung ). Die Spalte Zusammengeführte Cluster gibt die Nummer der zusammengezogenen Objekte bzw. Cluster an. Der neu entstandene Cluster erhält als Identifikationsnummer immer die Nummer des zuerst genannten Clusters (Cluster 1). Zum Nachverfolgen werden ebenfalls das erste Vorkommen des Clusters und die nächste Fusionierung (=nächster Schritt) ausgewiesen. In der Spalte Koeffizient wird die am Ende einer Fusion entstandene Fehlerquadratsumme wiedergegeben. Bei größeren Fusionsschritten, bei denen die Fehlerquadratsumme einen Sprung macht, sind Cluster zusammengeführt worden, die heterogen sind. Um dies zu vermeiden, wird an dieser Stelle die Fusion angehalten. In der vorletzten Spalte der Tabelle (Diff. CL1:CL2) stehen die Differenzen der Fehlerquadratsummen, so dass große Abstände leichter auffallen. Leider weisen die Programmpakete diese nicht aus. Sie müssen manuell berechnet werden. Schritt Zusammengeführte Cluster Koeffizienten Erstes Vorkommen des Clusters Nächster Schritt Diff. CL1:CL2 Clusteranzahl Cluster 1 Cluster 2 Cluster 1 Cluster 2 100 25 62 267,35 99 91 103 21,8 10 101 14 18 291,56 94 97 105 24,2 9 102 3 13 317,16 96 0 108 25,6 8 103 25 47 346,46 100 74 107 29,3 7 104 2 7 387,24 93 89 106 40,8 6 105 14 65 428,42 101 98 107 41,2 5 106 1 2 473,85 95 104 108 45,4 4 107 14 25 599,89 105 103 109 126,0 3 108 1 3 738,35 106 102 109 138,5 2 109 1 14 981,00 108 107 0 242,7 1 Abbildung 5: Einzelne Fusionsschritte in der Zuordnungsübersicht mit Differenzen Der große Sprung lässt sich in diesem Falle leicht zwischen dem 106. und 107. Schritt erkennen. Hier steigt die Differenz von 45,4 auf 126,0. Bei insgesamt 109 Fusionsschritten entspricht dies einer Clusteranzahl von vier. Elbow-Kriterium: Beim Elbow-Kriterium werden die Fehlerquadratsummen in ein Diagramm abgetragen. Zeigt sich im Kurvenverlauf ein Knick ( Ellbogen ), so kann dieser Wert als Entscheidungskriterium für die Clusteranzahl verwendet werden.

194 Haben Sie schon mal geclustert? Fehlerquadratsumme 1000 900 800 700 Elbow 600 500 400 300 200 100 0 1 2 3 4 5 6 7 8 9 10 Clusteranzahl Abbildung 6: Elbow-Kriterium Dendrogramm: Im Dendrogramm werden die einzelnen Fusionsschritte grafisch dargestellt. Die Schritte werden dabei auf einer Skala von 0 bis 25 normiert. Bei 25 wird immer der letzte Fusionsschritt darstellt. Bei diesem sind alle Objekte und Cluster miteinander verbunden. Da alle Schritte im Dendrogramm abgebildet sind, kann der Fusionierungsprozess nachvollzogen werden. Für die Anwender ist es hilfreich, die nach der gewünschten Clusteranzahl dargestellten Fusionsschritte zu überdecken. Die Cluster können dann leichter erkannt werden. Um ein umfassendes Fusionierungsbild zu erhalten, ist es sinnvoll alle drei Möglichkeiten zu betrachten und sich erst im Anschluss für eine Clusteranzahl zu entscheiden. Abbildung 7: Dendrogramm mit allen Fusionsschritten Abbildung 8: Dendrogramm mit vier ausgewählten Clustern

Haben Sie schon mal geclustert? 195 Die drei wichtigsten Ablaufschritte hier nochmals zusammengefasst: 1. Bestimmung der Distanz durch die Proximitätsmaße Wahl: Quadrierte Euklidische Distanz 2. Auswahl des Fusionierungsalgorithmus Wahl: hierarchisch, agglomerativ nach Ward 3. Hilfe für die Bestimmung der Clusteranzahl Wahl: Fehlerquadratsumme, Elbow-Kriterium und Dendrogramm Nach diesen drei Rechenschritten ist die Clusterung abgeschlossen. 5. Interpretation Ist die Clusteranzahl bestimmt und wurden die Objekte den einzelnen Clustern zugeteilt, können verschiedene Interpretationshilfen angewendet werden: o Mittelwerte der Variablenausprägungen in den jeweiligen Clustern o Verortung der Cluster durch Übertragung in eine Karte o Berechnung der F-Werte o Berechnung der t-werte Die Berechnung von Mittelwerten und die Verortung der Cluster bilden die wichtigsten Kriterien zur Interpretation. Sie sind einfach manuell umzusetzen und geben einen ersten guten Überblick über die Ergebnisse. Die komplexeren Berechnungen der F- und t- Werte werden leider auch nicht von den Clusterprogrammen erstellt. Sie müssen vom Anwender selbst berechnet werden und werden dadurch seltener angewandt. Die F-Werte geben den Grad der Homogenität der Cluster an. Diese sind als homogen anzusehen, wenn der F-Wert kleiner als Eins ist. Liegt der F-Wert über Eins, weist er eine größere Streuung als in der Grundgesamtheit auf. Mithilfe der t-werte können die Cluster in ihrem Aussagewert näher bestimmt werden. Bei einem negativen t-wert besitzt die Variable einen geringeren Anteil am Cluster und ist unterrepräsentiert, während ein positiver Wert einen höheren Anteil angibt und die Variable überrepräsentiert ist. Beide Werte liefern zusätzliche Hilfen zur Interpretation. Sind die Werte errechnet und die Karte erstellt, kann die Interpretation beginnen. Nicht selten kommt es vor, dass keine sinnvolle Analyse möglich ist. Die Clusterung sollte dann nochmals erneut durchgeführt werden. Spätestens hier sollte die Auswahl und Aufbereitung der Variablen überprüft werden. 6. Fazit Festzuhalten ist, dass die Clusteranalyse ein komplexes, aber auch für weniger erfahrene Anwender durchaus handhabbares Verfahren darstellt. Die vorgestellten Verfahrensweisen stellen nur einen kleinen Ausschnitt aus der Vielzahl der Möglichkeiten dar. Sie bilden die Grundlage, eine erste Clusteranalyse zu rechnen und sich mit der Methode auseinander zu setzen. Experimentieren mit verschiedenen Einstellungen ist angeraten. Die Clusteranalyse lässt dem Anwender hier genügend Spielraum. Durch diese Entscheidungsfreiheit besteht jedoch auch die Gefahr, die Untersuchung zu beeinflussen und die Ergebnisse zu manipulieren. Wichtig ist es daher, die Vorgehensweise zu dokumentieren und einzelne Ablaufschritte darzustellen. Dazu gehört auch, die Auswahl der Variablen und die konkrete Problemstellung der Untersuchung dazulegen ( was ist das Ziel der Untersuchung? und welche Hypothese soll getestet werden? ). Wird dies beachtet, ist die Clusteranalyse ein geeignetes und empfehlenswertes Verfahren für die Städtestatistiker.