Clusteranalyse mit SPSS

Ähnliche Dokumente
Clusteranalyse Softwareeinsatz anhand eines konkreten Beispiels mit SPSS

Dr. Ralf Gutfleisch, Stadt Frankfurt a.m.

Ähnlichkeits- und Distanzmaße

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

4.4 Hierarchische Clusteranalyse-Verfahren

Multivariate Verfahren

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

z Partitionierende Klassifikationsverfahren

4.Tutorium Multivariate Verfahren

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Datenstrukturen bei Datenübernahme

Angewandte Statistik mit R

Biometrisches Tutorial III

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Vorwort Einführung in Power Query Erste Abfrage erstellen... 21

Konzepte II. Netzwerkanalyse für Politikwissenschaftler

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Softwarepraktikum. zu Elemente der Mathematik. Carsten Rezny Institut für angewandte Mathematik Universität Bonn

Einführung in SPSS. 1. Die Datei Seegräser

Mathematisch-Statistische Verfahren des Risiko-Managements - SS

Aufgaben zu Kapitel 1

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Kapitel 1: Deskriptive Statistik

Aufgaben zu Kapitel 1

5 Einfache Datentransformationen

Statistik II: Klassifikation und Segmentierung

Erstellung von Berichten

Skript 7 Kreuztabellen und benutzerdefinierte Tabellen

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Exponent Version 5.0. Neue Funktionen

Korrespondenzanalyse

Deskriptive Statistiken

Datenmaske für SPSS. Für die Datenanalyse mit SPSS können die Daten auf verschiedene Weise aufbereitet

Diese Unterlage bezieht sich auf Excel 2003 (auf Deutsch). Die Benutzeroberfläche kann in anderen Versionen der Software erheblich anders aussehen.

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

HOW TO Abfragen erstellen

Karten von data2map selbst ergänzen und an eigene Erfordernisse anpassen.

Inhaltsverzeichnis WORTKOMBINATIONEN... 1

Sonderanhang: Manuelle Berechnungen der Statistikaufgaben

Klassifikation und Ähnlichkeitssuche

Abbildung 1: Links: Skizze des Versuchsaufbaus, Rechts: Zeichnung auf Grundlage der zuvor erstellten Skizze

ZPG-Mitteilungen für gewerbliche Schulen - Nr November

Produktgruppen als mögliche Hilfe für die Auswahl zutreffender CE-Richtlinien

GrafStat Ausgabe Die wichtigsten Neuheiten (Stand 28. Dezember 2006)

angewandte Statistik

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Präsentation der Ergebnisse von Clusteranalysen Antje Seidel-Schulze, Difu Berlin

1 Datenaufbereitung und Weiterverarbeitung

Berechnung einer Geschwindigkeit

Eigene MC-Fragen SPSS

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

Modulklausur Multivariate Verfahren

INHALTSVERZEICHNIS. 2D-DXF / DWG Import Allgemeines

Kapitel 2. Mittelwerte

Im ersten Schritt müssen die Daten in die Datenansicht eingelesen werden.

Worthäufigkeiten - Worthäufigkeiten analysieren

EDV Grundlagen. Tabellenkalkulation

I.3. Computergestützte Methoden 1. Deskriptive Statistik. Master of Science Prof. Dr. G. H. Franke WS 2009/ 2010

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

4.1 Aktualisierung der topographischen Kartenbasis auf Grundlage von Satellitenbildern

VERWENDUNG DES FRAGEBOGENBAUKASTENS

Erstellen von Grafiken in Excel

Inhalt. Bibliografische Informationen digitalisiert durch

Einstieg in SPSS. Man kann auch für jede Ausprägung einer Variablen ein Wertelabel vergeben.

Road Account Maut Control - Version 1.60

5. Spezielle stetige Verteilungen

Wechseln Sie in den oberen Bereich auf Start> Dokumentenverwaltung> Neues Schreiben.

UE Angewandte Statistik Termin 2 deskriptive Darstellungsmöglichkeiten

Effektiver Umstieg auf Office Thomas Alker, Konrad Stulle UM-O2010

Einführung in SPSS. Sitzung 2: Datenbereinigung und Datenmanagement. Knut Wenzig. 9. Dezember 2004

Statistische Datenanalyse

20 Clusteranalyse Praktische Anwendung

OFM-Tools von Arthur Bastoreala

Arbeiten mit Watch- und Rezepturlisten

Microsoft Excel 2013 auf einen Blick

Rekursive Folgen. für GeoGebraCAS. 1 Überblick. Zusammenfassung. Kurzinformation. Letzte Änderung: 07. März 2010

Auswertungen in Elexis

Ergänzungen zu Methoden zur Untersuchung und Beurteilung der Seen

Kapitel 1: Deskriptive Statistik

Kapitel 3. FRAGESTELLUNG 1 und 2. Öffne die Datei commercial.sav. Folgende Darstellung sollte in der Datenansicht erscheinen:

WI-M / HT-M: OR 2 - Statistik SS 2004

Informationsblatt - Kursmodule

Normfall 7.1. Whitepaper. Die eigenständigen Fenster - insbesondere für die Schnellansicht Normfall GmbH Alle Rechte vorbehalten.

Grundsätzliches zu SPSS

STACK Mathematische Aufgaben mit ILIAS testen (Ein Frage-Typ im ILIAS-Objekt Test)

Bitte am PC mit Windows anmelden!

Vereinfachte Clusteranalyse mit Excel

Microsoft Excel 2013 auf einen Blick

Kreisdiagramm, Tortendiagramm

Musterlösung. Modulklausur Multivariate Verfahren

Eine Linkliste in Word anlegen und zur Startseite des Browsers machen

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Workshop zum Model-Builder

Einrichten und Verwenden der Solutio Charly PA-Konzepte Schnittstelle

1 Univariate Statistiken

Gebrauchsanleitung Software TitroLine-Chart

ArenaSchweiz AG. CMS Concrete5 Erste Schritte

Transkript:

Autor: Thomas Nirschl, Amt für Stadtforschung und Statistik, Stadt Nürnberg Clusteranalyse mit SPSS Das Statistikpaket SPSS (aktuell in der Version 17 vorliegend) stellt dem Anwender eine große Vielfalt an nützlichen Features für statistische Auswertungen zur Verfügung. Bereits in den früheren Versionen des Programms waren diverse multivariate Methoden implementiert. Es ist somit auch nicht verwunderlich, dass zum Thema Clusteranalyse auf einen ausgereiften und bewährten Werkzeugkasten zurückgegriffen werden kann. Das in diesem Leitfaden präsentierte und präferierte hierarchischagglomerative Verfahren ist in SPSS daher nur eine Möglichkeit unter vielen. Im Gegensatz zu den hierarchisch-divisiven Verfahren werden ausgehend von der feinsten Partition die ähnlichsten Objekte schrittweise zusammengeführt, bis schließlich alle Objekte in einem Endcluster vereint sind ( gröbste Partition ). Abbildung 1: Datei öffnen Im Folgenden wird davon ausgegangen, dass die zu analysierenden Merkmale bereits bekannt sind und in einer entsprechenden Form (hier als einfaches.xls-sheet) vorliegen. In SPSS gelangt man über Datei-Öffnen zur gewünschten Datei-Auswahl (s. Abbildung 1). Die Daten selbst können in den gängigsten Dateiformaten eingelesen werden. Ab diesem Schritt empfiehlt es sich, alle durchgeführten Schritte als sog. SPSS-Syntax mitzuprotokollieren; alle Kommandos werden über den Befehl Einfügen in ein separates Fenster kopiert, wo sie zunächst ohne Ausführung als Code abgelegt sind; dieser Code muss als separate Datei (mit der Endung.sps) gespeichert werden (s. Abbildung 2). Dieses Verfahren hat entscheidende Vorteile gegenüber dem konventionellen Vorgehen: Befehle können kommentiert werden und sind somit auch nach längerer Zeit noch nachvollziehbar v.a. für einen selbst. Kommandos können modifiziert werden, ohne jedes Mal die Navigation durch die z.t. sehr verschachtelte Menüführung von SPSS erneut durchführen zu müssen; das Öffnen und Ausführen der Syntaxdatei genügt. Dies erfordert durchaus etwas fundiertere Kenntnisse von SPSS; die generell sehr gute Hilfe-Funktion des Programms gibt hier aber gute Hilfestellung. 1

Abbildung 2: Syntax-Editor Sobald die Daten sei es über die Syntax oder das Menü eingelesen wurden, besteht die Möglichkeit die Daten noch einmal einer genaueren Analyse zu unterziehen und ggf. Daten auszuschließen. Über Analysieren- Korrelation-Distanzen gelangt man zu einer Oberfläche, wo Art der Distanzberechnung (zwischen Variablen oder Fällen) und das Distanzmaß selbst (Ähnlichkeits- bzw. Unähnlichkeitsmaß) festzulegen sind. Hier werden die Daten nach den inhaltlich-konzeptionellen Überlegungen zur Definition des Sozialraums (s.o.) statistisch analysiert. Um Information über das Ausmaß des Zusammenhangs zwischen den Variablen zu erhalten, sind in diesem Beispiel die Distanzen zwischen den Variablen hinsichtlich ihrer Ähnlichkeit nach Pearson (Pearson-Korrelation) ermittelt worden (siehe Abbildung 3). Auch hier wird der Befehl zunächst in das Syntax-Fenster eingefügt und kommentiert. Nach Befehlsausführung erscheint in einem dritten Fenster dem sog. Output das Ergebnis dieser Berechnung (siehe Abbildung 4). Um die Daten detaillierter zu betrachten empfiehlt es sich SPSS zu verlassen, und die Tabelle in ein Tabellenkalkulationsprogramm zu kopieren (z.b. MS Excel, Calc). Dort sind die stark bzw. schwach korrelierenden Variablen über bedingte (Farb-)Formatierungen wesentlich leichter zu erkennen als in SPSS. Abbildung 3: Korrelationen zwischen Variablen 2

Abbildung 4: Ähnlichkeitsmaß und Output Sobald Variablen auf unterschiedlichen Maßeinheiten beruhen, kann es bei der Clusteranalyse zu einer Vergrößerung der Distanzen zwischen den Merkmalsausprägungen kommen. Um dieser Unschärfe im Ergebnis vorzubeugen, werden die Daten vorab standardisiert (genauer: z-transformiert, s. Abbildung 5). Bei der z-transformation wird von jedem Wert der Mittelwert der entsprechenden Variablen abgezogen und die Differenz anschließend durch die Standardabweichung σ dividiert. Die derart standardisierten Variablen erhalten somit alle einen Mittelwert von 0 und eine Standardabweichung von 1. Die z-transformation hat übrigens keine Einfluss auf die relativen Abstände zwischen den Werten. Sie bereinigt aber den ungewünschten Effekt der unterschiedlichen Messeinheiten; dadurch gehen alle Variablen mit derselben Gewichtung in die Analyse ein. Abbildung 5: Speicherung z-transformierter Variablen Abbildung 6: Hierarchische Clusteranalyse Analysieren-Klassifizieren-Hierarchische Cluster... (s. Abbildung 6) öffnet ein Menü, welches alle relevanten Einstellungen zur Durchführung einer hierarchischen Clusteranalyse enthält. 3

In der vorliegenden Beispieldatei liegen die Variablen auf der Ebene Statistischer Distrikte vor. Dementsprechend werden diese räumlichen Einheiten unter Fallbeschriftung abgelegt, wohingegen die zu analysierenden Variablen nach Variable(n) geschoben werden. Für jeden Fall bzw. jedes Cluster wird nun auf Basis der Merkmale und Merkmalsausprägungen die Distanz zu jedem anderen Cluster ermittelt. Die zwei Cluster mit der geringsten Distanz zueinander (d.h. mit der größten Ähnlichkeit) werden zu einem gemeinsamen Cluster vereinigt. Dieses Prinzip der Distanzberechnung und Verschmelzung wird nun sukzessive auf alle Fälle bzw. Cluster angewandt, bis alle Fälle zu einem einzigen Cluster zusammengefasst sind. Die Herausforderung an den Anwender ist es also, eine passende Anzahl von Clustern zu ermitteln (da ein einziges Großcluster keinen Erkenntnisgewinn mit sich bringt). Unter Methode (s. Abbildung 7) erfolgt die der Analyse zu Grunde liegende Auswahl der Cluster-Methode (hier: Ward-Methode). Hiermit wird der Fusionierungsalgorithmus bezeichnet, welcher die Entfernung von Clustern zueinander bestimmt. Da die Zusammenfassung von Objekten auf Basis von Distanzen erfolgt, ist die Wahl eines geeigneten Ähnlichkeitsbzw. Distanz-maßes unter Maß-Intervall zwingend erforderlich (hier: Quadrierter Euklidischer Abstand). SPSS bietet für die drei potentiellen Skalenniveaus jeweils mehrere Maße zur Auswahl an. Zur Erinnerung: Die Distanz zwischen zwei Fällen ist gleich der Summe der quadrierten Differenzen für jede Eigenschaft für ein Objektpaar. Sofern die Daten noch nicht z-transfor-miert sind, ermöglicht der Punkt Werte transfomierenstandardisieren eine nachträgliche Standardisierung. Abbildung 7: Cluster-Methode und Proximitätsmaß Nützliche Ausgaben zur weiteren Analyse der Cluster und zugehörigkeiten werden im Punkt Statistik (s. Abbildung 8) aktiviert. Dazu gehört eine Zuordnungsübersicht sowie die Distanz-Matrix. Die Distanz-Matrix stellt die Distanzen zwischen jedem Pärchen von Fällen und somit den Beginn der Clusteranalyse tabellarisch dar. Hohe Werte in der Tabelle weisen auf große Unähnlichkeiten und kleine Werte auf eine relativ große Ähnlichkeit hin. Die Matrix zeigt die Distanzen vor dem Zusammenführen von Fällen zu Clustern und wird daher auch als sog. Ausgangsdistanzmatrix bezeichnet. 4

Abbildung 8: Statistik: Distanz- Matrix und Zuordnungsübersicht Abbildung 9: Diagramme (graphische Ausgaben) Unter Diagramm (s. Abbilddung 9) besteht zudem die Möglichkeit, ein Dendrogramm sowie Eiszapfen ausgeben zu lassen. Gerade wenn man noch keine Vorstellung über Zahl und Zusammensetzung der Cluster hat, sind diese beiden graphischen Ausgaben hilfreiche Werkzeuge. SPSS ermittelt standardmäßig keine Zugehörigkeit von Objekten zu einzelnen Clustern. Sofern man aber (unter Umständen erst nach mehreren Durchläufen) eine genaue Vorstellung über die Zahl der Cluster gewonnen hat, ist es möglich dem Programm unter Speichern (s. Abbildung 10) die Zahl der Cluster vorzugeben (hier: 6 ). Um einen Eindruck über die Verteilung von Objekten in verschiedenen Clusterlösungen zu erhalten, kann desweiteren auch ein Bereich von Lösungen angegeben werden; die Analyse der verschiedenen Versionen und die Auswahl einer geeigneten Lösung steht dann aber immer noch aus. 5

Abbildung 10: Clusterlösungen Nachdem die Cluster-Zugehörigkeit in eine neue Variable geschrieben wurde, kann nun damit begonnen werden die Cluster zu beschreiben. Analysieren-Mittelwerte vergleichen-mittelwerte... (s. Abbildung 11) liefert neben Mittelwerten auch Minima, Maxima, Standardabweichung σ etc. für die ermittelten Cluster und dient somit der Interpretation der Ergebnisse. Für den ein oder anderen Zweck macht es aber auch Sinn, eine separate und nach Clustern aggregierte Datei auszugeben. Abbildung 11: Mittelwerte vergleichen Es ist zwar durchaus möglich, alle graphischen Ausgaben (Tabellen, Diagramme) als separate Output-Datei zu speichern (.spo), allein die Bedienerfreundlichkeit und die Weiterverarbeitung der Informationen ist für die meisten Nutzer recht ungewöhnlich. SPSS bietet aber die Möglichkeit Daten in anderen Programmen (z.b. MS Excel, MS Word, Calc) zu verarbeiten; diese Option ist für den SPSS-Einsteiger durchaus zu empfehlen. Für die Darstellung der räumlichen Verteilung der Cluster und Clusterelemente in Form einer Karte muss SPSS ohnehin verlassen und auf ein GIS (z.b. ArcView) zurückgegriffen werden. Autor: Thomas Nirschl Stadt Nürnberg Amt für Stadtforschung und Statistik für Nürnberg und Fürth Unschlittplatz 7a 90403 Nürnberg Tel.: 0911 231 2842 E-mail: thomas.nirschl@stadt.nuernberg.de 6