Clusteranalyse Softwareeinsatz anhand eines konkreten Beispiels mit SPSS

Ähnliche Dokumente
Clusteranalyse mit SPSS

Multivariate Verfahren

4.4 Hierarchische Clusteranalyse-Verfahren

Ähnlichkeits- und Distanzmaße

z Partitionierende Klassifikationsverfahren

Kapitel 1: Deskriptive Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Wiederholung SPSS und Einführung in die SPSS Syntax

Soziale Ungleichheit in Osnabrück

Statistik II: Klassifikation und Segmentierung

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Bericht über Migrantinnen und Migranten in Düsseldorf Indikatoren für ein kommunales Integrationsmonitoring

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Vereinfachte Clusteranalyse mit Excel

Eigene MC-Fragen SPSS

11./ 12. April Andrea Ossig Prof. Dr. Helmut Küchenhoff

Multivariate Statistische Methoden

Multivariate Statistische Methoden und ihre Anwendung

Zuhause in der Einwanderungsgesellschaft Aktuelle Forschungen zum Verhältnis von Migration und Wohnungsmarkt

Einführung in SPSS. Sitzung 2: Datenbereinigung und Datenmanagement. Knut Wenzig. 9. Dezember 2004

Einführung in SPSS. Sitzung 2: Datenbereinigung und Datenmanagement. Knut Wenzig. 15. Dezember 2005

Musterlösung. Modulklausur Multivariate Verfahren

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Bevölkerungsstruktur in deutschen Städten

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

5 Einfache Datentransformationen

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Angewandte Statistik mit R

Kapitel 1: Deskriptive Statistik

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Die IREUS-Studie zum Ländlichen Raum in Baden-Württemberg: Folgen für Mobilität und Erreichbarkeit

Deskriptive Statistiken

6. Multivariate Verfahren Zufallszahlen

BILDUNG leben in Emden Datenbasis Erste Daten und Fakten aus dem Bildungsmonitoring Martin Schabler

angewandte Statistik

8.3 Zeitachse drucken

11. Sitzung Auswertungsstrategien; Darstellung von Forschungsergebnissen

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005

Werden wir alle zu Bequemen Modernen?

Gesundheitsförderung und Prävention selbständig lebender älterer Menschen

Streuungsmaße von Stichproben

3. Bestehende Dateien

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

4.Tutorium Multivariate Verfahren

Die Kasseler Einwohnerprognose Kommunikation von Strukturen und kleinräumigen Ergebnissen für Verwaltung und Öffentlichkeit mit Instant Atlas

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Korrelation, Regression und Signifikanz

Faire Chancen für alle Kinder Das Projekt KECK/KOMPIK in der Stadt Heilbronn

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Einfache lineare Regressionsanalyse

Angewandte Statistik 3. Semester

Bevölkerung mit Migrationshintergrund am

Computeria Kurs vom

Sozialräumliche Gliederung Düsseldorf: Anwendungen und Entwicklungsperspektiven für ein Sozialraum-Monitoring

Einführung in SPSS. 1. Die Datei Seegräser

Demographiebericht. Cuxhaven, Landkreis. Ein Baustein des Wegweisers Kommune. kommune.de

Demographiebericht. Goslar, Landkreis. Ein Baustein des Wegweisers Kommune. kommune.de

Klassifikation und Ähnlichkeitssuche

IBA Strukturmonitoring 2012

Delmenhorst - Migranten und Wohnungsmarktstrategie

Wolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.

Fundierte Stichproben der IHA-GfK auf Grundlage der Schweizer Volkszählung 2000 und einer jährlichen Fortschreibung in der GfK

Eslohe (Sauerland) Hochsauerlandkreis

Altdorf b.nürnberg Nürnberger Land

Teil: lineare Regression

Kapitel 39 Sequenzdiagramme

Leitfaden zur Rohrnetzberechnung im SOLAR

Ergänzungen zu Methoden zur Untersuchung und Beurteilung der Seen

Korrespondenzanalyse

Tutorial Excel Übung 3 Wetter4U s Prämienprogramm -1- Die Aufgabenstellung ist der folgenden URL zu entnehmen: Übung3.

Thema: Ein Ausblick auf die Möglichkeiten durch den Software-Einsatz im Mathematikunterricht.

Vorwort Einführung in Power Query Erste Abfrage erstellen... 21

Python 3.6. Erste Schritte auf dem Mac. Syshack. 22. Juni 2017 Version 2.0. Python Erste Schritte auf dem Mac Syshack, 22.

Aufgaben zu Kapitel 1

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Entwicklung erster in Frage kommender Korridore für den SuedOstLink

I.3. Computergestützte Methoden 1. Deskriptive Statistik. Master of Science Prof. Dr. G. H. Franke WS 2009/ 2010

Inhalt. Bibliografische Informationen digitalisiert durch

Individuelles EDV Training

Bivariate explorative Datenanalyse in R

Wechseln Sie in den oberen Bereich auf Start> Dokumentenverwaltung> Neues Schreiben.

Modul G.1 WS 07/08: Statistik

Statistik-Programme. Inhalt. 1.1 Kleine Einführung in R Installieren und Starten von R

Datendateien umstrukturieren

der Datenauswertung (Übung)

RPM Generator. ArtemiS SUITE. Erzeugung von Drehzahlinformationen aus Ordnungsverläufen HEARING IS A FASCINATING SENSATION

IBA Strukturmonitoring 2011

Aufgaben zu Kapitel 1

OFM-Tools von Arthur Bastoreala

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1

Wohnwünsche und ihr Erklärungsbeitrag zur Reurbanisierungsdebatte

Neuerungen im Überblick 5 wichtige Punkte. Tipps zur Arbeitserleichterung: Die neue Word- Statuszeile

Methoden der Klassifikation und ihre mathematischen Grundlagen

Transkript:

Clusteranalyse Softwareeinsatz anhand eines konkreten (Thomas Nirschl, ) Gliederung: 1. Vorüberlegungen und vorbereitende Schritte 2. Beispiel: Kleinräumige Sozialraumanalyse der 3. Ergebnis und Bewertung

Vorüberlegungen und vorbereitende Schritte Hintergrund: - pragmatisch: letzte Sozialraumanalyse aus dem Jahr 2004 - Zunahme der sozialräumlichen Differenzierungsprozesse Nachfrage nach verdichteten Informationen ist groß - Ergebnisse einer neuen Sozialraumanalyse (inkl. Gebietstypisierungen) sollen in das stadtinterne Monitoring einfließen - Kommunalwahl 2008 Analyse des Wahlverhaltens in den sozialen Stimmbezirkstypen (Vorwahl-, Nacht- und Ergebnisheft) - Ausgangspunkt für weitere Analysen z.b. Wanderungen aus bzw. nach Sozialräumen

Aufgabe: Clusteranalyse Softwareinsatz anhand eines konkreten Vorüberlegungen und vorbereitende Schritte Anforderungen: Kompromiss zwischen möglichst vielfältigen bzw. umfassenden Daten einerseits und maximaler Kleinräumigkeit andererseits muss gefunden werden Begriffsdefinition Sozialraum : vom Menschen strukturierter und geprägter, physisch klar abgrenzbarer Raum Ansatz: explorative quantitative Raumanalyse Existenz eines vorher festgelegten Untersuchungsraums

Vorüberlegungen und vorbereitende Schritte Ziel: Analyse der Verteilung der Merkmalsausprägungen ausgewählter Daten Strukturierung und Klassifizierung städtischer Teilgebiete Bereitstellung einer umfassenden, kleinräumigen und möglichst realitätsgetreuen Informationsbasis über die Lebensräume, sozialen Milieus, Wohnformen und ökonomischen Belastungen in den verschiedenen Stadtvierteln

Vorüberlegungen und vorbereitende Schritte Methodischer Ansatz: Hierarchisch-agglomerative Clusteranalyse Idee: Gruppenbildung anhand ausgewählter Variablen logisch-konzeptionelle Vorüberlegungen, Korrelationsanalysen

Vorüberlegungen und vorbereitende Schritte Methodischer Ansatz: Wichtig: Die EDV nimmt dem Anwender (noch) nicht die ganze Arbeit ab! Einige zentrale Fragen müssen vorab geklärt werden: z.b.: Was will ich wie und mit welchen Daten analysieren?

Vorüberlegungen und vorbereitende Schritte Software: SPSS 15 (seit 2008: v.16): - eigentliche Clusteranalyse - Projektdatei - Syntax inkl. Kommentierung Excel 2000: - Darstellung der Ergebnisse - Interpretationshilfe(n) ArcView 3.3: - kartographische Darstellung der Ergebnisse - räumliche Überprüfung (Expertenwissen)

1. 2. Erzeugen der Grunddaten (.xls,.csv,.dbf...) Einlesen der Grunddaten je nach Format über Datei öffnen (.xls,.dbf o.ä.), Textdaten lesen (.csv,.txt o.ä.)

3. Hinweis: Kommandos über den Befehl Einfügen zunächst in ein sog. Syntaxfenster kopieren und als.sps-datei abspeichern. Dies hat den Vorteil, dass die vollzogenen Schritte dokumentiert und v.a. auch kommentiert werden. Zusätzlich kann dadurch bei gewissen Vorkenntnissen auch in die Befehlsstruktur von SPSS eingegriffen werden.

4. Nach den Berechnungen und dem Labeln von Variablen ist ein Blick auf die Korrelationen zwischen den Variablen oft hilfreich. 5. Mit Analysieren-Korrelation-Distanzen... gelangt man zu folgendem Dialogfenster, über welches die entsprechenden Einstellungen zur Ausgabe einer Korrelationsmatrix getätigt werden können.

6. In einem weiteren Fenster dem sog.output erscheint das Ergebnis. Hinweis: Das Arbeiten im Output ist nicht immer komfortabel. Eine Ausgabe z.b. nach Excel ist zu empfehlen. Dort können dann ohne größeren Aufwand Formatierungen o.ä. erfolgen.

7. Distrikte mit weniger als 50 Einwohnern werden von der Clusteranalyse ausgeschlossen. Zudem werden vier wietere Distrikte als extreme Ausreisser identifiziert und ebenfalls bei der Analyse nicht berücksichtigt. Es gehen somit 270 Distrikte in die Clusteranalyse ein.

Soziodemographische Merkmale - Migrantenanteil - Anteil Haushalte deutsch an allen HH - Anteil Haushalte ausländisch an allen HH - Anteil Kinder von Migranten - Mobilität insg. je 1.000 - Anteil Senioren ohne Senioren in Heimen - Jugendquote - Anteil HH mit Kind(ern) an allen HH - Anteil 1Personenhaushalte an allen HH - Anteil 5u.m.-Personenhaushalte an allen HH Variablenübersicht: Sozioökonomische Merkmale - Arbeitslosenanteil - Anteil Arbeitsloser Ausländer - Anteil Bedarfsgemeinschaften an allen HH - Anteil Bed.gem. mit Kind(ern) an allen HH m.k. - Anteil SGBII-Empfänger an den Erwerbsfähigen - Personen in Bedarfsgemeinschaften an allen Einwohnern Physiognomische Merkmale - Anteil Ein- und Zweifamilienhäuser an allen Wohngebäuden - Bebauungsdichte

8. 9. z-transformation aller Variablen: Basieren Variablen auf unterschiedlichen Maßeinheiten kann es bei der Clusteranalyse zu einer Vergrößerung der Distanzen zwischen den Merkmalsausprägungen kommen. Lösung: Standardisierung der Variablen Von jedem Wert wird der MW der betreffenden Variablen abgezogen und die Differenz anschließend durch б dividiert. Die standardisierten Variablen erhalten somit einen Mittelwert von 0 und eine Standardabweichung von 1 *. * Werte mit einem pos.vorzeichen sind als im Vergleich zu allen anderen Werten überdurchschnittlich ausgeprägt zu interpretieren, während Werte mit neg. Vorzeichen als unterdurchschnittlich ausgeprägt zu verstehen sind.

10. Die Korrelationsmatrix der z- transformierten Variablen wird dann aus dem Output nach Excel kopiert. Mittels bedingter Formatierungen können dann positive und negative Korrelation sichtbar gemacht werden.

11. Analysieren-Klassifizieren-Hierarchische Cluster... führt schließlich zum Verfahren der Clusteranalyse. In diesem Beispiel wird ein hierarchischagglomeratives Verfahren zur Analyse herangezogen. 12. z-transformierte Variablen Raumbezug, hier: nach Distrikten

13. 14. Die Cluster-Methode bezeichnet den Algorithmus, der die Entfernung von Clustern zueinander bestimmt Zusammenfassung von Objekten auf Basis der Distanzen Die Wahl eines geeigneten Ähnlichkeits- bzw. Distanzmaßes erfolgt im Dialog Maß (hier: quadrierter euklidischer Abstand). Sollten die Variablen noch nicht z- transformiert sein, dann könnte man die Werte hier standardisieren. Unter Neue Variable speichern erfolgen die Einstellungen für die Zahl der Cluster (hier: 6)

15. 16. Die Distanzmatrix zeigt die Distanzen vor dem Zusammenführen von Fällen zu Clustern ( Ausgangsdistanzmatrix )

17. Nachdem die Cluster-Zugehörigkeit in eine Variable geschrieben wurde, kann nun damit begonnen werden, die Cluster zu beschreiben. 18. Analysieren-Mittelwertevergleichen Mittelwerte... liefert neben MW auch Min, Max, σ etc. für die ermittelten Cluster und dient somit der Interpretation der Ergebnisse. Alternativ kann auch eine separate und nach Clustern aggregierte Datei ausgegeben werden.

Ergebnis und Bewertung Variable Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Migrantenanteil +/- ++ +++ +/- -- ++ Anteil HH dtsch. an allen HH +/- - -- +/- + - Anteil HH ausl. an allen HH - +++ +++ -- -- ++ Arbeitslosenanteil +/- ++ +++ - -- -- Anteil Arbeitsloser Ausländer + ++ ++ +/- -- + Anteil Bedarfsgemeinschatften an allen HH +/- +++ +++ - -- -- Anteil Bedarfsgemeinschaften mit Kind(ern) an allen HH + +++ +++ +/- -- -- Anteil SGBII-Empfänger an den Erwerbsfähigen +/- +++ +++ +/- -- -- Personen in Bedarfsgemeinschaften an allen Einwohnern +/- +++ +++ - -- -- Anteil Kinder von Migranten + ++ +++ +/- -- +/- Anteil Ein- und Zweifamilienhäuser an allen Wohngebäu- -- -- -- - ++ ++ Anteil Wohndauer bis 5 Jahre + + ++ +/- -- + Anteil Wohndauer ab 20 Jahre -- -- -- +/- ++ -- Mobilität insg. je 1.000 ++ + ++ - -- ++ Anteil Senioren ohne Senioren in Heimen - - -- + + -- Jugendquotient -- + ++ - + ++ Anteil HH mit Kind(ern) an allen HH -- +/- ++ - + ++ Anteil 1 HH an allen HH ++ + +/- +/- - - Anteil 5u.m. HH an allen HH -- - ++ -- + +++ Bebauungsdichte +++ ++ + - -- --

Ergebnis und Bewertung Vorteile - umfassendes (Standard-) Software-Paket mit vielen Funktionen - Importfunktion von Daten; Export der Ergebnisse (graphisch) - Dokumentation, Kommentierung und Änderungen sind über die Syntax sehr gut möglich - umfangreiche Sekundärliteratur - für KOSIS-Mitglieder vergünstigt Nachteile - Anschaffungspreis (z.b. 5 Netzlizenzen ca. 3.000) - z.t. mit Funktionen und Optionen überladen - Bedienung i.d.r. nicht intuitiv (Einarbeitung bzw. Schulung nötig) - mit neuen Versionen verschwinden alte gewohnte Funktionen oder werden umbenannt

Clusteranalyse und SIKURS ein erster Einblick Cluster -Modul in neuer SIKURS- Version Ziel: demographisches Verhalten bei Prognosen differenzierter abbilden Relevante Raten und Quoten werden nicht mehr auf die Gesamtstadt bezogen Typenbildung (Alter, Geschlecht, Bevölkerungsgruppen) anschließende Clusteranalyse in SIKURS berücksichtigt die strukturellen Unterschiede in einer Stadt stärker. Mehr Informationen unter http://www.sikurs.de/