Multivariate Verfahren

Ähnliche Dokumente
Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

6. Multivariate Verfahren Zufallszahlen

Einführung in die Cluster-Analyse mit SPSS

Hierarchische Clusteranalyse

Clustering Seminar für Statistik

4.3 Hierarchische Klassifikationsverfahren

Multivariate Verfahren

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

SBWL Tourismusanalyse und Freizeitmarketing

Seminar zum Thema Künstliche Intelligenz:

Clustern von numerischen Wettervorhersagen

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Data Mining und Knowledge Discovery in Databases

Korrespondenzanalyse

Lehrbuch der Statistik

Datamining Ein kleiner Einblick

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Multivariate Statistik

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Einführung in die Cluster-Analyse mit SAS

Proseminar: Web-Performance

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Multivariate Verfahren

Faktorenanalyse und Clusteranalyse

Statistik. Jan Müller

Modulklausur Multivariate Verfahren

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

Modul G.1 WS 07/08: Statistik

Inhaltsverzeichnis. Vorwort

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse

Eine computergestützte Einführung mit

Aufgaben zu Kapitel 7:

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Angewandte multivariate Statistik mit R Landau Kaarina Foit und Ralf Schäfer

I Einführung 1. 1 Über den Umgang mit Statistik 3

Einführung in die Hauptkomponentenanalyse und Faktorenanalyse mit SPSS. Datenanalyse HS09 Susan Kriete Dodds 18. November 2009

Auswirkungen von Fahrpreisänderungen im öffentlichen Personennahverkehr

IBM SPSS Categories 22

VS PLUS

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

A. Die Grundlagen. B. Die Methoden der Datengewinnung. C. Erhebungsverfahren. Vorwort Inhaltsverzeichnis. 1. Gegenstand der Marktforschung

Simulation. Lineare Regression Methode der kleinsten Quadrate (Excel-Matrix-Formel) Verknüpfung des Euler- und Newton-Verfahrens. Das Euler-Verfahren

Mathematische und statistische Methoden I

Statistik für Psychologen und Sozialwissenschaftler

8. Clusterbildung, Klassifikation und Mustererkennung

Einführung in das Data Mining Clustering / Clusteranalyse

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Formelsammlung zu Multivariate Verfahren

Zusammenhänge zwischen metrischen Merkmalen

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

26. GIL Jahrestagung

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

2 Stand der Forschung. Bei der Analyse komplexer Proben ist es mit Hilfe moderner Analysensysteme moglich,

Proseminar Verarbeitung geographischer Daten (Quant II) Sommersemester 2001 Daniel Braunschweiger Achim Schmidt Tobias Spaltenberger

Clusteranalyse. Inhalte des Moduls Beispiele Klassifikationsregeln Clusteranalyse

Teil: lineare Regression

Leistungsfähigkeit von Lokalisierungsverfahren im WLAN

Einführung in SPSS. Sitzung 5: Faktoranalyse und Mittelwertsvergleiche. Knut Wenzig. 22. Januar 2007

Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren

Deskriptive Statistik und Explorative Datenanalyse

Skalenniveaus =,!=, >, <, +, -

Kapitel 28 Clusteranalyse 28.1 Einführung

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 12 a)

Hauptkomponentenanalyse. Principal Component Analysis (PCA)

Angewandte Statistik 3. Semester

Mathematische und statistische Methoden I

4. Clusteranalyse. 4.1 Einleitung

Keimreaktionen auf Antibiotikagruppen

Deskriptive Statistik

Statistik für Psychologen und Sozialwissenschaftler

Sozialwissenschaftliche Datenanalyse mit R

Data-Mining: Ausgewählte Verfahren und Werkzeuge

Marketing WS 2014/2015

Kapitel 22 Partielle Korrelationen

Einführung in Statistik und Messwertanalyse für Physiker

Kapitel 4: Merkmalszusammenhänge

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Multivariate Statistik im Quantitativen Marketing - Konzeption und Anwendungsbereiche der Clusteranalyse -

Grundlagen clusteranalytischer Verfahren

Validierung von Messmethoden. Validierung von Messmethoden

Kategorisierung von Indizes zur Clustervalidierung. Studienarbeit Philipp Plöhn Wirtschaftsinformatik

Transkript:

Multivariate Verfahren Lineare Regression Zweck: Vorhersage x Dimensionsreduktion x x Klassifizierung x x Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eigenschaften: nicht-linear verteilungsfrei x x nominal skalierte Var. x x Clusteranalyse Ziel: Aufteilung des Datensatzes in Gruppen (= Cluster), so dass die Unterschiede zwischen den einzelnen Gruppen möglichst groß sind die Unterschiede innerhalb der einzelnen Gruppen möglichst klein sind 1

Hauptkomponentenanalyse vs. Clusteranalyse Hauptkomponentenanalyse (HKA): Zusammenfassung von Variablen, die dem gleichen "Prozess" zugeordnet werden können, zu Hauptkomponenten (Faktoren) Clusteranalyse (CA): Zusammenfassung von Messstellen, die ähnliche Messwerte aufweisen, zu Clustern Messstelle 1 Messstelle Messstelle 3 Variable 1 x 1,1 x 1, x 1,3 Variable x,1 x, x HKA,3 Variable 3 x 3,1 x 3, x 3,3 CA Ähnlichkeits-/Distanzmaße (I) x 1,m, x,m,... x n,m : Werte für die Variablen x 1, x,..., x n der Messstelle m in n Dimensionen City-Block-Metrik (Manhattan-, Taxifahrer-Distanz): Euklidische Distanz: allgemein: Minkowski-Distanz: (L p -Norm) n m= 1, m= = xi,1 xi, i= 1 d d n m= 1, m= = ( xi,1 xi,) I = 1 n p p m= 1, m= = xi,1 xi, I = 1 d X X X 1 X 1

Ähnlichkeits-/Distanzmaße (II) x 1,m, x,m,... x n,m : Werte für die Variablen x 1, x,..., x n der Messstelle m Tschebyscheff: d = ( x x ) m= 1, m= max i,1 i, X Pearson-Korrelation: d m = m 1, m= = corr( m = 1, = ) X 1 Mahalanobis-Distanz: n n m 1 m j = 1 k = 1 d =, = = c, ( x,1 x,) ( x,1 x j k j j k k, ) hohe Werte für geringe Kovarianz entspricht der Euklidischen Distanz für z-transformierte und voneinander unabhängige (HKA!) Variablen c j,k : Element der Inversen der Kovarianz-Matrix Cluster-Algorithmen Vorgehensweise: 1. Sukzessive Aufteilung in Cluster: Hierarchische Clusteranalyse.1 Sukzessive Zusammenfassung von Clustern: agglomerativ. Sukzessive Aufspaltung in Cluster: divisiv (faktisch unbedeutend). Anzahl der Gruppen wird vorgegeben: Partitionierende Clusteranalyse, Clusterzentrenanalyse 3

Agglomeratives Verfahren 1. ausgehend von m (= Anzahl der Messstellen) Clustern. Berechnung der Distanzmatrix 3. Vereinigung der beiden Cluster mit der geringsten Distanz Vereinigung von Clustern (I) Ziel: Aufteilung des Datensatzes in Gruppen (= Cluster), so dass 1. die Unterschiede zwischen den einzelnen Gruppen möglichst groß sind. die Unterschiede innerhalb der einzelnen Gruppen möglichst klein sind Methodik: Quantifizierung der Unterschiede mittels: 1. Distanzen zwischen den Gruppen (Clustern). Streuung innerhalb der Gruppen (Cluster) 4

Vereinigung von Clustern (II) Distanz zwischen ausgewählten Objekten der zu vergleichenden Cluster: Single-Linkage (Nearest Neighbour): kleinste Distanz zwischen Objekten der beiden Cluster ( Bestimmung von Ausreißern ) Complete-Linkage (Furthest Neighbour): größte Distanz zwischen Objekten der beiden Cluster gemittelte Distanz aller Objekte: Average Linkage ("mittlerer Nachbar"): Mittelwert aller Distanzen Zentroid-Distanz: Distanz zwischen Cluster-Zentroiden (= Cluster- Mittelwerte) Vereinigung von Clustern (III) Heterogenitätsmaß: Ward Vereinigung der Cluster, die zur geringstmöglichen Erhöhung der Fehlerquadratsumme (Varianzkriterium, V g ) im neuen Cluster g führt: V g = K g n k = 1 i= 1 1 ( xk, i xi, g ) mit Gruppen-Mittelwert xi, g = x K g K g k = 1 k, i K g : Anzahl der Objekte im Cluster g; n: Anzahl der Variablen 5

Eigenschaften der hierarchischen Linkage-Verfahren Verfahren Eigenschaft neigt zu. Single-Linkage kontrahierend Kettenbildung Complete-Linkage dilatierend Bildung kleiner Gruppen Average Linkage Zentroid konservativ konservativ Ward konservativ Bildung etwa gleich großer Gruppen kontrahierend: dilatierend: konservativ: Bildung weniger großer und vieler kleiner Gruppen ( "Ausreisser") Bildung in etwa gleich großer Gruppen weder kontrahierend noch dilatierend Dendrogramm SPSS normiert die maximale Fehlerquadratsumme auf 5 Visualisierung der sukzessiven Agglomeration 6

Eiszapfen-Diagramm Case 6 Case 3 Case 4 Case 19 Case 1 Case 11 Case 10 Case 5 Case Case 1 Case 0 Anzahl der Cluster 1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 3 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 4 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 6 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 7 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 8 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 9 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 10 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 11 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 13 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 14 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 15 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 16 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 17 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 18 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 19 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 0 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 1 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 3 X X X X X X X X X X X X X X X X X X X X X X X X X X 4 X X X X X X X X X X X X X X X X X X X X X X X X X X 5 X X X X X X X X X X X X X X X X X X X X X X X X X Case 14 Case 13 Case 17 Case 16 Case 15 Case 18 Case 9 Case 8 Case 5 Case 4 Case 7 Case 3 Case 6 Screeplot: Bestimmung der "optimalen" Clusterzahl 500 Fehlerquadratsumme 400 300 00 100 0 0 5 10 15 0 5 Zahl der Cluster 7

Bestimmung der "optimalen" Clusterzahl Fehlerquadratsumme 500 400 300 00 100 0 0 5 10 15 0 5 Zahl der Cluster 160 140 10 100 80 60 40 0 0 Zuwachs der Fehlerquadratsumme Partitionierendes Verfahren 1. ausgehend von Anfangspartition. Berechnung der Gruppenzentroide 3. Berechnung des Gütemaßes der Gruppeneinteilung 4. Verlagerung des Objektes, das zur maximal möglichen Verbesserung der Gruppeneinteilung führt 8

Partitionierendes Linkage-Verfahren: K-Means Optimierung der Aufteilung in k Cluster Cluster werden jeweils durch ihre Zentroide (Mittelwerte = means) repräsentiert 1. Zufällige Anfangspartition mit k Clustern. Sequentielle Bestimmung der Distanz zu allen Zentroiden (Cluster- Mittelwert) für alle Objekte 3. gegebenenfalls Verschieben von Objekten, die geringere Distanz zum Zentroiden eines anderen Clusters aufweisen, als zum eigenen Cluster 4. neue Bestimmung der Distanzen für alle veränderten Objekte und Zentroide Empfohlene Vorgehensweise 1. Kompensation für unterschiedliche Wertebereiche und Streuungen der verschiedenen Variablen mittels z-transformation. Berücksichtigung der Korrelationen zwischen einzelnen Variablen durch Verwendung der Hauptkomponenten (alternativ: Verwendung der Mahalanobis-Distanz) 3. Bestimmung der optimalen Clusterzahl mittels hierarchischer Clusteranalyse (Ward-Verfahren) 4. Optimierung der Clustereinteilung mittels partitionierender Clusteranalyse (K-Means-Verfahren) 5. Überprüfung der Clustereinteilung mittels Kreuzvalidierung bzw. Diskriminanzanalyse 9

Aufgabe 1. Führen Sie eine hierarchische Clusteranalyse mit den Hauptkomponentenwerten durch (Single Linkage, Complete Linkage, Ward), bestimmen Sie die optimale Zahl der Cluster, und lassen Sie Sich für diese Clusterzahl die Clusterzugehörigkeiten ausgeben.. Führen Sie eine partitionierende Clusteranalyse mit der unter 1. bestimmten optimalen Zahl der Cluster durch. Interpretieren Sie die Cluster anhand der Clusterzentroid-Werte. 3. Wiederholen Sie die Analyse mit den z-transformierten Daten. 4. Vergleichen und bewerten Sie die mit den verschiedenen Verfahren vorgenommenen Klassifizierungen. 5. Vergleichen Sie die Ergebnisse mit denen der Hauptkomponenten- und der Korrespondenzanalyse. 10