Clusteranalyse und Display-Methoden

Ähnliche Dokumente
6. Multivariate Verfahren Zufallszahlen

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Modulklausur Multivariate Verfahren

Multivariate Statistische Methoden

Einführung in die Cluster-Analyse mit SPSS

Clustering Seminar für Statistik

Multivariate Statistische Methoden und ihre Anwendung

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

4.3 Hierarchische Klassifikationsverfahren

Marktforschung und Datenanalyse

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Data Mining und Knowledge Discovery in Databases

Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1

Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Angewandte Statistik 3. Semester

Lehrbuch der Statistik

0 Einführung: Was ist Statistik

Leistungsfähigkeit von Lokalisierungsverfahren im WLAN

Teil: lineare Regression

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

A. Die Grundlagen. B. Die Methoden der Datengewinnung. C. Erhebungsverfahren. Vorwort Inhaltsverzeichnis. 1. Gegenstand der Marktforschung

Bivariate Zusammenhänge

Korrespondenzanalyse

Euklidische Distanzmatrizen. Andrei Grecu

Einführung in die Cluster-Analyse mit SAS

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Data Mining - Clustering. Sven Elvers

Vereinfachte Clusteranalyse mit Excel

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Inhaltsverzeichnis. Vorwort

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

2. Datenvorverarbeitung

Statistik, Geostatistik

Dokumenten-Clustering. Norbert Fuhr

Hierarchische Clusteranalyse

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Multivariate Verfahren

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

6. Faktorenanalyse (FA) von Tests

6. Übung zur Linearen Optimierung SS08

Multivariate Statistik

Vorlesung Maschinelles Lernen

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Ein- und Zweistichprobentests

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Visualisierung in Natur- und Technikwissenschaften. 0. Einführung. Vorlesung: Mi, 11:15 12:45 + Fr, 9:15 10:45, INF Prof. Dr.

Statistik. Jan Müller

Multivariate Verfahren

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Statistik für das Psychologiestudium

Mittelwertvergleiche, Teil II: Varianzanalyse

Data Mining-Modelle und -Algorithmen

Anpassungstests VORGEHENSWEISE

Statistik für Ökonomen

Korrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS.

Florian Frötscher und Demet Özçetin

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Statistik II Übung 1: Einfache lineare Regression

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

Data Mining Anwendungen und Techniken

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer

Einführung in die computergestützte Datenanalyse

Aufgaben zu Kapitel 5:

Einführung in die Korrelationsrechnung

Mehrdimensionale Skalierung - MDS

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Explorative Faktorenanalyse

Einführung in SPSS. 1. Die Datei Seegräser

Protokoll zur Übung Ölanalyse

Diskriminanzanalyse Beispiel

Erste Schritte mit R. 2.1 Herunterladen der freien Software R

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

13. Übungswoche. Kapitel 12: Varianzanalyse (Fortsetzung)

Statistische Tests zu ausgewählten Problemen

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Bitte am PC mit Windows anmelden!

Auswirkungen von Fahrpreisänderungen im öffentlichen Personennahverkehr

Vorlesung Marktforschung

Statistische Grundlagen I

Seminar zum Thema Künstliche Intelligenz:

Transkript:

Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich Umweltanalytik Lessingstraße 8, Raum 326 Tel.: (9) 48 182 E-Mail: Stefan.Hesse@uni-jena.de Grundlagen: Das menschliche Auge ist gut in der Lage in einem Datensatz Strukturen zu erkennen, wenn der Datensatz aus Objekten besteht, an denen maximal drei Variablen gemessen wurden. Um Gruppierungen und Strukturen in höherdimensionalen Datensätzen zu erkennen existieren verschiedene Dimensionsreduzierende Projektionsmethoden (z. B. Hauptkomponentenplots) sowie graphische Verfahren, die von den Originaldaten ausgehen (z.b. Scatterplotmatrix, CHERNOFF-Faces). Eine weitere Möglichkeit die Abstände zwischen den Objekten zu visualisieren bietet die Clusteranalyse Seite 1 von 8

Clusteranalyse Das Ziel der Clusteranalyse besteht in der Einteilung von Objekten in verschiedene (vorher nicht bekannte) Gruppen oder Cluster. Dabei sollen die Objekte einer Gruppe untereinander eine möglichst große Ähnlichkeit (similarity) aufweisen, während die Gruppen voneinander unähnlich sind. Mit der Clusteranalyse können Strukturen in Daten entdeckt werden (Pattern recognition), jedoch keinerlei statistische Aussagen über die Gruppenzugehörigkeiten getroffen werden. Insofern handelt es sich um ein multivariates exploratives Verfahren. Es können sowohl Variablen als auch Fälle einer Clusteranalyse unterzogen werden. Zur Clusteranalyse existiert eine Reihe von verschiedenen Algorithmen. Man unterscheidet zwischen hierarchischen (joining oder tree-clustering) und nichthierarchischen Verfahren. Während man bei der hierarchischen Clusteranalyse ohne Vorinformationen arbeiten kann, sind für die nichthierarchischen Verfahren Annahmen über die Zahl der zu erhaltenden Cluster erforderlich. Neben dem verwendeten Algorithmus wird das Ergebnis der Clusteranalyse entscheidend vom verwendeten (multivariaten) Distanz- bzw. Ähnlichkeitsmaß beeinflußt. Am häufigsten eingesetzt werden die euklidische Distanz (Euclidean distance) und die quadrierte euklidische Distanz (squared Euclidean distance) eingesetzt. Die euklidische Distanz entspricht für 2 und 3 Dimensionen dem geometrischen Abstand, während bei der Verwendung der quadrierten euklidischen Distanz benachbarte Punkte im Vergleich zu weiter entfernten Punkten näher zusammenrücken. Andere Distanzmaße sind die Manhattan-(City-Block-)-Distanz, bei der die Summe der Differenzen der Variablen berechnet wird. Dies führt dazu, dass weit entfernte Objekte (z.b. Ausreißer) im Vergleich zur euklidischen Distanz weniger stark gewichtet werden. Seite 2 von 8

Einige in der Clusteranalyse verwendete Distanzmaße Euklidische Distanz De ( x, y) ( xi yi ) 2 i Quadratische Euklidische Distanz D 2 ( x, y) ( x y ) 2 e i i i Manhattan-(City-Block)-Distanz DM ( x, y) xi yi i 1/ 2 Der Ablauf der hierarchischen Clusteranalyse wird meist in einem Dendrogramm (Tree plot, Baumdiagramm) dargestellt. Beim (meist durchgeführten) agglomerativen Clustern werden die Objekte hierzu schrittweise entsprechend dem jeweils geringsten multivariaten Abstand zu immer größeren Clustern vereinigt, bis hin zur Fusion aller Objekte. 100 80 60 D 40 20 0 GLUCOSE HEPTANON HEPTANOL FORMALDE FURAN ESSIGSÄU GLYCERIN PHENOL ETHAN ETHANOL Häufig verwendete Fusions-Algorithmen für die hierarchische Clusteranalyse sind: Single linkage (nearest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem kleinsten multivariaten Abstand ( nächste Nachbarn ) bestimmt. Dieses Verfahren neigt dazu große Cluster zu bilden, bei denen die Objekte aneinandergereiht sind (Kettenbildung). Einzelne Objekte mit großem Abstand zu den übrigen Clustern werden isoliert. Complete linkage (furthest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem größten multivariaten Abstand bestimmt. Dieses Verfahren tendiert dazu kleinere Cluster zu bilden. Average Linkage (unweighted pair-group average). Die Distanz zwischen zwei Clustern wird durch den Mittelwert der Distanzen zwischen allen Objekten Seite 3 von 8

bestimmt. Neben dem WARD-Verfahren ist dies die am häufigsten genutzte Methode. Es werden homogene Gruppen gebildet, welche die reale Struktur des Datensatzes gut widerspiegeln. Verfahren von WARD. Bei dieser Methode wird für jedes Cluster der Mittelwert aus den Variablen berechnet. Es werden diejenigen Cluster gebildet, bei denen nach der Fusion die Summe der Distanzen der Objekte des Clusters zum Mittelwert minimal ist. Dieses Verfahren spiegelt die reale Struktur des Datensatzes gut wider, wenn die Cluster in etwa gleich groß sind. Neben Average Linkage ist dies die Methode der Wahl und sollte bei vollkommen unbekannter Datenstruktur zuerst angewandt werden. Im Unterschied zu den hierarchischen Verfahren ist bei der nichthierarchischen Clusteranalyse die Zahl der Cluster, in die die Objekte eingeordnet werden sollen, vorzugeben. Dies erfordert gewisse Hypothesen über die Struktur des Datenmaterials. Einschränkungen und Alternativen Mittels clusteranalytischer Verfahren werden interaktiv Hypothesen über die Daten generiert, die anschließend z.b. mit der Diskriminanzanalyse oder der Varianzanalyse statistisch erhärtet werden können. Weitere Verfahren um Strukturen in Daten zu erkennen sind Faktorenanalyse und Multidimensional Scaling. Zur anschaulichen Darstellung hochdimensionaler Datensätze existieren weiterhin graphische Verfahren wie die Scatterplotmatrix sowie weitere spezielle multivariate Darstellungen, z.b. die CHERNOFF-Gesichter. Unten sehen Sie eine CHERNOFF- Gesichter-Darstellung des Wasser-, Fett- und Proteingehalts von Fleischproben, wobei Case 5 der Probe mit dem höchsten Fett- und dem geringsten Proteingehalt entspricht. Seite 4 von 8

Chernoff Faces (T ECAPRED.ST A ) Cas e 1 Cas e 2 Cas e 3 Cas e 4 Cas e 5 Cas e 6 LEGEND: face/w = FET T, mouth/curv = PROT EIN, eyes /slant = W AS Durchführung: Übung: Programm: Datensatz: Beschreibung: Gruppierung verschiedener PNS der Saalenebenflüsse STATISTICA Saale_Ilm_Unstrut In den verschiednen Flüssen wurden die Elemente As, Cd, Co, Cr, Cu, Fe, Mn, Ni, Pb und Zn bestimmt. Kann man anhand der erhalten Elementmuster die Proben den verschiedenen Flüssen zuordnen? Bilden verschiedene Elemente Gruppen? Mit Hilfe clusteranalytischer Methoden kann ein Eindruck von der Struktur des Datensatzes erhalten werden. Als erstes soll der Einfluss der Autoskalierung beurteilt werden. Dazu wird eine Clusteranalyse (nach WARD) mit dem Datensatz Saale_Ilm_Unstrut durchgeführt. Führen Sie die Clusteranalyse für die Variablen und die Fälle durch! Anschließend wird der Datensatz Saale_Ilm_Unstrut standardisiert. ' x ij x ij x s j j Seite 5 von 8

Die Standardisierung der j Variablen ist hier zweckmäßig, da die Gehalte x ij der verschiedenen Elemente um mehrere Größenordnungen voneinander abweichen. Mit diesem standardisierten Datensatz werden erneut 2 Clusteranalysen (nach WARD) durchgeführt. Beurteilen Sie die Auswirkung der Autoskalierung auf die Ergebnisse der Clusteranalyse! Testen Sie den standardisierten Datensatz auf Normalverteilung und vergleichen Sie die Darstellung durch Histogramm und Probability-Probability-Plot für 2 Elemente! Die Auswirkungen der verschiedenen Fusionsalgorithmen und Distanzmaße auf die Clusterbildung soll überprüft werden. Führen Sie dazu die oben genannten Fusionsalgorithmen durch und variieren Sie für eine Methode die Distanzmaße (oben genannt)! Abschließend soll die Gruppierung anhand der verschiedenen Displaymethoden erfolgen. Stellen Sie dazu die Proben durch 4 verschiedene Displaymethoden dar. Vergleichen Sie die Aussagekraft der gewählten Methoden. Variieren Sie die Gesichtszüge der CHERNOFF-Gesichter und diskutieren Sie die Ergebnisse Protokollieren Sie die durchgeführten Schritte. Seite 6 von 8

Arbeitsweise mit Statistika Tabelle Standardisieren der Daten: Daten Standardisieren Histogrammdarstellung Grafik Histogramm Probability-Probability-Plot Grafik 2-D-Grafiken Probability-Probability-Plot Durchführung der Clusteranalyse Statistik multivariate explorative Techniken Clusteranalyse Agglomerativ OK Details Variablen Cluster für Fusionierung wählen Distanzmaß wählen OK Standard Skala dlink/dmax*100 ankreuzen Baumdiagramm Seite 7 von 8

Zur Veränderung der Distanzmaße und Fusionierungsalgorithmen Abbrechen. Darstellung der Displaymethoden Grafik Iconplots Standard Variablen Grafiktyp Option 1 OK Labels für Fälle: Fallnamen Grafik Veränderung der CHERNOFF-Gesichter Format Alle Optionen Muster Definition der CHERNOFF-Gesichter Literatur: Einax, J. W., Zwanziger, H. W,, Geiß, S.: Chemometrics in Environmental Analysis. VCH, Weinheim, 1997 Massart D. L., Vandeginste B. G. M., Buydens L. M. C., De Jong S., Lewi P. J., Smeyers-Verbeke J.: Handbook of chemometrics and qualimetrics; data handling in science and technology, Parts A and B, Vols. 20A and 20B. Elsevier, Amsterdam, 1997 http://www.statsoft.com/textbook/stathome.html Backhaus. K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysenmethoden Eine anwendungsorientierte Einführung, 8. Auflage, Springer Verlag, 1996 Seite 8 von 8