Clusteranalyse und Display-Methoden

Größe: px
Ab Seite anzeigen:

Download "Clusteranalyse und Display-Methoden"

Transkript

1 Ziel: Erkennen von Strukturen in Daten Vergleich der Algorithmen für die Clusteranalyse Beurteilung verschiedener Displaymethoden Stabilitätsdiagramme Betreuer: Dipl.-Chem. Stefan Hesse IAAC, Lehrbereich Umweltanalytik Lessingstraße 8, Raum 326 Tel.: (9) Grundlagen: Das menschliche Auge ist gut in der Lage in einem Datensatz Strukturen zu erkennen, wenn der Datensatz aus Objekten besteht, an denen maximal drei Variablen gemessen wurden. Um Gruppierungen und Strukturen in höherdimensionalen Datensätzen zu erkennen existieren verschiedene Dimensionsreduzierende Projektionsmethoden (z. B. Hauptkomponentenplots) sowie graphische Verfahren, die von den Originaldaten ausgehen (z.b. Scatterplotmatrix, CHERNOFF-Faces). Eine weitere Möglichkeit die Abstände zwischen den Objekten zu visualisieren bietet die Clusteranalyse Seite 1 von 8

2 Clusteranalyse Das Ziel der Clusteranalyse besteht in der Einteilung von Objekten in verschiedene (vorher nicht bekannte) Gruppen oder Cluster. Dabei sollen die Objekte einer Gruppe untereinander eine möglichst große Ähnlichkeit (similarity) aufweisen, während die Gruppen voneinander unähnlich sind. Mit der Clusteranalyse können Strukturen in Daten entdeckt werden (Pattern recognition), jedoch keinerlei statistische Aussagen über die Gruppenzugehörigkeiten getroffen werden. Insofern handelt es sich um ein multivariates exploratives Verfahren. Es können sowohl Variablen als auch Fälle einer Clusteranalyse unterzogen werden. Zur Clusteranalyse existiert eine Reihe von verschiedenen Algorithmen. Man unterscheidet zwischen hierarchischen (joining oder tree-clustering) und nichthierarchischen Verfahren. Während man bei der hierarchischen Clusteranalyse ohne Vorinformationen arbeiten kann, sind für die nichthierarchischen Verfahren Annahmen über die Zahl der zu erhaltenden Cluster erforderlich. Neben dem verwendeten Algorithmus wird das Ergebnis der Clusteranalyse entscheidend vom verwendeten (multivariaten) Distanz- bzw. Ähnlichkeitsmaß beeinflußt. Am häufigsten eingesetzt werden die euklidische Distanz (Euclidean distance) und die quadrierte euklidische Distanz (squared Euclidean distance) eingesetzt. Die euklidische Distanz entspricht für 2 und 3 Dimensionen dem geometrischen Abstand, während bei der Verwendung der quadrierten euklidischen Distanz benachbarte Punkte im Vergleich zu weiter entfernten Punkten näher zusammenrücken. Andere Distanzmaße sind die Manhattan-(City-Block-)-Distanz, bei der die Summe der Differenzen der Variablen berechnet wird. Dies führt dazu, dass weit entfernte Objekte (z.b. Ausreißer) im Vergleich zur euklidischen Distanz weniger stark gewichtet werden. Seite 2 von 8

3 Einige in der Clusteranalyse verwendete Distanzmaße Euklidische Distanz De ( x, y) ( xi yi ) 2 i Quadratische Euklidische Distanz D 2 ( x, y) ( x y ) 2 e i i i Manhattan-(City-Block)-Distanz DM ( x, y) xi yi i 1/ 2 Der Ablauf der hierarchischen Clusteranalyse wird meist in einem Dendrogramm (Tree plot, Baumdiagramm) dargestellt. Beim (meist durchgeführten) agglomerativen Clustern werden die Objekte hierzu schrittweise entsprechend dem jeweils geringsten multivariaten Abstand zu immer größeren Clustern vereinigt, bis hin zur Fusion aller Objekte D GLUCOSE HEPTANON HEPTANOL FORMALDE FURAN ESSIGSÄU GLYCERIN PHENOL ETHAN ETHANOL Häufig verwendete Fusions-Algorithmen für die hierarchische Clusteranalyse sind: Single linkage (nearest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem kleinsten multivariaten Abstand ( nächste Nachbarn ) bestimmt. Dieses Verfahren neigt dazu große Cluster zu bilden, bei denen die Objekte aneinandergereiht sind (Kettenbildung). Einzelne Objekte mit großem Abstand zu den übrigen Clustern werden isoliert. Complete linkage (furthest neighbour). Die Distanz zwischen zwei Clustern wird durch die Distanz der beiden Objekte mit dem größten multivariaten Abstand bestimmt. Dieses Verfahren tendiert dazu kleinere Cluster zu bilden. Average Linkage (unweighted pair-group average). Die Distanz zwischen zwei Clustern wird durch den Mittelwert der Distanzen zwischen allen Objekten Seite 3 von 8

4 bestimmt. Neben dem WARD-Verfahren ist dies die am häufigsten genutzte Methode. Es werden homogene Gruppen gebildet, welche die reale Struktur des Datensatzes gut widerspiegeln. Verfahren von WARD. Bei dieser Methode wird für jedes Cluster der Mittelwert aus den Variablen berechnet. Es werden diejenigen Cluster gebildet, bei denen nach der Fusion die Summe der Distanzen der Objekte des Clusters zum Mittelwert minimal ist. Dieses Verfahren spiegelt die reale Struktur des Datensatzes gut wider, wenn die Cluster in etwa gleich groß sind. Neben Average Linkage ist dies die Methode der Wahl und sollte bei vollkommen unbekannter Datenstruktur zuerst angewandt werden. Im Unterschied zu den hierarchischen Verfahren ist bei der nichthierarchischen Clusteranalyse die Zahl der Cluster, in die die Objekte eingeordnet werden sollen, vorzugeben. Dies erfordert gewisse Hypothesen über die Struktur des Datenmaterials. Einschränkungen und Alternativen Mittels clusteranalytischer Verfahren werden interaktiv Hypothesen über die Daten generiert, die anschließend z.b. mit der Diskriminanzanalyse oder der Varianzanalyse statistisch erhärtet werden können. Weitere Verfahren um Strukturen in Daten zu erkennen sind Faktorenanalyse und Multidimensional Scaling. Zur anschaulichen Darstellung hochdimensionaler Datensätze existieren weiterhin graphische Verfahren wie die Scatterplotmatrix sowie weitere spezielle multivariate Darstellungen, z.b. die CHERNOFF-Gesichter. Unten sehen Sie eine CHERNOFF- Gesichter-Darstellung des Wasser-, Fett- und Proteingehalts von Fleischproben, wobei Case 5 der Probe mit dem höchsten Fett- und dem geringsten Proteingehalt entspricht. Seite 4 von 8

5 Chernoff Faces (T ECAPRED.ST A ) Cas e 1 Cas e 2 Cas e 3 Cas e 4 Cas e 5 Cas e 6 LEGEND: face/w = FET T, mouth/curv = PROT EIN, eyes /slant = W AS Durchführung: Übung: Programm: Datensatz: Beschreibung: Gruppierung verschiedener PNS der Saalenebenflüsse STATISTICA Saale_Ilm_Unstrut In den verschiednen Flüssen wurden die Elemente As, Cd, Co, Cr, Cu, Fe, Mn, Ni, Pb und Zn bestimmt. Kann man anhand der erhalten Elementmuster die Proben den verschiedenen Flüssen zuordnen? Bilden verschiedene Elemente Gruppen? Mit Hilfe clusteranalytischer Methoden kann ein Eindruck von der Struktur des Datensatzes erhalten werden. Als erstes soll der Einfluss der Autoskalierung beurteilt werden. Dazu wird eine Clusteranalyse (nach WARD) mit dem Datensatz Saale_Ilm_Unstrut durchgeführt. Führen Sie die Clusteranalyse für die Variablen und die Fälle durch! Anschließend wird der Datensatz Saale_Ilm_Unstrut standardisiert. ' x ij x ij x s j j Seite 5 von 8

6 Die Standardisierung der j Variablen ist hier zweckmäßig, da die Gehalte x ij der verschiedenen Elemente um mehrere Größenordnungen voneinander abweichen. Mit diesem standardisierten Datensatz werden erneut 2 Clusteranalysen (nach WARD) durchgeführt. Beurteilen Sie die Auswirkung der Autoskalierung auf die Ergebnisse der Clusteranalyse! Testen Sie den standardisierten Datensatz auf Normalverteilung und vergleichen Sie die Darstellung durch Histogramm und Probability-Probability-Plot für 2 Elemente! Die Auswirkungen der verschiedenen Fusionsalgorithmen und Distanzmaße auf die Clusterbildung soll überprüft werden. Führen Sie dazu die oben genannten Fusionsalgorithmen durch und variieren Sie für eine Methode die Distanzmaße (oben genannt)! Abschließend soll die Gruppierung anhand der verschiedenen Displaymethoden erfolgen. Stellen Sie dazu die Proben durch 4 verschiedene Displaymethoden dar. Vergleichen Sie die Aussagekraft der gewählten Methoden. Variieren Sie die Gesichtszüge der CHERNOFF-Gesichter und diskutieren Sie die Ergebnisse Protokollieren Sie die durchgeführten Schritte. Seite 6 von 8

7 Arbeitsweise mit Statistika Tabelle Standardisieren der Daten: Daten Standardisieren Histogrammdarstellung Grafik Histogramm Probability-Probability-Plot Grafik 2-D-Grafiken Probability-Probability-Plot Durchführung der Clusteranalyse Statistik multivariate explorative Techniken Clusteranalyse Agglomerativ OK Details Variablen Cluster für Fusionierung wählen Distanzmaß wählen OK Standard Skala dlink/dmax*100 ankreuzen Baumdiagramm Seite 7 von 8

8 Zur Veränderung der Distanzmaße und Fusionierungsalgorithmen Abbrechen. Darstellung der Displaymethoden Grafik Iconplots Standard Variablen Grafiktyp Option 1 OK Labels für Fälle: Fallnamen Grafik Veränderung der CHERNOFF-Gesichter Format Alle Optionen Muster Definition der CHERNOFF-Gesichter Literatur: Einax, J. W., Zwanziger, H. W,, Geiß, S.: Chemometrics in Environmental Analysis. VCH, Weinheim, 1997 Massart D. L., Vandeginste B. G. M., Buydens L. M. C., De Jong S., Lewi P. J., Smeyers-Verbeke J.: Handbook of chemometrics and qualimetrics; data handling in science and technology, Parts A and B, Vols. 20A and 20B. Elsevier, Amsterdam, Backhaus. K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysenmethoden Eine anwendungsorientierte Einführung, 8. Auflage, Springer Verlag, 1996 Seite 8 von 8

6. Multivariate Verfahren Zufallszahlen

6. Multivariate Verfahren Zufallszahlen 4. Zufallszahlen 6. Multivariate Verfahren Zufallszahlen - werden nach einem determinist. Algorithmus erzeugt Pseudozufallszahlen - wirken wie zufäll. Zahlen (sollen sie jedenfalls) Algorithmus: Startwert

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher Clusteranalyse Anwendungsorientierte Einführung Von Dr. Johann Bacher R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS Vorwort XI 1 Einleitung 1 1.1 Primäre Zielsetzung clusteranalytischer Verfahren

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Modulklausur Multivariate Verfahren

Modulklausur Multivariate Verfahren Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr

Multivariate Statistische Methoden

Multivariate Statistische Methoden Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg v..v.-'... ':,. -X V R.Oldenbourg

Mehr

Einführung in die Cluster-Analyse mit SPSS

Einführung in die Cluster-Analyse mit SPSS Einführung in die -Analyse mit SPSS SPSS-Benutzertreffen am URZ Carina Ortseifen. Juli 00 Inhalt. analyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien. analyse mit SPSS a) Hierarchische

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Multivariate Statistische Methoden und ihre Anwendung

Multivariate Statistische Methoden und ihre Anwendung Multivariate Statistische Methoden und ihre Anwendung in den Wirtschafts- und Sozialwissenschaften Von Prof. Dr. Hans Peter Litz Carl von Ossietzky Universität Oldenburg R. Oldenbourg Verlag München Wien

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten Bachelorarbeit Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten zur Erlangung des Grades Bachelor of Science von Sophia Hendriks (Matrikelnummer: 182984) Studiengang Statistik eingereicht

Mehr

4.3 Hierarchische Klassifikationsverfahren

4.3 Hierarchische Klassifikationsverfahren 4.3 Hierarchische Klassifikationsverfahren Hierarchische Klassifikationsverfahren: Einsatz zum Zwecke einer Aufdeckung von lusterstrukturen, wenn keine Kenntnisse über die Gruppenzahl verfügbar sind Agglomerativen

Mehr

Marktforschung und Datenanalyse

Marktforschung und Datenanalyse Marktforschung und Datenanalyse Lehrstuhl für BWL, insb. Marketing von Prof. Dr. Reinhold Decker Dozentin: Anja Hörmeyer (M.Sc.) Universität Bielefeld, Lehrstuhl für BWL, insb. Marketing 1 Anja Hörmeyer

Mehr

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Jürgen Bortz Statistik Für Sozialwissenschaftler Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen Springer-Verlag Berlin Heidelberg Newlfork London Paris Tokyo Inhaltsverzeichnis Einleitung

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1

Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1 Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 1 Klausur Strategisches Marketing und Internationales Marketing WS 2013/14 Gesamtpunktzahl: 120 Aufgabe 1: Informationsgrundlagen

Mehr

Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances

Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances Analysis of Crash Simulation Data using Spectral Embedding with Histogram Distances Luisa Schwartz Universität Bonn Institut für Numerische Simulation Fraunhofer SCAI 25. September 2014 Luisa Schwartz

Mehr

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Autor: Dr. Ralf Gutfleisch, Stadt Frankfurt a. M., Bürgeramt, Statistik und Wahlen Was ist eine Clusteranalyse, wann und wie wird sie angewendet? Fragestellung Drei Fragen stehen im Vordergrund dieser

Mehr

Angewandte Statistik 3. Semester

Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen

Mehr

Lehrbuch der Statistik

Lehrbuch der Statistik Jürgen Bortz Lehrbuch der Statistik Für Sozialwissenschaftler Zweite, vollständig neu bearbeitete und erweiterte Auflage Mit 71 Abbildungen und 223 Tabellen Springer-Verlag Berlin Heidelberg New York Tokyo

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen

Mehr

Leistungsfähigkeit von Lokalisierungsverfahren im WLAN

Leistungsfähigkeit von Lokalisierungsverfahren im WLAN Leistungsfähigkeit von Lokalisierungsverfahren im WLAN Gliederung 1. Motivation 2. Möglichkeiten und Probleme WLAN Positionsbestimmung 3. Vorgehen a. Testumgebung b. Gerätschaften und Messungen c. Location

Mehr

Teil: lineare Regression

Teil: lineare Regression Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge

Mehr

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen 7. Clusteranalyse (= Häufungsanalyse; Clustering-Verfahren) wird der multivariaten Statistik zugeordnet Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut,

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 2C a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Bei HHEINK handelt es sich um eine metrische Variable. Bei den Analysen sollen Extremwerte ausgeschlossen werden. Man sollte

Mehr

A. Die Grundlagen. B. Die Methoden der Datengewinnung. C. Erhebungsverfahren. Vorwort Inhaltsverzeichnis. 1. Gegenstand der Marktforschung

A. Die Grundlagen. B. Die Methoden der Datengewinnung. C. Erhebungsverfahren. Vorwort Inhaltsverzeichnis. 1. Gegenstand der Marktforschung Vorwort Inhaltsverzeichnis A. Die Grundlagen 1. Gegenstand der Marktforschung 2. Arten der Marktforschung 3. Arten der Marktuntersuchung 4. Bedeutung von Informationen im Marketing-Entscheidungsprozess

Mehr

Bivariate Zusammenhänge

Bivariate Zusammenhänge Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne

Mehr

Korrespondenzanalyse

Korrespondenzanalyse Seite 1 von 5 Korrespondenzanalyse Ziel der Korrespondenzanalyse... 1 Anforderungen an die Daten (Stärke des Verfahrens)... 1 Einordnung in die multivariaten Verfahren... 1 Normierung der Daten... 1 Festlegung

Mehr

Euklidische Distanzmatrizen. Andrei Grecu

Euklidische Distanzmatrizen. Andrei Grecu Euklidische Distanzmatrizen Andrei Grecu Übersicht Motivation Definition und Problemstellung Algo 1: Semidefinite Programmierung Algo 2: Multidimensional Scaling Algo 3: Spring Embedder Algo 4: Genetischer

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Data Mining - Clustering. Sven Elvers

Data Mining - Clustering. Sven Elvers Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 2 Agenda Data Mining Clustering Aktuelle Arbeiten Thesis Outline 3 Data Mining Entdecken versteckter Informationen, Muster und Zusammenhänge

Mehr

Vereinfachte Clusteranalyse mit Excel

Vereinfachte Clusteranalyse mit Excel Autor: Helmut Schels, Stadt Ingolstadt, Stadtplanungsamt Vereinfachte Clusteranalyse mit Excel Clusteranalyse mit Excel nach einer der hierarchischen Methoden (Single-Linkage) Kurzbeschreibung Hintergrund

Mehr

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Fragenkatalog zur Vorlesung Grundlagen des Data Mining (WS 2006/07) Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07) 1. Grenzen Sie die Begriffe "Daten" und "Wissen" mit je 3 charakteristischen Eigenschaften gegeander ab. 2. Nennen Sie vier verschiedene

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

Inhaltsverzeichnis. Vorwort

Inhaltsverzeichnis. Vorwort V Vorwort XI 1 Zum Gebrauch dieses Buches 1 1.1 Einführung 1 1.2 Der Text in den Kapiteln 1 1.3 Was Sie bei auftretenden Problemen tun sollten 2 1.4 Wichtig zu wissen 3 1.5 Zahlenbeispiele im Text 3 1.6

Mehr

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra If you torture your data long enough, they will tell you whatever you want to hear. James L. Mills Warum Biostatistik?

Mehr

Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien

Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Kapitel 29 Clusterzentrenanalyse - Clusteranalyse für große Dateien Eine Clusteranalyse dient allgemein dazu, eine Menge von Objekten in Gruppen (Cluster) zu unterteilen, wobei jede Gruppe in sich möglichst

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Statistik, Geostatistik

Statistik, Geostatistik Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Hierarchische Clusteranalyse

Hierarchische Clusteranalyse Hierarchische Clusteranalyse Unter dem Menupunkt Statistik - Klassifizieren finden sich sowohl agglomerative ( hierarchische ) als auch partitionierende ( Clusterzentren ) Clusteranalyseverfahren. Da die

Mehr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei

Mehr

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen 6.10.2016 Hochschule Esslingen Übungsblatt 2 Statistik Stichworte: arithmetischer Mittelwert, empirische Varianz, empirische Standardabweichung, empirischer

Mehr

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung

Mehr

6. Faktorenanalyse (FA) von Tests

6. Faktorenanalyse (FA) von Tests 6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...

Mehr

6. Übung zur Linearen Optimierung SS08

6. Übung zur Linearen Optimierung SS08 6 Übung zur Linearen Optimierung SS08 1 Sei G = (V, E) ein schlichter ungerichteter Graph mit n Ecken und m Kanten Für eine Ecke v V heißt die Zahl der Kanten (u, v) E Grad der Ecke (a) Ist die Anzahl

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen LACE Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik Technische Universität Dortmund 28.1.2014 1 von 71 Gliederung 1 Organisation von Sammlungen Web 2.0

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Ein- und Zweistichprobentests

Ein- und Zweistichprobentests (c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Ein- Zweistichprobentests Worum geht es in diesem Modul? Wiederholung: allgemeines Ablaufschema eines Tests Allgemeine Voraussetzungen

Mehr

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel Clusteranalyse Multivariate Datenanalyse Prof. Dr. Dietmar Maringer Abteilung für Quantitative Methoden, WWZ der Universität Basel Herbstsemester 2013 D Maringer: Datenanalyse Clusteranalyse (1) Ausgangssituation

Mehr

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer

Mehr

Visualisierung in Natur- und Technikwissenschaften. 0. Einführung. Vorlesung: Mi, 11:15 12:45 + Fr, 9:15 10:45, INF 368 532 Prof. Dr.

Visualisierung in Natur- und Technikwissenschaften. 0. Einführung. Vorlesung: Mi, 11:15 12:45 + Fr, 9:15 10:45, INF 368 532 Prof. Dr. Visualisierung in Natur- und Technikwissenschaften 0. Einführung Vorlesung: Mi, 11:15 12:45 + Fr, 9:15 10:45, INF 368 532 Prof. Dr. Heike Leitte Vertiefung Computergraphik und Visualisierung Jürgen Hesser

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth

Mehr

Statistik für das Psychologiestudium

Statistik für das Psychologiestudium Dieter Rasch / Klaus D. Kubinger Statistik für das Psychologiestudium Mit Softwareunterstützung zur Planung und Auswertung von Untersuchungen sowie zu sequentiellen Verfahren ELSEVIER SPEKTRUM AKADEMISCHER

Mehr

Mittelwertvergleiche, Teil II: Varianzanalyse

Mittelwertvergleiche, Teil II: Varianzanalyse FB 1 W. Ludwig-Mayerhofer Statistik II 1 Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil II: FB 1 W. Ludwig-Mayerhofer Statistik II 2 : Wichtigste Eigenschaften Anwendbar auch bei mehr als

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Anpassungstests VORGEHENSWEISE

Anpassungstests VORGEHENSWEISE Anpassungstests Anpassungstests prüfen, wie sehr sich ein bestimmter Datensatz einer erwarteten Verteilung anpasst bzw. von dieser abweicht. Nach der Erläuterung der Funktionsweise sind je ein Beispiel

Mehr

Statistik für Ökonomen

Statistik für Ökonomen Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS 2., überarbeitete Auflage 4ü Springer Gabler Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R '! 3 1.1 Installieren

Mehr

Korrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS.

Korrespondenzanalyse. Gliederung. Helge Siems. Theoretische Grundlagen und die Anwendung in SPSS. Korrespondenzanalyse Theoretische Grundlagen und die Anwendung in SPSS. Ein Vortrag von Jana Bombik, Erdmute Jahn, Claudia Philipp und Helge Siems an der Hochschule Harz im Rahmen der Vertiefungsrichtung

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin [email protected] SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher

Visualisierung hochdimensionaler Daten. Hauptseminar SS11 Michael Kircher Hauptseminar SS11 Inhalt Einführung zu hochdimensionalen Daten Visualisierungsmöglichkeiten dimensionale Teilmengen dimensionale Schachtelung Achsenumgestaltung Algorithmen zur Dimensionsreduktion Zusammenfassung

Mehr

Statistik II Übung 1: Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression Statistik II Übung 1: Einfache lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen dem Lohneinkommen von sozial benachteiligten Individuen (16-24 Jahre alt) und der Anzahl der

Mehr

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer

Grundlagen der Bioinformatik Übung 5 Einführung in R. Ulf Leser, Yvonne Mayer Grundlagen der Bioinformatik Übung 5 Einführung in R Ulf Leser, Yvonne Mayer Introduction to R Ulf Leser: Grundlagen der Bioinformatik, Sommer Semester 2016 2 Einführung in R Voraussetzung: funktionsfähige

Mehr

Einführung in die computergestützte Datenanalyse

Einführung in die computergestützte Datenanalyse Karlheinz Zwerenz Statistik Einführung in die computergestützte Datenanalyse 6., überarbeitete Auflage DE GRUYTER OLDENBOURG Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt XI XII XII TEIL

Mehr

Aufgaben zu Kapitel 5:

Aufgaben zu Kapitel 5: Aufgaben zu Kapitel 5: Aufgabe 1: Ein Wissenschaftler untersucht, in wie weit die Reaktionszeit auf bestimmte Stimuli durch finanzielle Belohnung zu steigern ist. Er möchte vier Bedingungen vergleichen:

Mehr

Einführung in die Korrelationsrechnung

Einführung in die Korrelationsrechnung Einführung in die Korrelationsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg [email protected] Statistik 1 S. Garbade (SRH Heidelberg) Korrelationsrechnung

Mehr

Mehrdimensionale Skalierung - MDS

Mehrdimensionale Skalierung - MDS Mehrdimensionale Skalierung - MDS Warum? Angesichts der ständigen Suche nach Differenzierungsmöglichkeiten ist es für ein Unternehmen von Vorteil zu wissen, auf welche Weise die Leistungsabnehmer seine

Mehr

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Statistische Methoden in der Wirtschaftsund Sozialgeographie Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 10.15-11-45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-

Mehr

Explorative Faktorenanalyse

Explorative Faktorenanalyse Explorative Faktorenanalyse 1 Einsatz der Faktorenanalyse Verfahren zur Datenreduktion Analyse von Datenstrukturen 2 -Ich finde es langweilig, mich immer mit den selben Leuten zu treffen -In der Beziehung

Mehr

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr

Protokoll zur Übung Ölanalyse

Protokoll zur Übung Ölanalyse Protokoll zur Übung Ölanalyse im Rahmen des Praktikums Betreuender Assistent Univ.Ass. Dipl.-Ing. Martin Schwentenwein Verfasser des Protokolls: Daniel Bomze 0726183 1 Theoretischer Hintergrund 1.1 Aufgabenstellung

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Erste Schritte mit R. 2.1 Herunterladen der freien Software R

Erste Schritte mit R. 2.1 Herunterladen der freien Software R Erste Schritte mit R 2 BevorwirunsmitdeninKap.1 eingeführten Fragestellungen beschäftigen, brauchen wir noch ein Werkzeug, um die Datensätze später wirklich auswerten zu können. Sicher lässt sich das in

Mehr

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren

Mehr

13. Übungswoche. Kapitel 12: Varianzanalyse (Fortsetzung)

13. Übungswoche. Kapitel 12: Varianzanalyse (Fortsetzung) 1 13. Übungswoche Kapitel 12: Varianzanalyse (Fortsetzung) [ 3 ] Im Vorkurs Mathematik für Wirtschafstwissenschaftler vor Beginn des Sommersemesters 2009 wurde am Anfang und am Ende ein Test geschrieben,

Mehr

Statistische Tests zu ausgewählten Problemen

Statistische Tests zu ausgewählten Problemen Einführung in die statistische Testtheorie Statistische Tests zu ausgewählten Problemen Teil 4: Nichtparametrische Tests Statistische Testtheorie IV Einführung Beschränkung auf nichtparametrische Testverfahren

Mehr

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16 Vorwort 1 1. Kapitel: Der Stellenwert der Statistik für die sozialwissenschaflliche Forschung 1 1. Zur Logik (sozial-)wissenschaftlicher Forschung 1 1. Alltagswissen und wissenschaftliches Wissen 1 2.

Mehr

Bitte am PC mit Windows anmelden!

Bitte am PC mit Windows anmelden! Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung

Mehr

Auswirkungen von Fahrpreisänderungen im öffentlichen Personennahverkehr

Auswirkungen von Fahrpreisänderungen im öffentlichen Personennahverkehr Auswirkungen von Fahrpreisänderungen im öffentlichen Personennahverkehr Von Dr. Willy Frank DUNCKER & HUMBLOT / BERLIN Inhaltsverzeichnis 1 Einleitung : 1 1.1 Ausgangslage und Problemstellung 1 1.2 Ziel

Mehr

Vorlesung Marktforschung

Vorlesung Marktforschung Vorlesung Marktforschung Multivariatenanalyse Sommersemester 2010 TU Berlin, Lehrstuhl Marketing Prof. Dr. V. Trommsdorff, Sekr. WIL-B-3-1, Wilmersdorfer Straße 148, 10585 Berlin, www.marketing-trommsdorff.de

Mehr

Statistische Grundlagen I

Statistische Grundlagen I Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.

Mehr

Seminar zum Thema Künstliche Intelligenz:

Seminar zum Thema Künstliche Intelligenz: Wolfgang Ginolas Seminar zum Thema Künstliche Intelligenz: Clusteranalyse Wolfgang Ginolas 11.5.2005 Wolfgang Ginolas 1 Beispiel Was ist eine Clusteranalyse Ein einfacher Algorithmus 2 bei verschieden

Mehr