4.Tutorium Multivariate Verfahren

Ähnliche Dokumente
Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Multivariate Verfahren

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

z Partitionierende Klassifikationsverfahren

6. Multivariate Verfahren Zufallszahlen

Data Mining und Knowledge Discovery in Databases

Seminar zum Thema Künstliche Intelligenz:

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Clusteranalyse. Mathematische Symbole Anzahl der Objekte, Versuchspersonen

Proseminar: Web-Performance

Mathematische Grundlagen III

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Dokumenten-Clustering. Norbert Fuhr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse K-Means-Verfahren

Inhalt. 5.1 Motivation. 5.2 Clustering mit Repräsentanten. 5.3 Hierarchisches Clustering. 5.4 Dichtebasiertes Clustering. 5.

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Gliederung. 1. Einführung 2. Vorgehensweise. 3. Anwendungshinweise 4. Abgrenzung zu Faktorenanalyse 5. Fallbeispiel & SPSS

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Clustering Seminar für Statistik

Clustering. Uwe Reichel IPS, LMU München 19. Mai 2010

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Statistik II: Klassifikation und Segmentierung

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Textmining Clustering von Dokumenten

Clustern von numerischen Wettervorhersagen

Methoden zur Cluster - Analyse

Haben Sie schon mal geclustert? Beitrag zum Workshop Clusteranalyse auf der Frühjahrstagung der Städtestatistik 2008 in Saarbrücken

Seminar zum Thema Künstliche Intelligenz: Clusteranalyse

Keimreaktionen auf Antibiotikagruppen

4.3 Hierarchische Klassifikationsverfahren

Statistische Verfahren zur Datenreduktion (Clusteranalyse, Hauptkomponentenanalyse)

Was ist eine Clusteranalyse, wann und wie wird sie angewendet?

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell

Clusteranalyse mit SPSS

SBWL Tourismusanalyse und Freizeitmarketing

Einführung in die Cluster-Analyse mit SPSS

Vorlesung Maschinelles Lernen

Clusteranalyse Hierarchische Verfahren

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010

Inhaltliche Planung für die Vorlesung

Clustering. Kursfolien. Karin Haenelt

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Multivariate Statistische Methoden

Einführung in das Data Mining Clustering / Clusteranalyse

Segmentierung. Seminar: Medizinische Visualisierung. Daniel Lange

Übungen zur Wahrscheinlichkeitstheorie und Statistik

Mathematische Grundlagen der Computerlinguistik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung 13, Henning Meyerhenke

Multivariate Statistische Methoden und ihre Anwendung

5. Übungsblatt zur Einführung in die Stochastik

Einführung in die Wahrscheinlichkeitsrechnung

Mathematik für Anwender II

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit

8. Clusterbildung, Klassifikation und Mustererkennung

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Mathematik I. Vorlesung 19. Metrische Räume

Wissensbasierte Systeme

Korrespondenzanalyse

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Kapitel 5 KONVERGENZ

Datamining Ein kleiner Einblick

Fragenkatalog zur Vorlesung "Grundlagen des Data Mining" (WS 2006/07)

Technische Universität

Wolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.

Wortarten und Korpus

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:

entspricht der Länge des Vektorpfeils. Im R 2 : x =

Teil II. Wahrscheinlichkeitsrechnung

Lehrbuch der Statistik

Konvergenz einer Folge. 1-E1 Ma 1 Lubov Vassilevskaya

Methoden zur Segmentierung von Daten

Vorlesung Maschinelles Lernen

7. Woche Extra-Material: - Beispiele von Codes. 7. Woche: Beispiele von Codes 144/ 238

Formelsammlung zu Multivariate Verfahren

Hierarchische Clusteranalyse

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Modulklausur Multivariate Verfahren

Vorlesung Wissensentdeckung

1 Euklidische und unitäre Vektorräume

Graphische Datenverarbeitung und Bildverarbeitung

Quadtrees und Meshing

Data Mining: Klassifikations- und Clusteringverfahren

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Einführung in die Cluster-Analyse mit SAS

Algorithms for Regression and Classification

Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren

1 Zahlentheorie. 1.1 Kongruenzen

Klimatypänderungen in Deutschland im 20. Jahrhundert. P.C. Werner, F.-W. Gerstengarbe, H. Österle

Vorlesung 3 MINIMALE SPANNBÄUME

Euklidische Distanzmatrizen. Andrei Grecu

Visualisierung und Vergleich der Clusterverfahren anhand von QEBS-Daten

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben

Empirische Verteilungsfunktion

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

5 Statistische Auswertung der Ergebnisse

5. DIFFERENZIEREN UND INTEGRIEREN

Transkript:

4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17

Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 2 / 17

Idee der Clusteranalyse Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 3 / 17

Idee der Clusteranalyse Problemstellung Einteilung einer Menge von n Individuen {a 1,..., a n } in Teilmengen, sogenannte Cluster! Die Einteilung soll so erfolgen, dass sich die Individuen innerhalb eines Clusters möglichst ähnlich sind (Homogenität innerhalb der Cluster) sich die Cluster untereinander möglichst unterscheiden (Heterogenität über die Cluster hinweg) Beachte: Die Klassen/Gruppen sind vorab nicht bekannt und werden gesucht! (im Gegensatz zur Diskriminanzanalyse) 4 / 17

Idee der Clusteranalyse Datensituation Gegeben sind n Individuen mit zugehörigen Merkmalsvektoren x i, i = 1,..., n C = {C 1,..., C k } sei eine Partition der Individuen in k Cluster Gesucht ist eine disjunkte Zerlegung {C 1,..., C k } mit folgenden Eigenschaften: k a) C i = {a 1,..., a n } i=1 b) C i C j = i j 5 / 17

Distanzmaße Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 6 / 17

Distanzmaße Distanz zwischen den Individuen Für Distanzmaße d : Ω x Ω R postuliert man: d(a i, a j ) = d(a j, a i ) d(a i, a i ) = 0 d(a i, a j ) 0 i, j d(a i, a j ) d(a i, a r ) + d(a r, a j ) (Dreiecksungleichung) Typische Distanzmaße: p d q (x i, x j ) = q l=1 (x il x jl ) q (L q -Metrik) p d 2 (x i, x j ) = l=1 (x il x jl ) 2 (euklidische Distanz) d 1 (x i, x j ) = p l=1 x il x jl (Manhattan-Metrik) 7 / 17

Hierarchische Klassifikationsverfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 8 / 17

Hierarchische Klassifikationsverfahren Grundstruktur Konstruktion einer Hierarchie von Partitionen C = {C 1,..., C k }. Die Anzahl der Cluster variiert dabei von 1 bis zur Anzahl der Individuen! Agglomerative Verfahren: zu Beginn bildet jedes Individuum einen eigenen Cluster Divisive Verfahren: zu Beginn ein großer Cluster, der alle Individuen enthält Merke: Die Hierarchie enthält das Klassifikationsergebnis für jede mögliche Anzahl an Clustern (beliebig wählbar) Hierarchischen Klassifikationen erfordern Definition der Distanz zwischen Individuen (vgl. Metriken Folie 7) Distanz zwischen Clustern Linkage 9 / 17

Hierarchische Klassifikationsverfahren Linkage-Methoden C r, C s : Cluster Single Linkage: D(C r, C s ) = Complete Linkage: D(C r, C s ) = Average Linkage: D(C r, C s ) = 1 min a i C r,a j C s d(a i, a j ) max d(a i, a j ) a i C r,a j C s C r C s Zentroid-Verfahren: D(C r, C s ) = x r x s 2 a i C r,a j C s d(a i, a j ) Cr Cs Ward: D(C r, C s ) = C r + C x s r x s 2, x r, x s : Mittelwert der Individuen in Cluster C r, C s 10 / 17

Hierarchische Klassifikationsverfahren Agglomerative Verfahren Algorithmus: 1 Start: Feinste Partition: Jedes Individuum bildet einen eigenen Cluster: C = {{a 1 },..., {a n }} 2 Vereinige im ν-ten Schritt zwei Cluster C r, C s mit dem kleinsten Abstand und berechne den Homogenitätsindex: h ν = min r s D(C r, C s ). 3 Wiederhole 2. bis ein großer Cluster entsteht, der alle Individuen enthält: C = {a 1,..., a n } Die Distanzen der Individuen werden durch die festgelegte Metrik, die Distanzen der Cluster durch die festgelegte Linkage-Methode bestimmt! 11 / 17

Hierarchische Klassifikationsverfahren Divisive Verfahren Algorithmus: 1 Start: Gröbste Partition: Ein großer Cluster, der alle Individuen enthält: C = {a 1,..., a n }. 2 Sukzessive Unterteilung der Partition bis die feinste Partition entsteht: C = {{a 1 },..., {a n }} Beachte: 2 n 1 Möglichkeiten zu splitten Für großes n ist agglomerativ einfacher! 12 / 17

Hierarchische Klassifikationsverfahren Dendrogramm Graphische Darstellung einer hierarchischen Clusterung y Achse: Homogenitätsmaß h je kleiner h, desto homogener ist der Cluster! Sukzessives Zusammenfassen bzw. sukzessive Aufteilung im Plot erkennbar. 13 / 17

Nichthierarchische Verfahren Gliederung 1 Idee der Clusteranalyse 2 Distanzmaße 3 Hierarchische Klassifikationsverfahren 4 Nichthierarchische Verfahren 14 / 17

Nichthierarchische Verfahren Grundprinzip Ziel: Finde die Partition C = {C 1,..., C k } bestehend aus k Clustern, die bezüglich eines Gütekriteriums optimal ist! Man betrachtet für jede Partition ein Optimalitätskriterium, das die Heterogenität erfasst: H(C opt ) = min H(C) C Austauschverfahren: 1 Wähle eine zufällige Ausgangspartionen aus k Individuen 2 Prüfe in der Partition C alt, ob die Zuordnung jeweils eines Individuums in einen anderen Cluster, das betrachtete Optimalitätskriterium minimiert. Beachte: Die Anzahl der Cluster k muss vom Anwender fest vorgegeben werden! Je nach gewählter Ausgangspartition, können unterschiedliche Cluster entstehen. 15 / 17

Nichthierarchische Verfahren Optimalitätskriterien 1 Varianzkriterium k H(C) = x i x r 2 r=1 x i C r 2 Determinantenkriterium ˆ= k-means clustering H(C) = W(C) C min 3 Verallgemeinertes Determinantenkriterium H(C) = k r=1 ( ) 1 n r log W(C r ) n r C min Merke: Die Determinante entspricht einer verallgemeinerten Varianzmatrix! 16 / 17

Nichthierarchische Verfahren k-means clustering Vorgehen: 1 Wähle zufällig k Individuen bzw. die zugehörigen Merkmalsvektoren x als Clusterschwerpunkte Z r, r = 1,..., k. Die Clusteranzahl k ist fest! 2 Ordne jedes Individuum dem Clusterzentrum zu, zu dem die geringste Distanz d r, r = 1,..., k besteht. 3 Berechne neue Clusterschwerpunkte Z r, r = 1,..., k als Mittelwertsvektoren der Merkmalsvektoren der Individuen im Cluster! 4 Wiederhole 2. und 3. bis zur Konvergenz. 17 / 17