Clustering Seminar für Statistik



Ähnliche Dokumente
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Repetitionsaufgaben Wurzelgleichungen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Clusteranalyse. Multivariate Datenanalyse. Prof. Dr. Dietmar Maringer. Abteilung für Quantitative Methoden, WWZ der Universität Basel

Simulation LIF5000. Abbildung 1

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Primzahlen und RSA-Verschlüsselung

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

HALLO UND WILLKOMMEN!

Professionelle Seminare im Bereich MS-Office

1 Mathematische Grundlagen

Umgang mit Schaubildern am Beispiel Deutschland surft

GEVITAS Farben-Reaktionstest

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Aufgabe 5 Excel 2013 (Fortgeschrittene)

Erstellen von x-y-diagrammen in OpenOffice.calc

II. Daten sichern und wiederherstellen 1. Daten sichern

Grundlagen der Theoretischen Informatik, SoSe 2008

Grundlagen der Künstlichen Intelligenz

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Meinungen zur Altersvorsorge

Beispiel(unten ist der Spielfeldrand):

Geld Verdienen im Internet leicht gemacht

Programmentwicklungen, Webseitenerstellung, Zeiterfassung, Zutrittskontrolle

1 topologisches Sortieren

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

A Lösungen zu Einführungsaufgaben zu QueueTraffic

Manager. von Peter Pfeifer, Waltraud Pfeifer, Burkhard Münchhagen. Spielanleitung

Anleitung über den Umgang mit Schildern

Monatliche Grundgebühr: 5,00 Zeitabhängige Nutzung: Feiertags/Sonntags: 0,04 /min

Statistische Auswertung:

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

W-Rechnung und Statistik für Ingenieure Übung 11

Bedingungen. Bedingungen. Bedingungen

Assoziationen zum Begriff Berufsgenossenschaften

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Media Teil III. Begriffe, Definitionen, Übungen

AutoCAD Dienstprogramm zur Lizenzübertragung

Exploration und Klassifikation von BigData

FH-SY Chapter Version 3 - FH-SY.NET - FAQ -

Österreichische Trachtenjugend

Lichtbrechung an Linsen

Anhang. 3. Was denken Sie: An wen richtet sich das Lernprogramm für Psycholinguistik? zu nicht nicht zu

Woche 1: Was ist NLP? Die Geschichte des NLP.

Erfahrungen mit Hartz IV- Empfängern

Elternzeit Was ist das?

Bedienungsanleitung Rückabwicklungsrechner

Warum Sie dieses Buch lesen sollten

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Kulturelle Evolution 12

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Professionelle Seminare im Bereich MS-Office

Mah Jongg - Ein Spiel für 4 Spieler

Bei der Anlage von Pauschalen ist folgendes zu beachten!!!!!!!!

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Schule Sins - Anleitung LehrerOffice

So funktioniert das online-bestellsystem GIMA-direkt

Modellbildungssysteme: Pädagogische und didaktische Ziele

Korrelation (II) Korrelation und Kausalität

Übungsaufgaben zur Programmiersprache Python

Informationsblatt Induktionsbeweis

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

SEK II. Auf den Punkt gebracht!

Mathematik VERA-8 in Bayern Testheft B: Realschule Wirtschaftsschule

Anwendungshinweise zur Anwendung der Soziometrie

Auswertung Fünfjahresüberprüfung

Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

mehrmals mehrmals mehrmals alle seltener nie mindestens **) in der im Monat im Jahr 1 bis 2 alle 1 bis 2 Woche Jahre Jahre % % % % % % %

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Gleichungen und Ungleichungen

Daten sammeln, darstellen, auswerten

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Lehrer: Einschreibemethoden

Mediator 9 - Lernprogramm

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

FAQ Verwendung. 1. Wie kann ich eine Verbindung zu meinem virtuellen SeeZam-Tresor herstellen?

Elektrische Logigsystem mit Rückführung

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Unterrichtsreihe: Freizeit und Unterhaltung

Menü auf zwei Module verteilt (Joomla 3.4.0)

Positionierungsspiel. Statements und Fragen zu Werbung im Social Web

Lineare Gleichungssysteme

VibonoCoaching Brief -No. 18

Voraussetzung. Anleitung. Gehen Sie auf Start Einstellungen und suchen Sie hier den Eintrag Datenverbindungen oder Verbindungen. Öffnen Sie diesen.

SMS/ MMS Multimedia Center

Einstellungen der Deutschen gegenüber dem Beruf der Putzfrau

Diese Prozesse und noch viele andere Tricks werden in der Digitalfotografie mit Hilfe von Bildbearbeitungsprogrammen, wie z. B. Gimp, bewältigt.

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Tutorial: Homogenitätstest

Transkript:

Clustering Markus Kalisch 03.12.2014 1

Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden sind Bsp: - Gruppen von ähnlichen Kunden um effizientere Werbung zu machen - Gruppen von Krankheiten um effizientere Therapie zu finden Unsupervised Learning : Es sind keine Gruppenzugehörigkeiten bekannt 2

Clustering mit Computer: 3+ Dimensionen Auge ist extrem gut im Clustering! Verwende Clustering nur, Wenn man die Daten nicht von Auge inspizieren kann. 3

Problem von Clustering N Beobachtungen, k Cluster: k N mögliche Zuordnungen Bsp: Bei N=100 und k=5 sind 5 100 = 7*10 69 Zuordnungen möglich. Es ist also nicht möglich, alle Zuordnungen zu bewerten Heuristische Methoden 4

Viele Methoden Alle zeigen einen wahren Aspekt der Realität! Welcher Aspekt ist in der gegebenen Anwendung am wichtigsten? 5

Fahrplan Partitionierungsmethoden: - k-means - PAM Agglomerative Methoden: - Hierarchical Clustering Distanzmasse Kontrolle: Silhouette-Plot 6

K-Means Algorithmus Anzahl Cluster ist vorgegeben (K) Finde K Clusterzentren μ C und Zuordnungen, sodas within-groups Sum of Squares (WGSS) minimal ist: WGSS = all Cluster C Point i in Cluster C x i μ C 2 x x x x WGSS klein WGSS gross 7

K-Means Algorithmus 8

K-Mean: Zufällige Startwerte K-Means findet nur das lokale Optimum berechne K-Means mehrmals mit unterschiedlichen, zufälligen Anfangsgruppierungen verwende das Ergebnis mit dem besten WGSS 9

K-Means: Wie viele Cluster? Berechne K-means für mehrere Anzahl Gruppen Plotte WGSS vs. Anzahl Gruppen Suche Knick 10

Robuste Alternative: PAM Partinioning around Medoids (PAM) K-Means: Zentrum des Clusters ist ein beliebiger Punkt im Raum PAM: Zentrum des Clusters muss eine Beobachtung sein ( medoid ) Vorteile von PAM vs. K-Means: - robuster bzgl. Ausreisser - funktioniert mit jedem Distanzmass - ein Repräsentant pro Cluster: Einfache Interpretation 11

Partitionierungsmethoden in R Funktion kmeans in package stats Funktioniert nur mit euklidischer Distanz Funktion pam in package cluster Funktioniert mit beliebiger Distanz 12

Agglomerative Methode: Hierarchical Clustering Löse Clusteringproblem gleichzeitig für alle möglichen Anzahlen von Clustern Setze Cluster aus Einzelbeobachtungen zusammen Hierarchisch ist eine Einschränkung: K-Means produziert evtl. bessere Cluster 2 Cluster Bsp: 3 Cluster Nicht hierarchisch 13

Agglomerative Clustering Daten in 2 Dimensionen dissimilarity Clustering tree = Dendrogramm a b abcde cde e d c de ab 0 a b c d e Verbinde Beobachtungen/Cluster die am nächsten sind, bis nur noch ein Cluster übrig ist 14

Agglomerative Clustering: Konkrete Cluster Konkrete Cluster indem man Dendrogramm abschneidet: - 1 Cluster: abcde (trivial) - 2 Cluster: ab - cde - 3 Cluster: ab c de - 4 Cluster: ab c d e - 5 Cluster: a b c d e (trivial) Clustering tree = Dendrogramm dissimilarity ab abcde cde de 0 a b c d e cut the tree 15

Dendrogramm interpretieren Richtig oder falsch? Beobachtungen 9 und 2 sind ähnlicher als Beobachtungen 9 und 7. 16

Distanzmass zwischen Cluster Basiert auf Distanzmass zwischen Beobachtungen (dazu später mehr) Häufigste Methoden: - single linkage - complete linkage - average linkage Kein richtig oder falsch: Jede Methode zeigt einen Aspekt der Realität Im Zweifelsfall nehme ich average 17

Single linkage Distanz zwischen zwei Cluster = minimale Distanz zwischen allen Elementen Findet auch längliche Cluster 18

Complete linkage Distanz zwischen zwei Cluster = maximale Distanz zwischen allen Elementen Findet kompakte Cluster, auch wenn nicht gut separiert 19

Average linkage Distanz zwischen zwei Cluster = mittlere Distanz zwischen allen Elementen Findet gut separierte, rundliche Cluster 20

Welche Anzahl Cluster? Keine strikte Regel Finde grössten vertikalen Abstand im Dendrogramm 21

Agglomeratives Clustering in R Funktionen hclust, cutree in package stats 22

Distanzmass zwischen Beobachtungen Kontinuierliche Variablen: Euklidsche Distanz (standardisieren oder nicht?) oder Korrelation Diskrete Variablen: Simple Matching Coefficient Gemischte Variablen: Gower s Dissimilarity Index Pragmatische Auswahl; es gibt sehr viele Alternativen 23

Distanzmass zwischen Beobachtungen: Kontinuierliche Daten Euklidische Distanz D Skalieren oder nicht? Korrelation (Ähnlichkeit): Distanz : K = 1 - Korrelation K klein D klein 24

Distanzmass zwischen Beobachtungen: Diskrete Daten Simple Matching Coefficient Für jede Variable: Ist Eintrag gleich (ja 0; nein 1)? Lieblingsfarbe: Dist P1, P2; Farbe = 0 Lieblingsessen: Dist P1, P2; Essen = 1 Total: Dist P1, P2 = 0+1 1+1 = 1 2 Person Lieblingsfarbe Lieblingsessen P1 Rot Pizza P2 Rot Pasta P3 Gelb Pizza P4 Blau Pasta 25

Distanzmass zwischen Beobachtungen: Gemischte Daten Gower s Dissimilarity Index: Für beliebige Variablen Gower, J. C. (1971) A general coefficient of similarity and some of its properties, Biometrics 27, 857 874 Distanz zwischen zwei Zeilen: Für jede Variable wird eine Distanz in [0,1] berechnet Die Distanzen werden dann gemittelt Diskrete Variablen: Simple Matching Coefficient Kont. Variablen: Differenz(X ik,x jk ) Range(X.k ) 26

Gower s Dissimilarity: Beispiel Person Lieblingsfarbe Alter P1 Rot 12 P2 Rot 27 P3 Gelb 30 P4 Blau 60 Range: 48 P1-P2: Lieblingsfarbe Dist P1, P2; Farbe = 0 Alter Dist P1, P2; Alter = 27 12 = 15 = 0.3125 48 48 Total: Dist P1, P2 = 0+0.3125 0.15625 P2-P4: Lieblingsfarbe Dist P2, P4; Farbe = 1 Alter Dist P2, P4; Alter = 60 27 = 33 = 0.6875 48 48 Total: Dist P2, P4 = 1+0.6875 0.84375 2 2 27

Gower s Dissimilarity Wie gross ist die Gower s Dissimilarity zwischen P1 und P4? Person Lieblingsfarbe Alter P1 Rot 12 P2 Rot 27 P3 Gelb 30 P4 Blau 60 Range: 48 28

Distanzmasse in R Funktion «daisy» in package «cluster» (euklidisch mit/ohne standardisierung, simple matching coeficient, gower s dissimilarity) Korrelation: Funktion «cor» um Korrelationsmatrix zu berechnen 29

Qualität der Cluster: Silhouette plot Ein Wert S(i) in [0,1] für jede Beobachtung Berechne für jede Beobachtung i: a(i) = mittlere Distanz von i zu allen anderen Punkten im gleichen Cluster b(i) = mittlere Distanz zwischen i und allen Punkten im Nachbarcluster, d.h. im nächsten Cluster, zu dem i nicht gehört (b i a i ) Dann ist S(i) = max(a i,b i ) S(i) gross: gute Trennung S(i) klein: schlechte Trennung S(i) negativ: Punkt zu falschem Cluster zugeordnet 30

Silhouette plot: Beispiel 1 1 S(1) gross S(1) klein Faustregel: Mittleres S sollte über 0.5 sein 31

Silhouette plot: Beispiel Welcher Punkt hat den grösseren Silhouette-Wert, 29 oder 9? 32

Silhouette plot: Bsp 33

Silhouette Plots in R Function silhouette in package cluster 34