Anwendungen mit SAS: Direkt aus der Praxis! Block 2

Transkript

1 Anwendungen mit SAS: Direkt aus der Praxis! Block 2 Wie können wir Mehrdimensionalität verstehen? - Clusterverfahren und Hauptkomponentenverfahren - Fachhochschule Koblenz Fachbereich Mathematik und Technik Dr. Denise Rey 19. Dezember

2 Inhalt 1. Was ist Data Mining? 2. Clustering - Einführung 3. Clustering - Distanzen 4. Clustering - Hierarchisch 5. Clustering - Optimierung 6. Hauptkomponentenanalyse 2

3 Was ist Data Mining? Flache Datentabelle zur Analyse: Id Y 1 Y p X 1 X m 1 y1 1 y p 1 x1 1 xm n yn 1 yn p x 1 n x m n 3

4 Was ist Data Mining? Anwendungsbereiche: - Chemische Industrie (insb. pharmazeutische Industrie) - Qualitätssicherung in der Produktion - Customer Relationsship Management - Text Mining, Web Mining usw. 4

5 Was ist Data Mining? Anwendungsbereich Text Mining und Web Mining: - Filter s, Spam - Cluster von Kundenbeschwerden - Vorhersage von Kundenzufriedenheit - Vorhersage von Aktienkurse anhand von Business News - Cross and Up Selling anhand Web Analyse 5

6 Was ist Data Mining? Typische Herausforderungen bei dem Einsatz von Data Mining Methoden: - Anzahl der Beobachtungen n gross (n >> 10 6 möglich) - Anzahl der Attribute m gross (>> 10 4 möglich) - Fehlende Werte - Ausreisser und Extremwerte - Andere Datenqualitätsprobleme - Unterschiedliche Verteilungen (binär, diskret, stetig) Data Mining bezeichnet eine wissenschaftliche Disziplin die sich mit Entwicklung, Implementierung und Anwendung von Verfahren für die Analyse von grossen Datenmengen mit komplexer Struktur befasst. 6

7 Was ist Data Mining? Fachbereiche die bei Data Mining eine Rolle spielen: - Mathematische Statistik (Multivariate Statistik, Zeitreihenanalyse usw.) - Bildverarbeitung (Visualisierung, Mustererkennung) - Künstliche Intelligenz (Neuronale Netze, Genetische Algorithmen) - Computerlinguistik (Text Mining, Web Mining) - Datenbanken, Data Warehouses 7

8 Was ist Data Mining? Supervised Learning - Die Analyse hat eine Zielvariable - Dient zur Findung der signifikanten Einflussfaktoren und zur Vorhersage Id Y X 1 X m 1. y 1. x x m n y n x 1 n x m n Typische Verfahren: Regression, Entscheidungsbäume, Neuronale Netze, Support Vector Machines usw. 8

9 Was ist Data Mining? Unsupervised Learning - Es gibt keine Zielvariable - Dient zur deskriptiven Analyse eines Datenbestandes und zur Mustererkennung Id X 1 X m 1. x x m n x 1 n x m n Clusteranalyse, Hauptkomponentenverfahren, Assozia- Typische Verfahren: tionsanalyse usw. 9

10 Cluster - Einführung 10

11 Cluster - Einführung Ziele der Clusteranalyse - Bildung von Cluster die durch die Ähnlichkeit (bzw. Distanz) der Beobachtungen in Bezug auf die Attribute bestimmt werden - Einteilung der Beobachtungen in disjunkte oder non-disjunkte Mengen, so dass sie innerhalb der Klassen in Bezug auf die Inputvariablen möglichst homogen sind und zwischen den Klassen heterogen - Vorstufe für ein weiteres Verfahren wie z.b. Klassifizierung oder Vorhersage 11

12 12

13 Cluster - Distanzen Aus der Originalmatrix mit n Beobachtungen Id X 1 X m 1. x xm n x 1 n x m n 13

14 Cluster - Distanzen wird eine Distanzmatrix erzeugt 1 2 n 1 2 d(1, 2) 3. d(1, 3). d(2, 3).. n d(1, n) d(2, n) d(3, n) 14

15 Cluster - Distanzen Formale Definition der Metrik Sei X eine beliebige Menge. Eine Abbildung heisst Metrik, wenn für beliebige Elemente x, y, z X die folgenden axiomatischen Bedingungen erfüllt sind: 1. d(x, x) = 0 (identische Punkte haben Abstand 0) 2. d(x, y) = 0 x = y (nichtidentische Punkte haben nicht Abstand 0), 3. d(x, y) = d(y, x) (Symmetrie) 4. d(x, y) d(x, z) + d(z, y) (Dreiecksungleichung) 15

16 Cluster - Distanzen Distanzmasse bei stetigen Variablen Seien x = (x 1,..., x m ) und y = (y 1,..., y m ) zwei Beobachtungen mit m Attributen. Euklidische Metrik (L2 Norm) d(x, y) = (x 1 y 1 ) (x n y n ) 2 Manhatten Metrik (L1 Norm) d(x, y) = x 1 y x 1 y 1 16

17 Cluster - Distanzen Distanzmasse bei binären Variablen Jaccard Koeffizient, A und B zwei Mengen A B J(A, B) = A B Jaccard Metrik A B A B J(A, B) = 1 J(A, B) = A B (1) (2) Binäre Variablen: B = 1 B = 0 A = 1 M 11 M 10 A = 0 M 01 M 00 17

18 Cluster - Distanzen Distanzmasse bei binären Variablen Jaccard Metrik für binäre Variablen: J(A, B) = M 10 + M 01 M 10 + M 01 + M 11 (3) Andere Metriken für binäre Variablen: - Dice - Match 18

19 Cluster - Distanzen Distanzmasse bei nominalen Variablen Die Variablen werden Dummy kodiert und danach wie binäre Variablen behandelt: Dummy1 Dummy2 Dummy3 Rot Gelb Schwarz

20 Cluster - Distanzen Distanzmasse bei ordinalen Variablen Transformation via Ränge auf [0, 1] und dann Vorgehen wie bei metrischen Variablen: r neu i = r i 1, 1,..., R. R 1 20

21

22 Cluster - Distanzen Distanzmasse bei gemischt skalierten Variablen D(x, y) = m j=1 w j d(x j, y j ), m j=1 w j = 1 21

23 Cluster - Distanzen Proc Distance Bis Version SAS 9.1: Makro %DISTANCE Ab Version SAS 9.1: Proc distance Details: Syntax: PROC DISTANCE options; BY variables; ID variable; VAR level (variables opt-list) ; 22

24 Cluster - Distanzen demo1 distance.sas 23

25 Cluster - Hierarchisch Eigenschaften: - Agglomerative (buttom-up) und divisive (top-down) - Angabe der zu bildenden Clusteranzahl nicht notwendig Algorithmus für agglomeratives Clustering 1. Beginne mit n Clustern C 1,..., C n. C k = x k, i = 1,..., n 2. Bestimme die Clustern die zusammengefügt werden können: min k,l wobei D kl der Abstand zwischen 2 Cluster ist. 3. Definiere und ersetze C k, C l mit C := C k C l und gehe zu Schritt 2. D kl 24

26 25

27 26

28 27

29 28

30 29

31 Cluster - Hierarchisch Average Linkage AVERAGE Verzerrt in Richtung der Bildung der Clusters mit der gleichen Varianzen. Tendiert, Clusters mit kleinen Varianzen zu Joinen. Nicht robust gegen Ausreisser. Centroid CENTROID Die robusteste Methode gegen Outliers unter den hierarchischen Methoden. Gut bei unbalancierten und nonkonvexen Clusters. Single Linkage SINGLE Stellt keinen Bezug auf die Form der Clusters, deswegen kommt gut klar mit irreguläre clusters. Zu empfehlen bei unbalancierten und nonkonvexen Clusters. Ward WARD Ward tendiert Custers mit wenigen Beobachtungen zu paaren und ist verzerrt in Hinsicht auf Bildung balancierter Cluster. Trennscharf in diesem Fall. Density DENSITY TWOSTAGE Gut bei nicht-sphärischen und nonkonvexen Cluster. 30

32 Cluster - Hierarchisch Proc Cluster - Verfahren für agglomeratives hierarchisches Clustering - Elf Verfahren zur Definition von dem Abstand zwischen 2 Cluster - Eingangsdaten können Koordinaten oder Distanzen sein - Wenn die Eingangsdaten Koordinaten sind, sollten diese stetig sein - Wenn die Eingangsdaten Koordinaten sind, dann wird als Default der Euklidische Abstand benutzt (anders über proc distance zu verfahren) - Ordinale Daten sind mit proc cluster nicht zu empfehlen - proc cluster für sehr grosse Datenbestände nicht zu empfehlen, in diesem Fall proc fastclus zuerst benutzen - proc cluster liefert statistische Masse für die Auswahl der optimalen Clusteranzahl 31

33 Cluster - Hierarchisch Proc Cluster - Grafische Darstellung und weitere Bearbeitung der Ergebnisse anhand proc tree - Variablen mit grossen Varianzen haben mehr Einfluss auf das Clustering als Variablen mit kleinen Varianzen, Transformationen notwendig - Multikollineare Variablen auch nicht zulaessig, Transformationen notwendig - SAS Prozeduren für Transformationen: std option, proc distance, proc stdize, proc princomp, proc corresp. - Andere Prozeduren in Zusammenhang mit proc cluster: proc tree (Darestellung des Baumes), proc candisc, proc means, proc gchart, proc gplot. 32

34 Proc Cluster, Syntax Cluster - Hierarchisch PROC CLUSTER DATA= options; BY variables; COPY variables; FREQ variable; ID variable; RMSSTD variable (if the input data comes from proc fastclus); VAR variables; OUTTREE= Outputdatei für proc tree METHOD = AVERAGE / WARD / usw. STANDARD = Standardisierung der Variablen (Mean 0, Varianz 1) TRIM = p Ausreisser Kontrolle. TRIM = 10 löscht 10% der Daten mit einer geringen Dichte (benötigt Option K, Anzahl der Nachbarn) RMSSTD = Root Mean Squared Standard Deviation. Nur für Method Average, Centroid, Ward. CCC, PSEUDO, RSQUARE, SIMPLE, SPRSQ 33

35 Cluster - Hierarchisch Cubic Clustering Criterion CCC = log ( 1 E(R 2 ) 1 R 2 ) np/2 ( E(R 2 )) 1.2 Das cubic clustering criterion (CCC) testet die Hypothese: H 0 := Die Daten stammen aus einer Gleichverteilung H 1 := Die Daten stammen aus einer Mischung von mulitivariaten Normalverteilungen mit gleichen Varianzen und gleichen Gewichten. - Werte > 2 sprechen für mehr Struktur in den Daten als unter Gleichverteilung zu erwarten wäre, gute Clusters - Werte zwischen 0 und 2 sind Indikatoren für mögliche Cluster. Mit Vorsicht zu interpretieren - Negative Werte zweigen mögliche Aussreisser - CCC gültig nur im Unabhängigkeitsfall 34

36 35

37 Cluster - Hierarchisch Pseudo F Statistik ( ni=1 x i x 2) (g 1)) P SF = ( g k=1 i C k x i x k 2) (n g) - PSF soll maximiert werden - PSF misst die Separation zwischen Clustern zu einem erreichten Hierarchielevel - Sie ist nicht F-verteilt 36

38 37

39 Cluster - Hierarchisch Die Ausgabe der Outtree Tabelle NCL number of the clusters FREQ the number of observations in the current cluster HEIGHT the distance or similarity between the last clusters joined. The variable (used by the TREE procedure as the default height axis) ERSQ the approximate expected value of R2 under the uniform null hypothesis RATIO equal to [(1 ERSQ)/(1 RSQ)] (sollte > 1) LOGR natural logarithm of RATIO (sollte > 0) CCC the cubic clustering criterion 38

40 Cluster - Hierarchisch Die Ausgabe der Outtree Tabelle If the input data set contains coordinates METHOD=AVERAGE, METHOD=CENTROID, or METHOD=WARD, then additionally: DIST the Euclidean distance between the means of the last clusters joined AVLINK the average pairs distance between the last clusters joined RMSSTD the root-mean-square standard deviation of the current cluster SPRSQ the semipartial squared multiple correlation or the decrease in the proportion of variance accounted for due to joining two clusters to form the current cluster RSQ the squared multiple correlation PSF the pseudo F statistic PST2 the pseudo t2 statistic 39

41 40

42 Cluster - Hierarchisch demo2 proc cluster miles.sas demo3 proc distance cluster divorce.sas demo4 proc cluster iris.sas 41

43 Clustering via Optimierung Eigenschaften - Vorgabe der Clusteranzahl oder a-priori Schätzung der Clusteranzahl notwendig - Iterative Einteilung aller Objekte in Cluster (Minimierung der Distanz von einer Beobachtung zu dem Cluster) - Disjunkte Cluster - Vorstufe für hierarchische Clustermethoden - Parametrische (proc fastclus) - Nichtparametrische (proc modeclus) 42

44 43

45 44

46 45

47 46

48 Clustering via Optimierung Proc Fastclus, Eigenschaften - Prozedur zu Erzeugung von disjunkten Cluster auf Basis der Euklidischen Distanz zwischen quantitativen Variablen (k-means Verfahren als theoretischer Hintergrund) - Keine Baumstruktur - Als Vorschritt für hierarchisches Clustering im Fall grosser Datenmengen - Nicht robust gegen Ausreisser, Methode gut auch zur Ausreisser Entdeckung - Initial Seed bei proc fastlclus ist die erste Beobachtung ohne fehlende Werte - Standardisierung im Fall unterschiedlichen Skalen bzw. Multikollinearität (proc stdize, proc princomp usw.) 47

49 Clustering via Optimierung Proc Fastclus Syntax PROC FASTCLUS MAXCLUSTERS=n options; VAR variables ; (quantitative Variablen) ID variable ; (Zeilenidentität) FREQ variable ; (Gewichtungsvariable) BY variables ; (Gruppenanalyse) Optionen CLUSTER= Neuer Name für das Cluster (z.b. Segment) MEAN= Ausgabedatei für Statistiken OUTSTAT= Speichert Definition der Cluster INSTAT= Liest Ausgabe eines vorherigen Clusterings und weist Clusterzugehörigkeit zu; für Scoring LEAST= Abstandsmass MAXITER= Anzahl der Iterationen in Hinsicht auf LS Minimierung OUT= Orginalvariablen, Cluster, Distanzen SUMMARY, SHORT, DISTANCE 48

50 Clustering via Optimierung Ausgabe von Proc Fastclus Cluster Summary RMS Std Deviation (Root mean square distance between observations in the cluster) Maximum Distance from Seed to Observation (the maximum distance from the cluster seed to any observation in the cluster) Nearest Cluster (the number of the cluster with mean closest to the mean of the current cluster) Centroid Distance (the distance between the centroids (means) of the current cluster and the nearest other cluster) Statistics for Variables Total STD (the total standard deviation) Innerhalb STD (the pooled within-cluster standard deviation) R-Squared (the R2 for predicting the variable from the clustering (One-way)) RSQ/(1 - RSQ) (the ratio of between-cluster variance to within-cluster variance) OVER-ALL (all of the previous quantities pooled across variables) 49

51 Scoring mit Proc Fastclus Clustering via Optimierung /***Cluster Definition***/ PROC FASTCLUS DATA=data options OUTSTAT=centroids; RUN; /***Scoring neuer Daten***/ PROC FASTCLUS DATA=new options INTSTAT=centroids; OUT=scored; RUN; 50

52 Clustering via Optimierung Proc Fastclus als Vorschritt zu Proc Cluster /***Reduktion der Daten***/ PROC FASTCLUS DATA=data MAXC=20 MEAN=Mean CLUSTER=preclus; VAR variables; RUN; /***Suchen von besseren Cluster mit proc cluster***/ PROC CLUSTER DATA=mean OUTTREE=outtree; VAR variables COPY preclus; RUN; 51

53 Clustering via Optimierung demo5 proc fastclus.sas 52

54 53

55 Hauptkomponentenanalyse Einleitung - Mathematisch eine orthogonale lineare Transformation zu einem neuen Koordinatensystem so dass die groesse Varianz auf der ersten Koordinate projeziert wird, die zweitgroesste auf der zweiten Koordinate usw. - Verfahren zur Reduktion der Dimensionalität - Verfahren zur Erkennung von Strukturen in dem gegebenen Variablenraum - Einsatz bei korrelierten quantitativen Inputvariablen - Reduktion von vielen korrelierten Einflussvariablen zu wenigen unkorrelierten Hauptkomponenten - Projezierung der Beobachtungen in einem 2-dimensionalem Raum - Grafische Darstellung aller Daten - Methode zur Entdeckung multivariater Ausreisser - Hauptkomponenten als Input in andere Data Mining Verfahren (neuronale Netze, cluster usw.) 54

56 Hauptkomponentenanalyse Proc Princomp Syntax PROC PRINCOMP options; BY variables ; FREQ variable ; VAR variables; run; Optionen: OUT=Ausgabe der Originalvariablen und Hauptkomponenten (z.b. in proc cluster oder proc fastclus einzusetzen) N=Anzahl der zu berechnenden Hauptkomponenten STDStandardisierung 55

57 Hauptkomponentenanalyse Loading Plot - Darstellung der Originalvariablen - Korrelierte Variablen naheliegend - Invers korrelierte Variablen in entgegengesetzter Richtung - Länge der Pfleile zeigt die Stärke des Einflusses - Geometrisch, Kosinus der Winkel (Werte zwischen -1 und 1). Score Plot - Darstellung der Beobachtungen - Cluster der ahnlichen Beobachtungen - Zugehörigkeit zu den relevanten Einflussvariablen - Koordinaten in dem neuen Raum 56

58 Hauptkomponentenanalyse demo6 proc princomp.sas demo7 pca und clustering.sas 57