Anwendungen mit SAS: Direkt aus der Praxis! Block 3

Größe: px

Ab Seite anzeigen:

Download "Anwendungen mit SAS: Direkt aus der Praxis! Block 3"

Hannelore Ackermann
vor 5 Jahren
Abrufe

1 Anwendungen mit SAS: Direkt aus der Praxis! Block 3 Supervised Learning - Die Logistische Regression Fachhochschule Koblenz Fachbereich Mathematik und Technik Dr. Denise Rey 30. Januar

2 Inhalt 1. Was ist Data Mining? 2. Hauptkomponentenanalyse 3. Supervised Learning 4. Lineare Regression 5. Logistische Regression 6. Voraussetzungen Anwendungen mit SAS. Denise Rey. 2

3 Was ist Data Mining? Flache Datentabelle zur Analyse: Id Y 1 Y p X 1 X m 1 y1 1 y p 1 x1 1 xm n yn 1 yn p x 1 n x m n Anwendungen mit SAS. Denise Rey. 3

4 Was ist Data Mining? Anwendungen im Customer Relationship Management Verfahren zur Sicherung des aktuellen Kundenbestandes - Analyse des Kündigungsverhaltens - Verfahren zur Kundenbindung Verfahren zur Erweiterung des Kundenbestandes - Response Optimierung bei Werbekampagnen Verfahren zur Steigerung der Profitabilität - Cross- UpSelling - Kundenwertmodelle - Betrugserkennung Anwendungen mit SAS. Denise Rey. 4

5 Was ist Data Mining? Typische Herausforderungen bei dem Einsatz von Data Mining Methoden: - Anzahl der Beobachtungen n gross (n >> 10 6 möglich) - Anzahl der Attribute m gross (>> 10 4 möglich) - Fehlende Werte - Ausreisser und Extremwerte - Andere Datenqualitätsprobleme - Unterschiedliche Verteilungen (binär, diskret, stetig) Data Mining bezeichnet eine wissenschaftliche Disziplin die sich mit Entwicklung, Implementierung und Anwendung von Verfahren für die Analyse von grossen Datenmengen mit komplexer Struktur befasst. Anwendungen mit SAS. Denise Rey. 5

6 Was ist Data Mining? Unsupervised Learning - Es gibt keine Zielvariable - Dient zur deskriptiven Analyse eines Datenbestandes und zur Mustererkennung Id X 1 X m 1. x x m n x 1 n x m n Typische Verfahren: Clusteranalyse, Hauptkomponentenverfahren, Assoziationsanalyse usw. Anwendungen mit SAS. Denise Rey. 6

7 Anwendungen mit SAS. Denise Rey. 7

8 Hauptkomponentenanalyse Loading Plot - Darstellung der Originalvariablen - Korrelierte Variablen naheliegend - Invers korrelierte Variablen in entgegengesetzter Richtung - Länge der Pfleile zeigt die Stärke des Einflusses - Geometrisch, Kosinus der Winkel (Werte zwischen -1 und 1). Score Plot - Darstellung der Beobachtungen - Cluster der ähnlichen Beobachtungen - Zugehörigkeit zu den relevanten Einflussvariablen - Koordinaten in dem neuen Raum Anwendungen mit SAS. Denise Rey. 8

9 Hauptkomponentenanalyse - Verfahren zur Reduktion der Dimensionalität - Verfahren zur Erkennung von Strukturen in dem gegebenen Variablenraum bzw. Beobachtungsraum - Einsatz bei korrelierten quantitativen Inputvariablen - Reduktion von vielen korrelierten Einflussvariablen zu wenigen unkorrelierten Hauptkomponenten - Projezierung der Beobachtungen in einem 2-dimensionalem Raum - Grafische Darstellung aller Daten - Methode zur Entdeckung multivariater Ausreisser - Hauptkomponenten als Input in andere Data Mining Verfahren (Cluster usw.) - Mathematisch eine orthogonale lineare Transformation zu einem neuen Koordinatensystem - proc princomp in SAS Anwendungen mit SAS. Denise Rey. 9

10 Supervised Learning - Die Analyse hat (wenigstens) eine Zielvariable - Dient zur Findung der signifikanten Einflussfaktoren und zur Vorhersage Id Y X 1 X m 1. y 1. x x m n y n x 1 n x m n Anwendungen mit SAS. Denise Rey. 10

11 Anwendungen mit SAS. Denise Rey. 11

12 Supervised Learning...wende Supervised Verfahren an heisst: Suche ein mathematisches Modell f so dass der Fehler minimiert wird (bzw. Y durch X erklärt wird): Ŷ min f Y = f(x) Y Das Modell bestimmt welche Attribute (Spalten) einen signifikanten Einfluss auf Y haben und welche nicht, bzw. es findet die Variablenselektion statt. Benutze das Modell f zur Vorhersage. Anwendungen mit SAS. Denise Rey. 12

13 Supervised Learning Typische Verfahren für die Modellfindung: Regression, Entscheidungsbäume, Neuronale Netze, Support Vector Machines usw. Modellauswahl - Mathematische Voraussetzungen für das Anwenden eines Varfahrens müssen erfüllt sein - Falls mehrere Verfahren die Voraussetzungen erfüllen, ist das Verfahren bzw. das Modell welches den Fehler minimiert auszuwählen. Anwendungen mit SAS. Denise Rey. 13

14 Das theoretische Modell: Lineare Regression Y = Xβ + ɛ (1) heisst klassiches lineares Regressionsmodell, wenn folgende Annahmen gelten: 1. E(ɛ) = 0 2. Cov(ɛ) = E(ɛɛ ) = σ 2 I 3. Die Designmatrix X besitzt vollen Spaltenrang, d.h. rg(x) = k + 1 = p Wir sprechen von klassischer Normalregression, wenn zusätzlich die Annahme 4. ɛ N(0, σ 2 I) getroffen wird. Ziel ist das geschätzte Modell: Ŷ = Xˆβ (2) Anwendungen mit SAS. Denise Rey. 14

15 Anwendungen mit SAS. Denise Rey. 15

16 Anwendungen mit SAS. Denise Rey. 16

17 Anwendungen mit SAS. Denise Rey. 17

18 Variablenselektion Forward Wählt zuerst das beste Modell mit einer einzigen Variablen. Danach wählt die Methode unter allen Modellen mit jeweils zwei Variablen, bei denen die erste ausgewählte Variable enthalten ist, das beste Modell usw. Solange bis der Punkt erreicht ist, an dem keine weiteren Variablen einen Wert haben, der unter dem festgelegten p-wert für die Annahme in das Modell liegt. Backward Startet mit einem vollständigen Modell mit allen Variablen. Stepwise Spiel zwischen Forward und Backward. Anwendungen mit SAS. Denise Rey. 18

19 Lineare Regression demo1 proc reg Anwendungen mit SAS. Denise Rey. 19

20 Anwendungen mit SAS. Denise Rey. 20

21 Anwendungen mit SAS. Denise Rey. 21

22 proc reg - Voraussetzungen und Eigenschaften Y (Target) Variable: Quantitativ X Variablen (Prädiktoren): Quantitativ Automatische Modellauswahl: Neun Verfahren (F,B,S,Rsquare usw.) Regressionsdiagnostiken (Ausreisser): Ja Maße für Modellgüte (Fehler): Ja (MSE,RMSE,R 2,AIC,BIC usw.) Automatische Datenpartition (Train, Valid): Nein Score Datei: Nein Grafische Ausgabe: Ja, via ODS GRAPHICS Anwendungen mit SAS. Denise Rey. 22

23 Logistische Regression Das theoretische Modell: Y Be(π) E(Y ) = π(x) = h(β 0 + x 1 β x p β p ) = h(η) - h ist die Link Funktion - η ist der lineare Prädiktor Für die logistische Regression gilt π(x) = h(η) = Ziel ist das geschätzte Modell: exp(η) 1 + exp(η) log ( π 1 π ) = η. ˆπ(x) = h(ˆβ 0 + x 1 ˆβ x p ˆβ p ) ( ) π log = ˆβ 0 + x 1 ˆβ x p ˆβ p. 1 π Anwendungen mit SAS. Denise Rey. 23

24 Logistische Regression Interpretation der logistischen Regression Für die Chance (odds) gilt das multiplikative Modell π 1 π = P (Y = 1 x) P (Y = 0 x) = exp(β 0)exp(x 1 β 1 )... exp(x p β p ) (3) Wird z.b. x 1 auf x erhöht, so gilt für das Verhältnis der Chancen: P (Y = 1 x 1,...) P (Y = 0 x 1,...) /P (Y = 1 x 1 + 1,...) P (Y = 0 x 1 + 1,...) = exp(β 1) (4) β 1 > 0: Chance P(Y=1)/P(Y=0) wird größer (x 1 begünstigt Y ). β 1 < 0: Chance P(Y=1)/P(Y=0) wird kleiner. β 1 = 0: Chance P(Y=1)/P(Y=0) bleibt gleich. 24

25 Anwendungen mit SAS. Denise Rey. 25

26 Logistische Regression demo2 proc logistic simulated demo3 proc logistic kunden Anwendungen mit SAS. Denise Rey. 26

27 Anwendungen mit SAS. Denise Rey. 27

28 Anwendungen mit SAS. Denise Rey. 28

29 Anwendungen mit SAS. Denise Rey. 29

30 Anwendungen mit SAS. Denise Rey. 30

31 Anwendungen mit SAS. Denise Rey. 31

32 Anwendungen mit SAS. Denise Rey. 32

33 Anwendungen mit SAS. Denise Rey. 33

34 Anwendungen mit SAS. Denise Rey. 34

35 Logistische Regression proc logistic data=block3.train outmodel = model; class online multi abo flag praemie verschickt flag k schlechter zahler / descending PARAM=effect; model abo status(desc) = online multi abo flag praemie verschickt flag k alter k schlechter zahler /CLPARM=WALD RSQUARE expb lackfit CTABLE outroc=roc initial dataset; output out=pred p=phat lower=lcl upper=ucl predprobs=individual; score data = block3.validation out=validated outroc=roc validation fitstat; score data = block3.neue kunden out=scored; run; Anwendungen mit SAS. Denise Rey. 35

36 Logistische Regression /**********Alternativ für Scoring************* proc logistic inmodel=model; score data = block3.neue kunden out=scored; run; *********************************************/ Anwendungen mit SAS. Denise Rey. 36

37 proc logistic - Voraussetzungen und Eigenschaften Y (Target) Variable: Binär oder ordinal X Variablen (Prädiktoren): Quantitativ oder diskret Automatische Modellauswahl: Ja (F,B,S,Rsquare usw.) Regressionsdiagnostiken (Ausreisser): Ja Maße für Modellgüte (Fehler): Ja (MSE,RMSE,MISC,AIC, BIC usw.) Automatische Datenpartition (Train, Valid): Nein Score Datei: Ja Grafische Ausgabe: Ja, via ODS GRAPHICS Anwendungen mit SAS. Denise Rey. 37

38 Wiederholung Voraussetzungen -Fehlende Daten und hinreichende Besetzung der Klassen -Additivität des Modells -Multikollinearität (Analyse z.b. durch Korrelationsmatrix, Lösung durch Aggregation oder Hauptkomponentenanalyse) -Ausreisser (DIFCHISQ, DIFDEV, DIFBETA) -Heteroskedastizität und Normalverteilung der Residuen Anwendungen mit SAS. Denise Rey. 38

39 Anwendungen mit SAS. Denise Rey. 39

40 Anwendungen mit SAS. Denise Rey. 40

41 Anwendungen mit SAS. Denise Rey. 41

42 Literatur 1. Regression. Ludwig Fahrmeir et al. Springer The Elements of Statistical Learning. Hastie et al Anwendungen mit SAS. Denise Rey. 42

Ähnliche Dokumente

Anwendungen mit SAS: Direkt aus der Praxis! Block 2

Anwendungen mit SAS: Direkt aus der Praxis! Block 2 Wie können wir Mehrdimensionalität verstehen? - Clusterverfahren und Hauptkomponentenverfahren - Fachhochschule Koblenz Fachbereich Mathematik und Technik