Grundideen Logistische Regression Exkurs Logistische Regression Auch nachzulesen bei: http://www.psychologie.uniwuerzburg.de/methoden/lehre/skripten/hs_meth_evaluation/hs_evaluation_logistisch eregression.pdf http://www.rainer-diaz-bone.de/logreg_8.pdf Frage: Was ist zu tun, wenn die abhängige Variable eine Indikatorvariable ist? Beispiel: y = ArztkauftProdukt nein = 0 / ja = 1 Beeinflusst durch: x1 Marketingaufwand für diese Person u.u. auch x2 Alter dieser Person x3 Facharzt 0/1 Folie 1 Folie 2 Zusammenhang linear? Lösung: (1) Einfachmodell Bilde Klassen im Marketingaufwand, so dass in jeder Klasse viele Ärzte enthalten sind. Schätze in jeder Klasse die p(y=1) als Häufigkeit. Bei der linearen Regression p(y=1) i b i *x i + b 0 + ε ist es problematisch, dass p(y) den falschen Wertebereich hat (rechte Seite - + ) linke Seite [0..1] Damit sind die Annahmen z.b. zur Normalverteilung von ε sicher falsch Folie 3 Folie 4
Klassierung des Marketingaufwandes (willkürlich) Berechne Logit l := ln ( p(y=1) / p(y=0) ) hat richtigen Wertebereich eine Regression l x rechnen l = b*x +b 0 zur Prognose ggf. Rücktransformation einer vorhergesagten Logit p(y=1) = 1/ (1+ exp (-l)) Folie 5 Folie 6 (2) Maximum Likelihood-Schätzung des Logit-Modells Idee: bilde keine Klassen in x, um p(y=1) zu schätzen Beobachtetes y= 0 oder 1 kommt aus zweistufigem Modell : x p(y=1) = Wahrscheinlichkeit für y =1 beobachtet y = 0 oder 1 als zufällige Ziehung mit dem entsprechenden p Frage: Welche Werte für b 1 und b 0 ergeben eine möglichst hohe Wahrscheinlichkeit für die beobachteten Realisationen? Folie 7 Folie 8
Die Wahrscheinlichkeit der beobachteten Werte bei optimalen Parameterwerten ist ein Gütekriterium (à la R² bzw R² adj = Nagelkerkes R²). Folie 10 Beispiel: - Bestimmt OK_00 die Wahrscheinlichkeit, ein Bistro angeschlossen zu haben? - Wie bestimmen OK_00, shop-umsatz00 und Waschumsatz00 diese Wahrscheinlichkeit? Ergebnis und Hinweis: Es ist oft besser mit Klassierungen und Indikatorvariablen zu arbeiten. z.b. je 4 Klassen OK00 und shop00 und Waschanlage ignorieren. LOGISTIC REGRESSION VAR=bistro_ /METHOD=ENTER ok_00 wa_u_00 sh_u_00 /CLASSPLOT /PRINT=ITER(1) SUMMARY /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5). Kategorien (tiles) bilden lassen (zb mit Bereichseinteiler oder ranks ) die Berechnung der zugehörigen Indikatorvariablen kann dann in dieser Prozedur durch SPSS erfolgen logregress1.spo Folie 11 Folie 12
RANK VARIABLES = sh_u_00 ok_00 /NTILES(4) /PRINT = NO /TIES = MEAN. LOGISTIC REGRESSION VAR=bistro_ /METHOD=ENTER nsh_u_00 nok_00 /CONTRAST (nsh_u_00)=indicator /CONTRAST (nok_00)=indicator /CLASSPLOT /PRINT=ITER(1) SUMMARY /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5). logregress2.spo Wald = (θˆ -θ 0 )²/Varˆ(θˆ ) wird gegen chi² 1 getestet; alternativ (θˆ -θ 0 )/StdDevˆ(θˆ ) gegen N Bei Indikator-Batterie (θˆ -θ 0 ) Σ -1 (θˆ -θ 0 ) ~ χ² letztlich fast Summe der Einzel-Walds Folie 13 Folie 14 http://ies.fsv.cuni.cz/storage/work/760_martin_kubicek_final.pdf Credit Risk http://ies.fsv.cuni.cz/storage/work/760_martin_kubicek_final.pdf Folie 15 Folie 16
Intensive Care at Hospital Folie 17 Hauptanalysegröße beim Lesen ist nicht p(y=1), sondern der Quotient aus p(y=1) / p(y=0), die sog. ODDs. Lesebeispiel 1 : NSH_U_00(3) Exp(B) = 0,430 In der Referenzkategorie (höchste ShopUmsatz-Kategorie) haben die ODDs einen Wert. Dieser ist für die Kategorie 3 (zweithöchste) mit 0,430 zu multiplizieren. ganz erheblicher Einfluss (der auch signifikant abgesichert ist) Weitere Analyse: In den kleineren ShopUmsatz-Kategorien sinkt der Wert auf 24,8 % bzw. 6,8% des Wertes der höchsten Klasse Lesebeispiel 2 : NOK_00(3) Exp(B) = 0,982 In der Referenzkategorie (höchste OKUmsatz-Kategorie) haben die ODDs einen Wert. Dieser ist für die Kategorie 3 (zweithöchste) mit 0,982 zu multiplizieren. eher geringer Einfluss (der auch nicht signifikant abgesichert ist: SIG= 90.7% ) Weitere Analyse: In den kleineren OKUmsatz-Kategorien steigt der Wert auf 120 % bzw. 125% des Werts der höchsten Klasse bedeutendungloser, insignifikanter Einfluss und unplausible Richtung sehr bedeutender Einfluss und plausible Richtung Folie 19 Folie 20
Stanley Lemeshow Folie 21 Folie 22 Kernaussagen qualitativer Art Ein Bistro ist heute dort installiert, wo der Shop gut läuft! (Kausalitätsrichtung wäre noch getrennt zu untersuchen) Der Benzinabsatz spielt so gut wie keine Rolle. Es gibt eine erhebliche Anzahl an Fehlklassifikationen. Diese sind aber meist in der Grauzone. Folie 23 Folie 24
Stimmt dieses Ergebnis mit der Klassierungsmethodik einigermaßen überein? Rechenbeispiel: 1 0,4339 = 0,5661 ODD = 0,439/0,5661= 0,7665 ODD/ODDmax = 0,7665/2,724 SPSS kann geschätzte Wahrscheinlichkeiten p(y=1) speichern Identifikation von Eröffnungschancen für Bistro Folie 25 Folie 26 The Challenger Disaster Full size (494x424)[4K]. Reanalysis of the O-ring data involved fitting a logistic regression model. This provides a predicted extrapolation (black curve) of the probability of failure to the low (31 degf) temperature at the time of the launch and confidence bands on that extrapolation (red curves). See also Tappin, L. (1994). "Analyzing data relating to the Challenger disaster". Mathematics Teacher, 87, 423-426 There's not much data at low temperatures (the confidence band is quite wide), but the predicted probability of failure is uncomfortably high. Would you take a ride on Challenger when the weather is cold? See also: Gary McClelland's Graphs on the Web: Challenger Story, with a Java applet http://www.math.yorku.ca/scs/gallery/noframes.html#historicalmilestones Folie 27 http://www.aerospaceweb.org/question/investigations/q0122.shtml Folie 28