Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014
4.1 Motivation
Ausgangssituation Gegeben sind Daten (y i, x i1,..., x ik ) mit einer binären Zielvariablen y i {0, 1} für i = 1,..., n und stetigen oder binär kodierten kategorialen Kovariablen x 1,..., x k. Fragestellung: Wie kann diese binäre Zielvariable in Abhängigkeit von Kovariablen modelliert werden? 2
Beispiel: Kreditscoring Ziel von Kreditscoring ist die Untersuchung der Bonität bzw. Kreditwürdigkeit eines Kunden in Abhängigkeit von Kovariablen. Hier liegen Daten einer süddeutschen Großbank von 1000 abgeschlossenen Kreditgeschäften vor: Variable ausfall laufzeit hoehe alter moral. Beschreibung Ausfall des Kredits / Bonität des Kreditnehmers 1 = Kredit wurde nicht zurückgezahlt d.h. der Kunde ist nicht kreditwürdig 0 = Kredit wurde zurückgezahlt d.h. der Kunde ist kreditwürdig Laufzeit des Kredits in Monaten Höhe des Kredits in Euro Alter des Kreditnehmers in Jahren Zahlungsmoral des Kunden aus vergangenen Kreditgeschäften: 1 = gute Zahlungsmoral 0 = schlechte Zahlungsmoral. 3
Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Laufzeit 1 ausfall 0 0 20 40 60 laufzeit 4
Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Laufzeit 1.0 n=82 n=277 n=187 n=224 n=57 n=86 n=17 n=54 n=2 n=13 n=0 n=1 0.8 Anteil ausfall=1 0.6 0.4 0.2 0.0 (0,6] (6,12] (12,18] (18,24] (24,30] (30,36] (36,42] (42,48] (48,54] (54,60] (60,66] (66,72] laufzeit 5
Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Höhe des Kredits 1 ausfall 0 0 5000 10000 15000 hoehe 6
Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Höhe des Kredits 1.0 n=432 n=322 n=97 n=79 n=30 n=19 n=9 n=11 n=0 n=1 0.8 Anteil ausfall=1 0.6 0.4 0.2 0.0 (0,2] (2,4] (4,6] (6,8] (8,10] (10,12] (12,14] (14,16] (16,18] (18,20] hoehe [in 1000 Euro] 7
Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit vom Alter des Kreditnehmers 1 ausfall 0 20 30 40 50 60 70 alter 8
Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit vom Alter des Kreditnehmers 1.0 n=16 n=174 n=219 n=178 n=141 n=88 n=71 n=42 n=26 n=27 n=12 n=6 0.8 Anteil ausfall=1 0.6 0.4 0.2 0.0 (18,20] (20,25] (25,30] (30,35] (35,40] (40,45] (45,50] (50,55] (55,60] (60,65] (65,70] (70,75] alter 9
Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Zahlungsmoral 1.0 n=89 n=911 ausfall 0 1 Σ moral 0 36 53 89 1 664 247 911 Σ 700 300 1000 Anteil ausfall=1 0.8 0.6 0.4 0.2 0.0 0 1 moral 10
4.2 Binäre Regressionsmodelle
Modellformel Gegeben Realisationen y i einer binären Zielvariablen Y i {0, 1} Kovariablenvektor x i = (1, x i1,..., x ik ) für i = 1,..., n Verteilungsannahme Y i x i ind. B(1, π i ) mit π i = P (Y i = 1 x i ) = E(Y i x i ) Strukturannahme π i =h(η i ) = h(x i β) = h(β 0 + β 1 x i1 +... + β k x ik ) mit streng monoton wachsender Responsefunktion h : (, ) [0, 1] 12
Bemerkungen η i = x i β wird als linearer Prädiktor bezeichnet. Die Umkehrfunktion g = h 1 mit g : [0, 1] (, ) und heißt Linkfunktion. g(π i ) = η i = β 0 + β 1 x i1 +... + β k x ik Für die Responsefunktion h( ) werden streng monoton wachsende Verteilungsfunktionen verwendet. 13
Bekannteste Modelle Logit-Modell h : Verteilungsfunktion der logistischen Verteilung π i = h(η i ) = exp(η i) 1 + exp(η i ) Probit-Modell h : Verteilungsfunktion der Standardnormalverteilung π i = h(η i ) = Φ(η i ) Komplementäres Log-Log-Modell h : Verteilungsfunktion der Extremwertverteilung π i = h(η i ) = 1 exp( exp(η i )) 14
Responsefunktionen Responsefunktionen Adjustierte Responsefunktionen h(η) 0.0 0.2 0.4 0.6 0.8 1.0 logit probit cloglog h(η) 0.0 0.2 0.4 0.6 0.8 1.0 logit probit cloglog 4 2 0 2 4 4 2 0 2 4 η η 15
Modellschätzung in R Logit-Modell glm(ausfall ~ laufzeit + hoehe + alter + moral, data=kredit, family=binomial(link= logit )) Probit-Modell glm(ausfall ~ laufzeit + hoehe + alter + moral, data=kredit, family=binomial(link= probit )) Log-Log-Modell glm(ausfall ~ laufzeit + hoehe + alter + moral, data=kredit, family=binomial(link= cloglog )) 16
4.3 Logit-Modell
Äquivalente Darstellungen 1. Logarithmierte Chance (Linkfunktion) log ( ) πi 1 π i = η i 2. Chance π i 1 π i = exp(η i ) 3. Wahrscheinlichkeit (Responsefunktion) π i = exp(η i) 1 + exp(η i ) 18
Interpretation der Parameter Gegeben sei eine bestimmte Kovariablen-Kombination x i = (1, x i1,..., x ij,..., x ik ) und der lineare Prädiktor η i = β 0 +... + β j x ij +... + β k x ik. Falls sich x ij auf x ij + 1 erhöht und alle anderen Einträge von x i gleich bleiben (mit j = 1,..., k), dann 1. ändert sich die logarithmierte Chance um β j, da log ( ) πi 1 π i = β 0 +... + β j (x ij + 1) +... + β k x ik = β 0 +... + β j x ij +... + β k x ik + β j = η i + β j 19
Interpretation der Parameter 2. ändert sich die Chance um den Faktor exp(β j ), da π i 1 π i = exp(β 0 +... + β j (x ij + 1) +... + β k x ik ) = exp(β 0 +... + β j x ij + β j +... + β k x ik ) = exp(η i + β j ) = exp(η i ) exp(β j ) 3. ist die Änderung der Wahrscheinlichkeit nicht-linear. π i = exp(η i + β j ) 1 + exp(η i + β j ) 20
Interpretation der Parameter Allgemein lässt sich exp(β j ) also als das Chancenverhältnis (oder Odds Ratio) bei Erhöhung von x ij um eine Einheit interpretieren und es gilt: β j > 0 exp(β j ) > 1 β j < 0 exp(β j ) < 1 β j = 0 exp(β j ) = 1 Die Chance P (y i = 1)/P (y i = 0) wird größer. Die Chance P (y i = 1)/P (y i = 0) wird kleiner. Die Chance P (y i = 1)/P (y i = 0) bleibt gleich. 21
Prognose Gegeben eine Schätzung ˆβ für β und eine Kovariablenkombination x i ergibt sich eine Schätzung oder Prognose der Wahrscheinlichkeit π i durch: ˆπ i = exp(x i ˆβ) 1 + exp(x i ˆβ) Ebenso wie beim linearen Modell wird dabei der bedingte Erwartungswert E(Y i x i ) geschätzt: ˆπ i = ˆP (Y i = 1 x i ) = Ê(Y i x i ) Man erhält im Logit-Modell demnach keine Prognose ŷ i für y i, sondern nur eine Prognose ˆπ i für π i. 22
Beispiel: R-Output Kreditscoring Wie lassen sich folgende geschätzte Parameter ˆβ interpretieren? > modlogit <- glm(ausfall ~ laufzeit + hoehe + alter + moral, + data=kredit, family=binomial(link= logit )) > coef(modlogit) (Intercept) laufzeit hoehe alter moral -5.810164e-02 3.231725e-02 2.661397e-05-1.347756e-02-4.564097e-01 > exp(coef(modlogit)) (Intercept) laufzeit hoehe alter moral 0.9435540 1.0328451 1.0000266 0.9866129 0.6335542 23
Beispiel: R-Output Kreditscoring Call: glm(formula = ausfall ~ laufzeit + hoehe + alter + moral, family = binomial(link = logit ), data = kredit) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -5.810e-02 3.102e-01-0.187 0.851 laufzeit 3.232e-02 7.507e-03 4.305 1.67e-05 *** hoehe 2.661e-05 3.178e-05 0.837 0.402 alter -1.348e-02 6.817e-03-1.977 0.048 * moral -4.564e-01 7.156e-02-6.378 1.80e-10 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1221.7 on 999 degrees of freedom Residual deviance: 1124.4 on 995 degrees of freedom AIC: 1134.4 Number of Fisher Scoring iterations: 4 24
Modellierung von Kovariablen Alle behandelten Konzepte zur Modellierung bzw. zum Design von Kovariablen in linearen Modellen mit Normalverteilungsannahme lassen sich analog bei binären Regressionsmodellen anwenden: Stetige Kovariablen: Nicht-lineare Transformation (durch bekannte Funktionen oder Polynome) Mittelwert-Zentrierung Kategoriale Kovariablen: Erzeugung von Dummy-Variablen (z.b. in Dummy- oder Effektkodierung) 25
4.4 Parameterschätzung
Ausgangspunkt Struktur von binären Regressionsmodellen: Y i x i ind. B(1, π i ) mit π i = P (Y i = 1 x i ) π i = h(η i ) = h(x i β) = h(β 0 + β 1 x i1 + + β k x ik ) Unbekannte und zu schätzende Parameter sind die Regressionskoeffizienten β 0, β 1,..., β k, die im Vektor β zusammengefasst sind. Aufgrund der Binomialverteilungsannahme bietet sich Maximum-Likelihood-Schätzung zur Bestimmung von geeigneten Schätzern an. 27
Likelihood Aufgrund der Binomialverteilungsannahme lässt sich die (diskrete) Dichte von y i wie folgt schreiben: f(y i π i ) = π y i i (1 π i) 1 y i Über die Beziehung π i = h(x i β) hängt die Dichte von β ab und wird als Likelihood-Beitrag L i (β) der i-ten Beobachtung aufgefasst: L i (β) = f(y i π i ) Die Likelihood ergibt sich wegen der (bedingten) Unabhängigkeit der y i zu: L(β) = n i=1 L i (β) = n i=1 π y i i (1 π i) 1 y i 28
Log-Likelihood Logarithmieren der Likelihood-Beiträge ergibt die Log-Likelihood- Beiträge l i (β) = log L i (β) = y i log(π i ) + (1 y i )log(1 π i ) und daraus die gesamte Log-Likelihood l(β) = n i=1 l i (β) = n i=1 [ y i log(π i ) + (1 y i )log(1 π i ) ] Zum Berechnen der Score-Funktion muss anstelle von π i das jeweilige h(x i β) in die Log-Likelihood eingesetzt und dann nach β abgeleitet werden. 29
Score-Funktion Zur Berechnung des ML-Schätzers als Maximierer der Log- Likelihood l(β) bildet man die 1.Ableitung nach β und die Score-Funktion ergibt sich zu s(β) = l(β) β = n i=1 l i (β) β = n i=1 s i (β) Nullsetzen der Score-Funktion liefert die ML-Gleichung: s( ˆβ) = 0. Das Gleichungssystem ist nicht-linear und das Lösen nach ˆβ ist i.a. nicht analytisch möglich. Daher werden numerische Verfahren (wie z.b. Newton-Raphson, Fisher-Scoring) zur Nullstellensuche eingesetzt. 30
Informationsmatrizen Zur numerischen Schätzung der Koeffizienten und der Kovarianzmatrix des ML-Schätzers ˆβ benötigt man die beobachtete Fisher-Informationsmatrix F obs (β) = 2 l(β) β β oder die erwartete Fisher-Informationsmatrix F (β) = E(F obs (β)) = E ( 2 l(β) β β ). 31
Asymptotische Eigenschaften ML-Schätzer Für n gilt, dass der ML-Schätzer existiert und sowohl konsistent als auch asymptotisch normalverteilt ist: ˆβ a N ( β, F 1 ( ˆβ) ) mit der geschätzten Kovarianzmatrix Ĉov( ˆβ) = F 1 (β) als inverse Fisher-Matrix an der Stelle des ML-Schätzers ˆβ (siehe Folien zur Likelihood-Inferenz). 32
Asymptotische Eigenschaften ML-Schätzer Das Diagonalelement a jj der inversen Fisher-Matrix A = F 1 ( ˆβ) ist somit ein Schätzer für die Varianz der j-ten Komponente ˆβ j von ˆβ, d.h. es ist Var(ˆβ j ) = ˆσ 2 j = a jj, und a jj ist ein Schätzer für die Standardabweichung ˆσ j = Var(ˆβ j ). 33