Kapitel 4: Binäre Regression

Ähnliche Dokumente

2.Tutorium Generalisierte Regression

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

8. Februar Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Fallbeispiel: Kreditscoring

Binäre abhängige Variablen

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Stochastische Eingangsprüfung,

Logistische Regression

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Tutorial: Homogenitätstest

Melanie Kaspar, Prof. Dr. B. Grabowski 1

4 Binäre Regressionsmodelle, Folien 2

Theoretische Grundlagen der Informatik WS 09/10

Multivariate Statistik

Multinomiale logistische Regression

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Statistische Thermodynamik I Lösungen zur Serie 1

Statistik II für Betriebswirte Vorlesung 2

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Fortgeschrittene Statistik Logistische Regression

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

9. Schätzen und Testen bei unbekannter Varianz

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema

Kap. 9: Regression mit einer binären abhängigen Variablen

1 Binäre Regression (I)

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Aufabe 7: Baum-Welch Algorithmus

Lineare Gleichungssysteme

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Beispiel Zusammengesetzte Zufallsvariablen

Korrelation - Regression. Berghold, IMI

Korrelation (II) Korrelation und Kausalität

Zusammenhänge zwischen metrischen Merkmalen

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

Statistik Einführung // Lineare Regression 9 p.2/72

Musterlösung zu Serie 14

Ausarbeitung des Seminarvortrags zum Thema

1.3 Die Beurteilung von Testleistungen

W-Rechnung und Statistik für Ingenieure Übung 11

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Interne und externe Modellvalidität

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Lineare Modelle in R: Einweg-Varianzanalyse

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Theoretische Grundlagen der Informatik

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Kommentierter SPSS-Ausdruck zur logistischen Regression

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Statistik II für Betriebswirte Vorlesung 3

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

Grundlagen der Informatik

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

Forschungsstatistik I

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Nichtlineare Optimierung ohne Nebenbedingungen

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Entscheidungsbaumverfahren

4 Vorlesung: Matrix und Determinante

Charakteristikenmethode im Beispiel

Kontingenzkoeffizient (nach Pearson)

Grundbegriffe der Informatik

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

BONUS MALUS SYSTEME UND MARKOV KETTEN

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

7 Rechnen mit Polynomen

Stichprobenauslegung. für stetige und binäre Datentypen

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Statistische Analyse von Ereigniszeiten

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur "Finanzmanagement" 14. März 2002

Transkript:

Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014

4.1 Motivation

Ausgangssituation Gegeben sind Daten (y i, x i1,..., x ik ) mit einer binären Zielvariablen y i {0, 1} für i = 1,..., n und stetigen oder binär kodierten kategorialen Kovariablen x 1,..., x k. Fragestellung: Wie kann diese binäre Zielvariable in Abhängigkeit von Kovariablen modelliert werden? 2

Beispiel: Kreditscoring Ziel von Kreditscoring ist die Untersuchung der Bonität bzw. Kreditwürdigkeit eines Kunden in Abhängigkeit von Kovariablen. Hier liegen Daten einer süddeutschen Großbank von 1000 abgeschlossenen Kreditgeschäften vor: Variable ausfall laufzeit hoehe alter moral. Beschreibung Ausfall des Kredits / Bonität des Kreditnehmers 1 = Kredit wurde nicht zurückgezahlt d.h. der Kunde ist nicht kreditwürdig 0 = Kredit wurde zurückgezahlt d.h. der Kunde ist kreditwürdig Laufzeit des Kredits in Monaten Höhe des Kredits in Euro Alter des Kreditnehmers in Jahren Zahlungsmoral des Kunden aus vergangenen Kreditgeschäften: 1 = gute Zahlungsmoral 0 = schlechte Zahlungsmoral. 3

Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Laufzeit 1 ausfall 0 0 20 40 60 laufzeit 4

Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Laufzeit 1.0 n=82 n=277 n=187 n=224 n=57 n=86 n=17 n=54 n=2 n=13 n=0 n=1 0.8 Anteil ausfall=1 0.6 0.4 0.2 0.0 (0,6] (6,12] (12,18] (18,24] (24,30] (30,36] (36,42] (42,48] (48,54] (54,60] (60,66] (66,72] laufzeit 5

Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Höhe des Kredits 1 ausfall 0 0 5000 10000 15000 hoehe 6

Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Höhe des Kredits 1.0 n=432 n=322 n=97 n=79 n=30 n=19 n=9 n=11 n=0 n=1 0.8 Anteil ausfall=1 0.6 0.4 0.2 0.0 (0,2] (2,4] (4,6] (6,8] (8,10] (10,12] (12,14] (14,16] (16,18] (18,20] hoehe [in 1000 Euro] 7

Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit vom Alter des Kreditnehmers 1 ausfall 0 20 30 40 50 60 70 alter 8

Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit vom Alter des Kreditnehmers 1.0 n=16 n=174 n=219 n=178 n=141 n=88 n=71 n=42 n=26 n=27 n=12 n=6 0.8 Anteil ausfall=1 0.6 0.4 0.2 0.0 (18,20] (20,25] (25,30] (30,35] (35,40] (40,45] (45,50] (50,55] (55,60] (60,65] (65,70] (70,75] alter 9

Beispiel: Kreditscoring Deskription von Ausfall in Abhängigkeit von der Zahlungsmoral 1.0 n=89 n=911 ausfall 0 1 Σ moral 0 36 53 89 1 664 247 911 Σ 700 300 1000 Anteil ausfall=1 0.8 0.6 0.4 0.2 0.0 0 1 moral 10

4.2 Binäre Regressionsmodelle

Modellformel Gegeben Realisationen y i einer binären Zielvariablen Y i {0, 1} Kovariablenvektor x i = (1, x i1,..., x ik ) für i = 1,..., n Verteilungsannahme Y i x i ind. B(1, π i ) mit π i = P (Y i = 1 x i ) = E(Y i x i ) Strukturannahme π i =h(η i ) = h(x i β) = h(β 0 + β 1 x i1 +... + β k x ik ) mit streng monoton wachsender Responsefunktion h : (, ) [0, 1] 12

Bemerkungen η i = x i β wird als linearer Prädiktor bezeichnet. Die Umkehrfunktion g = h 1 mit g : [0, 1] (, ) und heißt Linkfunktion. g(π i ) = η i = β 0 + β 1 x i1 +... + β k x ik Für die Responsefunktion h( ) werden streng monoton wachsende Verteilungsfunktionen verwendet. 13

Bekannteste Modelle Logit-Modell h : Verteilungsfunktion der logistischen Verteilung π i = h(η i ) = exp(η i) 1 + exp(η i ) Probit-Modell h : Verteilungsfunktion der Standardnormalverteilung π i = h(η i ) = Φ(η i ) Komplementäres Log-Log-Modell h : Verteilungsfunktion der Extremwertverteilung π i = h(η i ) = 1 exp( exp(η i )) 14

Responsefunktionen Responsefunktionen Adjustierte Responsefunktionen h(η) 0.0 0.2 0.4 0.6 0.8 1.0 logit probit cloglog h(η) 0.0 0.2 0.4 0.6 0.8 1.0 logit probit cloglog 4 2 0 2 4 4 2 0 2 4 η η 15

Modellschätzung in R Logit-Modell glm(ausfall ~ laufzeit + hoehe + alter + moral, data=kredit, family=binomial(link= logit )) Probit-Modell glm(ausfall ~ laufzeit + hoehe + alter + moral, data=kredit, family=binomial(link= probit )) Log-Log-Modell glm(ausfall ~ laufzeit + hoehe + alter + moral, data=kredit, family=binomial(link= cloglog )) 16

4.3 Logit-Modell

Äquivalente Darstellungen 1. Logarithmierte Chance (Linkfunktion) log ( ) πi 1 π i = η i 2. Chance π i 1 π i = exp(η i ) 3. Wahrscheinlichkeit (Responsefunktion) π i = exp(η i) 1 + exp(η i ) 18

Interpretation der Parameter Gegeben sei eine bestimmte Kovariablen-Kombination x i = (1, x i1,..., x ij,..., x ik ) und der lineare Prädiktor η i = β 0 +... + β j x ij +... + β k x ik. Falls sich x ij auf x ij + 1 erhöht und alle anderen Einträge von x i gleich bleiben (mit j = 1,..., k), dann 1. ändert sich die logarithmierte Chance um β j, da log ( ) πi 1 π i = β 0 +... + β j (x ij + 1) +... + β k x ik = β 0 +... + β j x ij +... + β k x ik + β j = η i + β j 19

Interpretation der Parameter 2. ändert sich die Chance um den Faktor exp(β j ), da π i 1 π i = exp(β 0 +... + β j (x ij + 1) +... + β k x ik ) = exp(β 0 +... + β j x ij + β j +... + β k x ik ) = exp(η i + β j ) = exp(η i ) exp(β j ) 3. ist die Änderung der Wahrscheinlichkeit nicht-linear. π i = exp(η i + β j ) 1 + exp(η i + β j ) 20

Interpretation der Parameter Allgemein lässt sich exp(β j ) also als das Chancenverhältnis (oder Odds Ratio) bei Erhöhung von x ij um eine Einheit interpretieren und es gilt: β j > 0 exp(β j ) > 1 β j < 0 exp(β j ) < 1 β j = 0 exp(β j ) = 1 Die Chance P (y i = 1)/P (y i = 0) wird größer. Die Chance P (y i = 1)/P (y i = 0) wird kleiner. Die Chance P (y i = 1)/P (y i = 0) bleibt gleich. 21

Prognose Gegeben eine Schätzung ˆβ für β und eine Kovariablenkombination x i ergibt sich eine Schätzung oder Prognose der Wahrscheinlichkeit π i durch: ˆπ i = exp(x i ˆβ) 1 + exp(x i ˆβ) Ebenso wie beim linearen Modell wird dabei der bedingte Erwartungswert E(Y i x i ) geschätzt: ˆπ i = ˆP (Y i = 1 x i ) = Ê(Y i x i ) Man erhält im Logit-Modell demnach keine Prognose ŷ i für y i, sondern nur eine Prognose ˆπ i für π i. 22

Beispiel: R-Output Kreditscoring Wie lassen sich folgende geschätzte Parameter ˆβ interpretieren? > modlogit <- glm(ausfall ~ laufzeit + hoehe + alter + moral, + data=kredit, family=binomial(link= logit )) > coef(modlogit) (Intercept) laufzeit hoehe alter moral -5.810164e-02 3.231725e-02 2.661397e-05-1.347756e-02-4.564097e-01 > exp(coef(modlogit)) (Intercept) laufzeit hoehe alter moral 0.9435540 1.0328451 1.0000266 0.9866129 0.6335542 23

Beispiel: R-Output Kreditscoring Call: glm(formula = ausfall ~ laufzeit + hoehe + alter + moral, family = binomial(link = logit ), data = kredit) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -5.810e-02 3.102e-01-0.187 0.851 laufzeit 3.232e-02 7.507e-03 4.305 1.67e-05 *** hoehe 2.661e-05 3.178e-05 0.837 0.402 alter -1.348e-02 6.817e-03-1.977 0.048 * moral -4.564e-01 7.156e-02-6.378 1.80e-10 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1221.7 on 999 degrees of freedom Residual deviance: 1124.4 on 995 degrees of freedom AIC: 1134.4 Number of Fisher Scoring iterations: 4 24

Modellierung von Kovariablen Alle behandelten Konzepte zur Modellierung bzw. zum Design von Kovariablen in linearen Modellen mit Normalverteilungsannahme lassen sich analog bei binären Regressionsmodellen anwenden: Stetige Kovariablen: Nicht-lineare Transformation (durch bekannte Funktionen oder Polynome) Mittelwert-Zentrierung Kategoriale Kovariablen: Erzeugung von Dummy-Variablen (z.b. in Dummy- oder Effektkodierung) 25

4.4 Parameterschätzung

Ausgangspunkt Struktur von binären Regressionsmodellen: Y i x i ind. B(1, π i ) mit π i = P (Y i = 1 x i ) π i = h(η i ) = h(x i β) = h(β 0 + β 1 x i1 + + β k x ik ) Unbekannte und zu schätzende Parameter sind die Regressionskoeffizienten β 0, β 1,..., β k, die im Vektor β zusammengefasst sind. Aufgrund der Binomialverteilungsannahme bietet sich Maximum-Likelihood-Schätzung zur Bestimmung von geeigneten Schätzern an. 27

Likelihood Aufgrund der Binomialverteilungsannahme lässt sich die (diskrete) Dichte von y i wie folgt schreiben: f(y i π i ) = π y i i (1 π i) 1 y i Über die Beziehung π i = h(x i β) hängt die Dichte von β ab und wird als Likelihood-Beitrag L i (β) der i-ten Beobachtung aufgefasst: L i (β) = f(y i π i ) Die Likelihood ergibt sich wegen der (bedingten) Unabhängigkeit der y i zu: L(β) = n i=1 L i (β) = n i=1 π y i i (1 π i) 1 y i 28

Log-Likelihood Logarithmieren der Likelihood-Beiträge ergibt die Log-Likelihood- Beiträge l i (β) = log L i (β) = y i log(π i ) + (1 y i )log(1 π i ) und daraus die gesamte Log-Likelihood l(β) = n i=1 l i (β) = n i=1 [ y i log(π i ) + (1 y i )log(1 π i ) ] Zum Berechnen der Score-Funktion muss anstelle von π i das jeweilige h(x i β) in die Log-Likelihood eingesetzt und dann nach β abgeleitet werden. 29

Score-Funktion Zur Berechnung des ML-Schätzers als Maximierer der Log- Likelihood l(β) bildet man die 1.Ableitung nach β und die Score-Funktion ergibt sich zu s(β) = l(β) β = n i=1 l i (β) β = n i=1 s i (β) Nullsetzen der Score-Funktion liefert die ML-Gleichung: s( ˆβ) = 0. Das Gleichungssystem ist nicht-linear und das Lösen nach ˆβ ist i.a. nicht analytisch möglich. Daher werden numerische Verfahren (wie z.b. Newton-Raphson, Fisher-Scoring) zur Nullstellensuche eingesetzt. 30

Informationsmatrizen Zur numerischen Schätzung der Koeffizienten und der Kovarianzmatrix des ML-Schätzers ˆβ benötigt man die beobachtete Fisher-Informationsmatrix F obs (β) = 2 l(β) β β oder die erwartete Fisher-Informationsmatrix F (β) = E(F obs (β)) = E ( 2 l(β) β β ). 31

Asymptotische Eigenschaften ML-Schätzer Für n gilt, dass der ML-Schätzer existiert und sowohl konsistent als auch asymptotisch normalverteilt ist: ˆβ a N ( β, F 1 ( ˆβ) ) mit der geschätzten Kovarianzmatrix Ĉov( ˆβ) = F 1 (β) als inverse Fisher-Matrix an der Stelle des ML-Schätzers ˆβ (siehe Folien zur Likelihood-Inferenz). 32

Asymptotische Eigenschaften ML-Schätzer Das Diagonalelement a jj der inversen Fisher-Matrix A = F 1 ( ˆβ) ist somit ein Schätzer für die Varianz der j-ten Komponente ˆβ j von ˆβ, d.h. es ist Var(ˆβ j ) = ˆσ 2 j = a jj, und a jj ist ein Schätzer für die Standardabweichung ˆσ j = Var(ˆβ j ). 33