Logistische Regression

Transkript

1 Logistische Regression

2 Motivation Regressionsrechnung: Untersuchung des Zusammenhangs zwischen einer (oder mehreren) Zielvariablen und einer oder mehreren erklärenden Variablen. Bisher gesehen: Kontinuierliche Zielvariable Einfache lineare Regression Multiple lineare Regression Heute: Binäre Zielvariable Logistische Regression

3 Beispiele Tierversuch (Toxikologie) Überleben von Mäusen in Abhängigkeit von der Dosis? Frühgeburten Wie beeinflussen Gewicht, Alter, das Überleben von Frühgeborenen? Technik Bei welchen Bedingungen (Temperatur, Feuchtigkeit, ) fallen Geräte aus? Customer-Relationship-Management (CRM) Was sind erfolgreiche Massnahmen, damit ein Kunde auf ein neues Produkt wechselt? Gemeinsamkeiten Binäre Zielgrösse (lebt/tot, Ausfall/kein Ausfall, ja/nein, ) Beliebige erklärende Variablen

4 Beispiel: Aderverengung Ader verengt (Y=1) Ader nicht verengt (Y=0) binäre Zielvariable Y: Verengung (ja/nein) erklärende Variablen Vol: Atem-Volumen Rate: Atem-Frequenz Idee: Modelliere die Wahrscheinlichkeit einer Aderverengung, gegeben die erklärenden Variablen Vol und Rate: P Y = 1 Vol, Rate)

5 Grundidee Gegeben Binäre Zielvariable Y Erklärende Variablen X (1),, X (m) Ziel Modelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre m Eingangsgrössen P Y i = 1 x i (1), xi (2),, xi (m) ) Beispiel Modelliere die Wahrscheinlichkeit, dass i-te Patientin eine Gefässverengung hat, gegeben ihre Atem-Frequenz und ihr Atem-Volumen. P Y i = 1 Vol i, Rate i )

6 Modellansatz Ziel Modelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre m Eingangsgrössen P Y i = 1 x i (1), xi (2),, xi (m) ) Ansatz P Y i = 1 x i (1), xi (2),, xi (m) ) = h(xi (1), xi (2),, xi (m) ) Bemerkung Für eine binäre Variable Y {0,1} gilt: E Y = 0 P Y = P Y = 1 = P(Y = 1) Das heisst, wir modellieren im Prinzip wie bei der linearen Regression: E[Y i x i 1, x i 2,, x i m ] = h(x i (1), xi (2),, xi (m) )

7 Lineare Regression? Ansatz wie bei der linearen Regression?? Y i = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i (m) + Ei Wenn man das versucht, dann gilt: P Y i = 1 x i ) = E Y i x i = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i (m) Das heisst, die Funktion h wäre linear. Die geschätzten Wahrscheinlichkeiten können < 0 oder > 1 werden! Idee: Transformation von Y i direkt? Idee 2: Transformation von E Y i x i = P Y i = 1 x i ). Am besten so, dass es keine Einschränkungen mehr gibt.

8 Logistische Regression

9 Logit-Funktion g Benutze die Logit-Funktion g: [0,1] R g π = log π 1 π = log π log(1 π) Grundidee Die Funktion g transformiert die Wahrscheinlichkeiten auf die gesamte reelle Achse (R). Keine Beschränkung der möglichen Werte Lineare Funktion als Modell geeignet Bemerkung: Logit-Funktion -> Logistische Regression. Andere Funktionen möglich.

10 Logistisches Regressionsmodell Auf der transformierten Skala verwendet man den Ansatz von vorher (wie bei der multiplen linearen Regression). Das Modell der logistischen Regression lautet: g P Y i = 1 x i ) =log P Y i=1 x i ) P Y i =0 x i ) = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i m = x i T β = η i mit x i = (1, x i (1), xi (2),, xi (m) ) und β = (β0, β 1,, β m ). Terminologie η i = β 0 + β 1 x i (1) + β2 x i (2) + + βm x i m = x i T β heisst linearer Prädiktor g heisst Link-Funktion. Die Link-Funktion transformiert den Erwartungswert E Y i x i = P Y i = 1 x i ) auf die geeignete Skala (hier: R)

11 Inverse Link-Funktion g 1 Kennt man den linearen Prädiktor η i (oder die Parameter β = (β 0, β 1,, β m )), dann erhält man die Wahrscheinlichkeit P Y i = 1 x i ) gemäss Entsprechend ist P Y i = 1 x i ) = g 1 η i = exp{η i} 1+exp{η i } P Y i = 0 x i ) = 1 P Y i = 1 x i ) = 1 1+exp{η i } Terminologie Die inverse Link-Funktion g 1 heisst logistische Funktion.

12 g(π) g 1 (η) g und g 1 p h 12

13 Beispiel: Aderverengung Ader verengt (Y=1) Ader nicht verengt (Y=0) binäre Zielvariable Y: Verengung ja/nein erklärende Variablen Vol: Atem-Volumen Rate: Atem-Frequenz Logistisches Regressionsmodell: g(p Y = 1 Vol, Rate)) = β 0 + β 1 Vol + β 2 Rate

14 Beispiel: Aderverengung Das angepasste logistische Regressionsmodell lautet: g(p Y = 1 Vol, Rate)) = መβ 0 + መβ 1 Vol + መβ 2 Rate = Vol Rate Punkte in der (Vol, Rate)-Ebene mit gleichen Wahrscheinlichkeiten besitzen die Eigenschaft, dass Vol Rate = konstant Das heisst, Rate hängt linear von Vol ab.

15 Rate Beispiel: Aderverengung (Vol, Rate)-Ebene Punkte mit gleichen W keiten liegen auf einer Geraden Geraden zu unterschiedlichen W keiten sind zueinander parallel Vol

16 Y Beispiel: Aderverengung g(p Y = 1 Vol, Rate)) = Vol Rate = ηƹ Vorhergesagte W keit gemäss Modell: exp{ η} P Y = 1 η = 1 + exp{ η} ηƹ

17 Interpretation der Parameter Erinnerung: Das Modell der logistischen Regression lautet: log(odds(y x))=log P Y=1 x) P Y=0 x) = β 0 + β 1 x 1 + β 2 x β m x m Wenn man x (j) um eine Einheit erhöht (und alles andere fix lässt), dann Erhöhen sich die log-odds von Y = 1 x um β j Ändern sich die odds von Y = 1 x um den Faktor exp β j Das Doppelverhältnis (odds ratio) odds(y x j =c j +1) odds(y x j =c j ) = exp β j für beliebiges c j. Das logarithmierte Doppelverhältnis (log odds ratio) log odds Y x j = c j + 1 odds Y x j = c j = β j für beliebiges c j.

18 Beispiel: Aderverengung Interpretation der Parameter des angepassten logistischen Regressionsmodells: g(p Y = 1 Vol, Rate)) = መβ 0 + መβ 1 Vol + መβ 2 Rate = Vol Rate Für ein Individuum mit Vol = 2.3 und Rate = 0.9 ergeben sich gemäss obigem Modell: Log-odds von = Odds von exp = Die geschätzte Wahrscheinlichkeit für eine Aderverengung ist für dieses Individuum: P Y = 1 Vol = 2.3, Rate = 0.9 = g = exp{1.779} 1+exp{1.779} = 0.86

19 Gruppierte Daten Grundidee Man hat zu den gleichen erklärenden Variablen mehrere Beobachtungen (Replikate) der Zielvariable. Beispiel: Frühgeburten Mittleres Gewicht (Klasse 500g-600g) Anzahl Beob. in Kategorie Anzahl nicht überlebende Säuglinge Angaben von 247 Säuglingen Einteilung in 10 Gewichtsklassen Anzahl überlebende Säuglinge

20 Gruppierte Daten Notation m l Beobachtungen Y i zu gleichen Bedingungen x i = x l Definiere Y l = 1 m l σ i:xi = x l Y i (Anteil Erfolge) Es gilt dann Y i mit x i = x l unabhängige Versuche mit Erfolgsw keit π l = P Y i = 1 x l. m l Y l ~ Bin(m l, π l ) binomialverteilt E Y l = π l, g π l = x l T β Wir verwenden das gleiche Modell wie vorher. Bei gruppierten Daten hat man den Vorteil, dass man mehr Informationen hat. Man könnte für jede Gruppe die W keit einzeln schätzen, wenn m l genug gross.

21 Anteil Überlebende ( Y l ) Beispiel: Frühgeburten Gewicht Die Grösse der Kreise ist proportional zu der Anzahl Beobachtungen m l

22 Schätzungen und Tests

23 Maximum Likelihood Frage Wie schätzt man die Parameter β = (β 0, β 1,, β m )? Verwende Maximum Likelihood Prinzip, d.h., wähle die Parameter β so, dass die Wahrscheinlichkeit des beobachteten Ereignisses maximal ist. Likelihood-Funktion Logit-Funktion l β = P β (Y 1 = y 1, Y 2 = y 2,, Y n = y n ) = ς n i=1 P β (Y i = y i ) P β Y i = y i = π i y i (1 π i ) 1 y i, das über π i von β abhängt: g π i = x i T β. Fasst W keiten des logistischen Modells in einem Ausdruck zusammen. Es gilt: P β Y i = 1 = π i und P β Y i = 0 = 1 π i

24 Maximum Likelihood Um das Produkt zu vermeiden arbeitet man mit der log-likelihood: ll β = log l β Man erhält durch Einsetzen von π i = exp x i T β 1+exp x i T β und Umformen ll β = σ n i=1 y i x i T β log 1 + exp x i T β Maximieren bezüglich β ergibt Parameterschätzer መβ. Bemerkungen: Im Gegensatz zur linearen Regression existiert keine geschlossen darstellbare Lösung Lösung durch iterative numerische Verfahren Approximation durch gewichtetes lineares Regressionsproblem Iterative Lösung vieler gewichteter linearer Regressionen

25 Verteilung von መβ Die Approximation mit linearen Regressionsproblemen liefert eine approximative Verteilung der geschätzten Parameter መβ ist approximativ multivariat normalverteilt mit Erwartungswert β und einer Kovarianzmatrix V (β) Approximative Tests und Vertrauensintervalle für die Koeffizienten: Teststatistik (Wald Test) T j = β j β j (β) V jj ist approximativ N(0,1)-verteilt. Bemerkung (β) V jj bezeichnet das j-te Diagonalelement von V (β) («Standardfehler von መβ j»)

26 R-Funktion glm() Modell Schätzungen & Tests Güte des Modells Numerik

27 Beispiel: Frühgeburten Modellgleichung Logit Link (default) Schätzungen der Koeffizienten መβ und zugehörige Standardfehler Teststatistik der Wald Tests und zugehörige p-werte (H 0 : መβ j = 0)

28 Residuen-Devianz Frage: Wie gut ist das geschätzte Modell? Residuen-Devianz (Analog zu Residuen-Quadratsummen in lin. Regression) Gruppierte Daten Y l Vergleiche log-likelihood des maximalen Modells mit derjenigen des geschätzten Modells: D y; π = 2 ll M ll መβ = 2 log l M l β ll M : Grösstmögliches Modell, kann für jede Gruppe π l frei wählen: π l = y l Residuen-Devianz vergleicht geschätztes Modell mit maximalem Modell («Anpassungstest»). Geht nur bei nicht zu kleinen Anzahlen m l pro Gruppe. Ungruppierte Daten Es gilt ll M = 0 (perfekter Fit) Anpassungstest macht keinen Sinn (cf. 8.3.k).

29 Devianz-Differenz Devianz-Differenz eignet sich zum Vergleich zweier geschachtelter Modelle. Likelihood-Ratio Test für Modellvergleich K G: Asymptotisch χ d 2 -verteilt, wenn das kleine Modell stimmt. Diese Likelihood-Ratio Tests sind den Wald Tests in der Regel vorzuziehen. R-Befehle Anzahl Freiheitsgrade d ist die Differenz der Anzahl Parameter der beiden Modelle: d = G K Vergleich geschachtelter Modelle: > anova(fit.1, fit.2, test = "Chisq") Signifikanztest für Faktoren: > drop1(fit, test = "Chisq")

30 Null-Devianz Frage: Hat das geschätzte Modell einen erklärenden Wert? Null-Devianz (Analog zu tot. Quadratsumme σ i (Y i തY) 2 in lin. Regression) Kleinstes sinnvolles Modell (Nullmodell) besteht nur aus Intercept, d.h. π i ist für alle Beobachtungen gleich: π (0) = σ n i=1 y i /n (globaler Anteil «Erfolge») D y; π (0) = 2 ll M ll መβ (0) Gesamt-Test für das Modell: Vergleicht Null-Devianz und Residuen-Devianz H 0 : alle β j = 0 (j = 1,, m) 2 Unter H 0 ist dies approximativ χ p 1 -verteilt.

31 Beispiel: Frühgeburten Gesamt-Test Null-Devianz Residuen-Devianz = = Approximativ χ 2 -verteilt mit = 2 Freiheitsgraden AIC = D y; π + 2 Anzahl geschätzte Parameter (Gütemass)

32 Residuenanalyse

33 Residuen Es existieren mehrere mögliche Definitionen. Rohe Residuen (response residuals) Prädiktor Residuen (working residuals, link residuals) Pearson Residuen R l (L) = Rl dη dπ π l = R l 1 π l π l (nach η projiziert) Devianz-Residuen d i : Beitrag der i-ten Beobachtung zur Residuen- Devianz. Entspricht quadriertem Residuum R i 2 in linearer Regression

34 Graphische Darstellungen QQ Plots machen in der Regel keinen Sinn Ausnahme Pearson Residuen für gruppierte Daten mit genug grossen m l näherungsweise standard-normalverteilt. Tukey-Anscombe Plots am geeignetsten. Rohe Residuen gegen π l Prädiktor Residuen gegen linearen Prädiktor Ƹ η l Insbesondere bei nicht gruppierten Daten braucht man einen Glätter (wegen Artefakten).

35 Rohe Residuen Prädiktor Residuen TA-Plots: Ungruppierte Daten Glätter geschätztes π linearer Prädiktor Artefakt: Wegen binärem Y erhält man links zwei Geraden mit Abstand 1, rechts zwei Kurven. Man kann Abweichungen nur sehen, wenn man Glättung einzeichnet.

36 Rohe Residuen TA-Plot: Gruppierte Daten Geschätztes π

37 Merkpunkte Logistische Regression ist die Standardmethode bei binären Zielgrössen. Gleiche Flexibilität wie gewöhnliche lineare Regression. Interpretation mittels odds beziehungsweise odds ratio: log(odds) = linearer Prädiktor log(odds ratio) = β j, falls man j-te Eingangsgrösse um eine Einheit erhöht. Parameterschätzungen via Maximum Likelihood Tests via Devianzen und Likelihood Ratio Tests Residuen nicht eindeutig definiert, mehrere Möglichkeiten. Wegen Artefakten wird zur Interpretation der Residuenplots ein Glätter benötigt.