Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

Transkript

1 2.1 Beispiele 2.2 Odds Ratio 2.3 Modell der logistischen Regression Modellgleichung Voraussetzungen 2.4 Schätzungen, Tests und Modellgüte Schätzung der logistischen Regressionskoeffizienten Kodierung von nominal skalierten Variablen Bestimmung des Odds Ratio Statistische Tests Beurteilung der Modellgüte Basisliteratur: Rudolf & Müller S Folie Nr. 1

2 Beispiel 1: Alkoholmissbrauch bei Jugendlichen (Rudolf & Müller, S. 184ff) Variablen Label Bemerkungen Kriterium: nominalskaliert Y Alkohol Alkoholmissbrauch: 0 = kein Missbrauch, 1 = Missbrauch Prädiktoren: nominalskaliert X 1 Erbe erbliche Vorbelastung: 0 = nicht vorbelastet, 1 = vorbelastet X 2 Umfeld Bedeutung des Alkoholkonsums im sozialen Umfeld: 0 = gering, 1 = mittel, 2 = groß Prädiktoren: intervallskaliert X 3 Alter X 4 Reizhunger Fragebogen zu Sensation Seeking Folie Nr. 2

3 Datenausschnitt zum Anwendungsbeispiel Alkoholmissbrauch (komplette Daten siehe Rudolf & Müller, S. 185) Pb Alkohol Erbe Umfeld Alter Reizhunger Folie Nr. 3

4 Datenausschnitt zum Anwendungsbeispiel Alkoholmissbrauch (komplette Daten siehe Rudolf & Müller, S. 185) Folie Nr. 4

5 Beispiel 2: Psychische Störungen (Wittchen et al., 1999, vgl. auch Jacobi, 2003) 4181 Datensätze und ausführliche Auswertungshinweise siehe Rudolf & Müller, 2012 (Web-Seite, Datei Depression.pdf) Kriterium Depressive Störung 0 = keine Depression, 1 = Depression Prädiktoren Panikattacke 0 = keine Panikattacke, 1 = Panikattacke irgendeine Angsstörung 0 = keine Angststörung, 1 = Angststörung Alkoholproblem 0 = keine Alkoholstörung, 1 = Alkoholstörung Alter Geschlecht 1 = männlich, 2 = weiblich Soziale Schicht 1 = Unter-, 2 = Mittel-, 3 = Oberschicht (Winkler 1998) Herkunft 0 = West, 1 = Ost Gewichtungsvariablen Gewichtung Auffälligkeitsstatus im Screening 1 = nicht auffällig, 2 = auffällig Folie Nr. 5

6 Häufigkeiten (Kreuztabelle Erbe x Alkohol) kein Alkoholmissbrauch (K=0) Alkoholmissbrauch (K=1) nicht vorbelastet (E=0) vorbelastet (E=1) Spalten- und Zeilensummen: 30 Folie Nr. 6

7 Bedingte Wahrscheinlichkeiten (allgemein; Exposition x Gesundheit) nicht exponiert (E=0) exponiert (E=1) gesund (K=0) p 00 = P(K=0 E=0) p 01 = P(K=0 E=1) krank (K=1) p 10 = P(K=1 E=0) p 11 = P(K=1 E=1) Bedingte Wahrscheinlichkeiten (im Beispiel) kein Alkoholmissbrauch (K=0) Alkoholmissbrauch (K=1) nicht vorbelastet (E=0) p 00 = P(K=0 E=0) = 20/30 = 2/3 p 10 = P(K=1 E=0) = 10/30 = 1/3 vorbelastet (E=1) p 01 = P(K=0 E=1) = 10/30 = 1/3 p 11 = P(K=1 E=1) = 20/30 = 2/3 Folie Nr. 7

8 p: Wahrscheinlichkeit des Auftretens eines Ereignisses Odds (p): Chance für das Eintreten des Ereignisses Odds im Beispiel: Odds (p) = p / (1 p). kein Alkoholmissbrauch (K=0) nicht vorbelastet (E=0) Odds(p 00 ) = Odds (2/3) = 2 = 2:1 vorbelastet (E=1) Odds(p 01 ) = Odds (1/3) =.5 = 1:2 Alkoholmissbrauch (K=1) Odds(p 10 ) = Odds (1/3) =.5 = 1:2 Odds(p 11 ) = Odds (2/3) = 2 = 2:1 Folie Nr. 8

9 Odds Ratio: Zentrale Kenngröße in der Epidemiologie Odds Ratio beschreibt ein Chancenverhältnis. Es ergibt sich als die Chance, zu erkranken, wenn man exponiert ist, im Verhältnis zur Chance zu erkranken, wenn man nicht exponiert ist. Odds Ratio ist der Faktor, um den die Chance zu erkranken steigt, wenn man exponiert ist. Odds Ratio kann interpretiert werden als der Faktor, um den die Chance, exponiert gewesen zu sein, steigt, wenn man voraussetzt, dass eine Erkrankung bereits vorliegt. Folie Nr. 9

10 OR = Odds (P (K=1 / E=1)) / Odds (P (K=1 / E=0)) Odds Ratio im Beispiel: OR = Odds (P (Alkohol = 1 Erbe = 1)) / Odds (P (Alkohol = 1 Erbe = 0)) = (2/3 / 1/3) / (1/3 / 2/3) = 4 Praktisches Problem in der Epidemiologie: mehrere Einflussgrößen sind gleichzeitig zu berücksichtigen logistische Regression! Folie Nr. 10

11 P( Y 1) b b i ln i i P Y ( i 1) b x x... b k x ki (i=1,,n) y i : Wert der dichotomen Kriteriumsvariablen Y des i-ten Probanden x 1i, x 2i,..., x ki : Werte der Variablen X 1, X 2,..., X k des i-ten Probanden b 0, b 1,..., b k : Koeffizienten der logistischen Regression n: Anzahl der Probanden Folie Nr. 11

12 Umstellen nach P(Y i =1): P(Y i 1) 1 exp ( (b b x 1 b x... b x 0 1 1i 2 2i k ki ) ) logistische Funktion: vgl. Rudolf & Müller, S. 190 Folie Nr. 12

13 Folie Nr. 13

14 Statistische Unabhängigkeit der Y i Binomialverteilung der Y i Fehlen leerer Zellen zwischen Kriterium und kategorialen Prädiktoren Gültigkeit des logistischen Modells Stichprobenumfang in jeder Gruppe mindestens 25 (unterste Grenze, Empfehlung zitiert nach Backhaus et al., 2004); benötigter Stichprobenumfang steigt mit der Zahl der Prädiktoren In praktischen Untersuchungen (z.b. Epidemiologie) in der Regel drastisch höhere Stichprobenumfänge notwendig Folie Nr. 14

15 Maximum-Likelihood-Methode: Maximieren der Likelihoodfunktion L L y i 1 P ( Y i 1) y i 0 (1 P ( Y i 1)) Folie Nr. 15

16 Für die Schätzungen: Maximieren der LogLikelihoodfunktion: LL mit ln( L) P(Y i y i 1 ln( P( Y 1) 1 i 1)) exp ( Eigenschaften der LogLikelihoodfunktion: LL 0 L = 1 LL = 0 L = 0 LL = y i 0 (b ln(1 P( Y b x i 1)) 1 b x b, b,..., b 0 1 k... b Maximum x 0 1 1i 2 2i k ki )) Folie Nr. 16

17 Kodierung von nominalskalierten Variablen mit k > 2 Kategorien vor der logistischen Regressionsanalyse in k 1 Kontrastvariablen Beispiel: Indikator-Kodierung der Variablen Bedeutung des Alkoholkonsums Bedeutung des Alkoholkonsums im sozialen Umfeld gering mittel hoch Kontrast k 1 Kontrast k Weitere wichtige Kontrasttypen (vgl. Rudolf & Müller, S.123, Tabelle 3.9): Abweichung Einfach Differenz Helmert Wiederholt Folie Nr. 17

18 Grundgedanke am Beispiel der einfachen Vierfeldertafel: P ( Y 1) ln b P Y 1 ( 1) b x Odds( P( Y 1 X ln( OR) ln Odds( P( Y 1 X 0 1 1)) 0)) ln ( Odds ( P ( Y 1 X 1)) ln ( Odds ( P ( Y 1 X 0)) P( Y 1 X 1) ln 1 P( Y 1 X 1) P( Y 1 X 0) ln 1 P( Y 1 X 0) ( b 0 b1 1) (b0 b1 0) b1 Folie Nr. 18

19 Ergebnisse im Beispiel: Kategorialer Prädiktor Erbe Folie Nr. 19

20 Folie Nr. 20

21 Ergebnisse im Beispiel: Kategorialer Prädiktor Erbe Folie Nr. 21

22 Folie Nr. 22

23 Kodierung von nominalskalierten Variablen mit k > 2 Kategorien vor der logistischen Regressionsanalyse in k 1 Kontrastvariablen Beispiel: Indikator-Kodierung der Variablen Bedeutung des Alkoholkonsums Bedeutung des Alkoholkonsums im sozialen Umfeld gering mittel hoch Kontrast k 1 Kontrast k Weitere wichtige Kontrasttypen (vgl. Rudolf & Müller, S.123, Tabelle 3.9): Abweichung Einfach Differenz Helmert Wiederholt Folie Nr. 23

24 Grundgedanke am Beispiel hoher vs. geringer Alkoholkonsum (X=2 vs. X=0): P ( Y 1) ln 1 P ( Y 1) b 0 b 1 k 1 b 2 k 2 ln( OR) Odds( P( Y ln Odds( P( Y 1 1 X X 2)) 0)) Odds( P( Y ln Odds( P( Y 1 K 1 K & K 0 & K 2 2 1)) 0)) ln ( Odds ( P ( Y 1 X 2)) ln ( Odds ( P ( Y 1 X 0)) P( Y 1 X 2) ln 1 P( Y 1 X 2) P( Y 1 X 0) ln 1 P( Y 1 X 0) ( b b 0 b1 0 b21) ( b0 b1 0 b20) 2 Folie Nr. 24

25 Ergebnisse im Beispiel: Kategorialer Prädiktor Umfeld Folie Nr. 25

26 Ergebnisse im Beispiel: Metrischer Prädiktor Alter Alter in Jahren Alter in Monaten Folie Nr. 26

27 Ergebnisse im Beispiel: Metrischer Prädiktor Alter Folie Nr. 27

28 Ergebnisse im Beispiel: Metrischer Prädiktor Alter Folie Nr. 28

29 Ergebnisse im Beispiel: Alle Prädiktoren Folie Nr. 29

32 Ergebnisse im Beispiel: Alle Prädiktoren Schritt X1(1) Erbe 1 a Umfeld X2 gering vs. X2(1) mittel gering vs. X2(2) hoch Alter X3 Reizhunger X4 konstant Konstante 95,0% Konfidenzintervall für Regressions EXP(B) koeffizient B Sig. Exp(B) Unterer Wert Oberer Wert 1,633,025 5,122 1,227 21,371,056,144,862 1,155,226 5,902 2,096,024 8,132 1,323 50,003,417,055 1,517,991 2,322,231,005 1,260 1,073 1,479-13,987.,001,000 Schritt 1-2 Cox & Snell Nagelkerkes Log-Likelihood R-Quadrat R-Quadrat 50,354 a,421,562 Erläuterungen später unter Beurteilung der Modellgüte Folie Nr. 32

35 Ergebnisse im Beispiel: Alle Prädiktoren Ausreißerdiagnostik: Fall 8 39 Ausgewählter Status a Beobachtet Alkohol Vorhergesagt Temporäre Variable Vorhergesagte Gruppe Resid ZResid S k**,835 M -,835-2,246 S M**,089 k,911 3,193 Folie Nr. 35

36 Ergebnisse im Beispiel: Alle Prädiktoren Vorhergesagt Schritt 1 Beobachtet Alkohol Gesamtprozentsatz kein Missbrauch Missbrauch Alkohol kein Prozentsatz Missbrauch Missbrauch der Richtigen , ,0 80,0 Klassifikationsfehlerrate: 20% Fehlerrate wird bei diesem Vorgehen unterschätzt! Kreuzvalidierung notwendig, zum Beispiel Leave-one-out -Methode! Folie Nr. 36

37 A) Likelihood-Ratio-Test: LR 2 (LL v1 LL v ) LR-Teststatistik asymptotisch χ2-verteilt mit einem FG B) Wald-Statistik: W b s b 2 Wald-Teststatistik asymptotisch χ2-verteilt mit einem FG Folie Nr. 37

38 LR-Statistik LR 2 (LL 0 LL v ) LR-Teststatistik asymptotisch χ2-verteilt mit k (Anzahl der Prädiktoren) FG Cox & Snell - R 2 2 L0 n Cox & SnellR 1 L v Nagelkerkes - R 2 (Werte zwischen 0 und 1, im Beispiel R 2 =.56) Nagelkerkes - R 2 Cox & Snell R 1 2 L 0 n Hosmer-Lemeshow-Test prüft mit einer χ 2 -Größe die H 0, dass alle Differenzen zwischen geschätzten und beobachteten Y-Werten gleich 0 sind. Grundlage: 10 gleich große Gruppen, die auf Grund der geschätzten Wahrscheinlichkeiten gebildet werden (siehe z.b. Eid et al. (2010), S. 794 ff) 2 2 Folie Nr. 38