Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

Transkript

1 Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression II

2 Bringen Sie zur nächsten Übung und in die Klausur einen (nicht programmierbaren) Taschenrechner mit! # 2

3 Programm Wiederholung der Parameterinterpretation in der logistischen Regression Berechnung von konkreten vorhergesagten Wahrscheinlichkeiten aus der logistischen Regression Wiederholung Interpretation lineare Regression Übungsaufgabe Literatur # 3

4 Beispiel Modellschätzung mit SPSS In der letzten Sitzung wurde untersucht ob das Alter und die sportliche Betätigung einen Einfluss auf die Wahrscheinlichkeit zu rauchen haben. Heute wollen wir untersuchen ob darüber hinaus die Tatsache, dass mindestens ein Kind im Haushalt lebt die Rauchwahrscheinlichkeit beeinflusst. Es werden also folgende unabhängige Variablen in das Modell aufgenommen: Alter (zentriert um den Mittelwert 40,045) Stunden Sport pro Monat (zentriert um den Mittelwert 1,01) Kind im Haushalt (Dummyvariable für Kind im Haushalt = 1; für kein Kind = 0) # 4

5 Beispiel Modellschätzung mit SPSS Vorbereiten der abhängigen Variable: recode v24 (1 2=1) (3=0) into rauch. val lab rauch 0 'Nein' 1 'Ja'. var lab rauch 'Raucher?'. Vorbereiten der unabhängigen Variablen: Alter in Jahrzehnten bilden compute alter10=(2015-v56)/10. var lab alter10 'Alter in Jahrzehnten'. Stunden Sport pro Monat bilden if v19>-77 spomo=v19*4. if v20>-77 spomo=v20. if v17=1 and v18=1spomo=0. var lab spomo "Sport pro Monat in Stunden". missing values spomo ( ). Kind im Haushalt kodieren compute kinder=v35-1. var lab kinder "Kinder im Haushalt". # 5

6 Beispiel Modellschätzung mit SPSS Vorbereiten der unabhängigen Variablen: Mittelwert für Zentrierung ermitteln: zunächst beschränken auf die Fälle, die auch in die Regression eingehen. Dann Mittelwerte für Alter und Sport pto Monat ausgeben lassen. temp. select if alter10 < 100 & rauch < 2 & spomo < 220 & Kinder < 2. mean alter10 spomo. Zentrieren compute alter10_z = alter compute spomo_z = spomo Durchführen der Regression: logistic regression rauch /method=enter alter10_z spomo_z kinder /save pred. # 6

7 Beispiel Modellschätzung mit SPSS Omnibus-Tests der Modellkoeffizienten Chi-Quadrat df Sig. Schritt 1 Schritt 22,325 3,000 Block 22,325 3,000 Modell 22,325 3,000 Modellübersicht -2 Log- Likelihood R-Quadrat nach Cox & Snell R-Quadrat nach Nagelkerke 855,670 0,032,044 a. Schätzung beendet bei Iteration Nummer 4, weil die Parameterschätzungen sich um weniger als,001 änderten. LR-Chi²-Test: Unabhängige Variablen tragen zur Erklärung der abhängigen Variable bei. Das Modell mit Einflussvariablen ist höchstsignifikant besser als das Nullmodell. Die beiden alternativen R²- Werte deuten auf sehr niedrige Modellgüte hin. # 7

8 Beispiel Modellschätzung mit SPSS Vorzeicheninterpretation (Spalte B): Variablen in der Gleichung B Standardfehler Wald df Sig. Exp(B) Schritt 1 a alter10_z,105,070 2,298 1,130 1,111 spomo_z,031,007 17,673 1,000 1,032 kinder,193,168 1,319 1,251 1,213 Konstante -,933,122 58,085 1,000,393 a. In Schritt 1 eingegebene Variable(n): alter10_z, spomo_z, kinder. Ältere Personen sind mit höherer Wahrscheinlichkeit Raucher als jüngere Personen. Dieser Effekt ist nicht signifikant Je höher die sportliche Betätigung umso größer ist die Wahrscheinlichkeit zu Rauchen. Dieser Effekt ist höchst signifikant Menschen mit Kindern im Haushalt rauchen mit höherer Wahrscheinlichkeit. Dieser Effekt ist nicht signifikant # 8

9 Beispiel Modellschätzung mit SPSS Variablen in der Gleichung B Standardfehler Wald df Sig. Exp(B) Schritt 1 a alter10_z,105,070 2,298 1,130 1,111 spomo_z,031,007 17,673 1,000 1,032 kinder,193,168 1,319 1,251 1,213 Konstante -,933,122 58,085 1,000,393 a. In Schritt 1 eingegebene Variable(n): alter10_z, spomo_z, kinder. Interpretation der Odds-Ratios (Spalte Exp(B)): Steigt das Alter um 10 Jahre, so ist die Chance Raucher zu sein 1,11 mal so groß. Jemand, der eine Stunde mehr Sport pro Monat macht, hat eine 1,03mal so große Chance Raucher zu sein. Menschen mit Kindern im Haushalt haben eine um 21,3% höhere Chance Raucher zu sein. Formel: (exp(b) - 1) * 100% = (1,213-1) * 100% = 21,3% # 9

10 Berechnen von konkreten Wahrscheinlichkeiten Ziel: Berechnen einer konkreten Wahrscheinlichkeit für eine bestimmte Kombination von Merkmalen Hierzu werden analog zur multiplen (OLS) Regression die Koeffizienten multipliziert mit der Ausprägung aufsummiert, danach aber gemäß der logistischen Funktion transformiert. P i 1 e 1 ( 0 1Xi1... m X im ) 1 1 e z i # 10

11 Beispiel: Berechnen von konkreten Wahrscheinlichkeiten Die Summe des Logits für eine Person ohne Kinder im Haushalt sowie mit durchschnittlichem Alter und durchschnittlicher sportlicher Betätigung ist B alter10_z, spomo_z, Kinder, Konstante -, , *0, *0, *0, = -0, Die Wahrscheinlichkeit, zu rauchen, ist dann: 1 0,393 ( 0,933) also ca. 39,0% 1 e Achtung: Wenn wenige Nachkommastellen berücksichtigt werden, kann die errechnete Wahrscheinlichkeit leicht deutlich kleiner oder größer werden! (Dies ist hier jedoch nicht der Fall). # 11

12 Berechnen von konkreten Wahrscheinlichkeiten Dieselbe Person, aber mit Kindern im Haushalt: -0, *0, *0, *0, = -0,740. B alter10_z, spomo_z, Kinder, Konstante -, Die Wahrscheinlichkeit, Raucher zu sein, ist dann: 1 e 1 ( 0,740) 0,323 also ca. 32,3%. Vorsicht: Das Vorzeichen für die Summe der Logits dreht sich gemäß Formel um! 1 y 1 e x # 12

13 Berechnen von konkreten Wahrscheinlichkeiten B alter10_z, spomo_z, Kinder, Konstante -, Die Summe des Logits für jemanden der 10 Jahre älter als der Durchschnitt ist, eine Stunde pro Monat mehr Sport als der Durchschnitt macht und mit Kindern im Haushalt lebt ist -0, *0, *0, *0, = -0,603. Die Wahrscheinlichkeit, zu rauchen, ist dann: 1 e 1 ( 0,603) 0,354 also ca. 35,4% # 13

14 Berechnen von konkreten Wahrscheinlichkeiten B alter10_z, spomo_z, Kinder, Konstante -, Die Summe des Logits für jemanden der 30 Jahre älter als der Durchschnitt ist, 10 Stunden pro Monat weniger Sport als der Durchschnitt macht und mit Kindern im Haushalt lebt ist -0, *0, *0, *0, = -0,735. Die Wahrscheinlichkeit, zu rauchen, ist dann: 1 e 1 ( 0,735) 0,324 also ca. 32,4% # 14

15 Wiederholung Interpretation lineare Regression Zentrierung Das Haushaltseinkommen soll durch das Alter, die Arbeitszeit und das Geschlecht erklärt werden. Das Modell basiert auf folgender Syntax: *Vorbereiten der UV Arbeitszeit, Geschlecht und Alter. compute alter10_z1=((2015-v56) )/10. var lab alter10_z1 'Alter in Jahrzehnten zentriert'. compute arbz=v51. if v50=2 arbz=0. compute arbz_z=arbz var lab arbz_z 'Arbeitszeit zentriert'. recode v55 (1=0) (2=1) into frau. var lab frau Frau. *Modell. regression /dependent eink_imputiert /method=enter alter10_z1 frau arbz_z. *AV Einkommen vorbereiten. comp eink_imputiert=v53. if v54=2 eink_imputiert=375. if v54=4 eink_imputiert=875. if v54=8 eink_imputiert=2125. if v54=9 eink_imputiert=2375. if v54=10 eink_imputiert=2625. if v54=11 eink_imputiert=2875. if v54=14 eink_imputiert=4250. if v54=15 eink_imputiert=4750. if v54=19 eink_imputiert=0. # 15

16 Wiederholung Interpretation lineare Regression Zentrierung 9,8 Prozent der Varianz des individuellen Einkommens werden durch die unabhängigen Variablen erklärt. R- Angepasstes Standardfehler R Quadrat R-Quadrat der Schätzung,313 a,098, ,149 Nicht standardisierte Standardisierte Koeffizienten Koeffizienten B Standardfehler Beta t Sig. (Konstante) 2605,878 91,417 28,505,000 Alter in Jahrzehnten zentriert 132,079 46,892,103 2,817,005 Frau 105, ,670,033,878,380 Arbeitszeit zentriert 26,303 3,112,315 8,451,000 Um 10 Jahre ältere Personen haben ein um 132 Euro Höheres Haushaltseinkommen. Dieser Effekt ist mit p=0,005 hoch signifikant. Männer haben im Schnitt ein um 106 Euro monatlich geringeres Haushaltseinkommen als Frauen. Dieser Effekt ist mit p=0,380 nicht signifikant. Personen die wöchentlich eine Stunde mehr arbeiten erhalten 26 Euro monatlich mehr Haushaltseinkommen. Dieser Effekt ist mit p=0,000 höchst signifikant. Der betragsmäßig größte Koeffizient in der Spalte Beta gibt den stärksten Effekt an. Hier hat die Arbeitszeit mit Beta=0,315 den stärksten Effekt. # 16

17 Wiederholung Interpretation lineare Regression Zentrierung Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. (Konstante) 2605,878 91,417 28,505,000 Alter in Jahrzehnten zentriert 132,079 46,892,103 2,817,005 Frau 105, ,670,033,878,380 Arbeitszeit zentriert 26,303 3,112,315 8,451,000 Interpretation der Konstanten: Männer, mit durchschnittlichem Alter und durchschnittlicher Arbeitszeit, haben im Mittel ein Haushaltseinkommen von 2605,9 Euro. Die Konstante lässt sich dank der Zentrierung als Ausprägung der abhängigen Variable für durchschnittliche Ausprägungen der zentrierten unabhängigen Variablen für Personen die der Referenzkategorie angehören interpretieren. Wenn nicht zentriert wäre, enthielte die Konstante Informationen über 0 Jahre alte Personen die 0 Stunden Erwerbsarbeit verrichten! # 17

18 Wiederholung Interpretation lineare Regression Nichtlinearer Effekt Modell mit Quadratischem Alterseffekt Compute alter10_z_quad=alter10_z1*alter10_z1. Regression /dependent eink_imputiert /method=enter alter10_z1 alter10_z_quad frau arbz_z. Modellübersicht Angepasstes Standardfehler Modell R R-Quadrat R-Quadrat der Schätzung 1,333 a,111, ,22280 Das Modell ist nur wenig besser als das vorige Modell. Der Wert des korrigierten r 2 verändert sich von 0,094 auf 0,106. # 18

19 Wiederholung Interpretation lineare Regression Nichtlinearer Effekt Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. (Konstante) 2766, ,208 26,801,000 Alter in Jahrzehnten zentriert 193,016 50,177,150 3,847,000 Alter in Jahrzehnten zentriert quadriert -104,568 30,015 -,130-3,266,001 Frau 97, ,897,031,817,414 Arbeitszeit zentriert 23,665 3,195,283 7,406,000 Da der quadratische Effekt ein negatives Vorzeichen hat, ist der Alterseffekt umgekehrt U-förmig. Der lineare Effekt ist mit p=0,000 höchst signifikant Der quadratische Effekt ist mit p=0,001 hoch signifikant # 19

20 Wiederholung Interpretation lineare Regression Nichtlinearer Effekt Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. (Konstante) 2766, ,208 26,801,000 Alter in Jahrzehnten zentriert 193,016 50,177,150 3,847,000 Alter in Jahrzehnten zentriert quadriert -104,568 30,015 -,130-3,266,001 Frau 97, ,897,031,817,414 Arbeitszeit zentriert 23,665 3,195,283 7,406,000 Um herauszufinden, bei welchem Alter das Haushaltseinkommen am größten ist, muss die erste Ableitung nach dem Alter gleich Null gesetzt werden: β 1 Alter + β 2 Alter 2 Erste Ableitung nach Alter: β β 2 Alter = 0 2 β 2 Alter = β 1 Alter = β 1 2 β 2 = 193,016 2 ( 104,568) = 0,923 Personen, die 9,2 Jahre älter als der Durschnitt (40,9 Jahre) sind haben das höchste Haushaltseinkommen. # 20

21 Wiederholung Interpretation lineare Regression Nichtlinearer Effekt Nicht standardisierte Koeffizienten Standardisierte Koeffizienten B Standardfehler Beta t Sig. (Konstante) 2766, ,208 26,801,000 Alter in Jahrzehnten zentriert 193,016 50,177,150 3,847,000 Alter in Jahrzehnten zentriert quadriert -104,568 30,015 -,130-3,266,001 Frau 97, ,897,031,817,414 Arbeitszeit zentriert 23,665 3,195,283 7,406,000 Interpretation der Konstanten Männer mit durchschnittlichem Alter und durchschnittlicher Arbeitszeit haben ein Haushaltseinkommen von 2766 Euro im Monat. # 21

22 Organisatorisches Klausur und Tutorientermine Die Klausur findet am um 10 Uhr ausschließlich im Hörsaal A 140 im Hauptgebäude statt. Die Klausur findet nicht in der Oettingenstraße statt! Bringen Sie zur Klausur sowie zu den Übungen und Tutorien einen Taschenrechner mit! 22

23 Übungsaufgabe Haben ältere, verheiratete und höher gebildete Personen eher Kinder? Replizieren Sie das Übungsbeispiel zur Wahrscheinlichkeit Kinder zu haben von letzter Woche und rechnen Sie eine Regression mit den Einflussvariablen Alter, hohe Bildung und dem Familienstand (verheiratet). Berechnen Sie die Wahrscheinlichkeit, dass jemand, der 25 Jahre alt, höher gebildet und nicht verheiratet ist, Kinder hat. Berechnen Sie die Wahrscheinlichkeit, dass jemand, der 40 Jahre alt, nicht höher gebildet und verheiratet ist, Kinder hat. # 23

24 Literatur Backhaus, Klaus u.a. (2005): Multivariate Analysemethoden, 11. Aufl. Berlin u.a.: Springer, Kapitel 7. Bühl, Achim (2006): SPSS 14. Einührung in die moderne Datenanalyse, 10. Aufl. München: Pearson, S. 372ff. Greene, William (1993): Ecomometric Analysis. 2nd ed., New York, Kap. 21. Long, Scott und Jeremy Freese (2006): Regression Models for Categorial Dependent Variables, College Station, Texas: Stata Press, Kapitel 4. # 24

25 Alter N Mittelwert Gültig 775 Fehlend 87 Standardfehler des Mittelwertes Median Modus Standardabweichung Varianz Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Spannweite Minimum Maximum Summe 40,8645, , ,00 12, ,952,494,088 -,317,175 57,00 19,00 76, ,00 # 25