Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Ähnliche Dokumente

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

Fortgeschrittene Statistik Logistische Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Binäre abhängige Variablen

Zeichen bei Zahlen entschlüsseln

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Kontingenzkoeffizient (nach Pearson)

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Korrelation - Regression. Berghold, IMI

Professionelle Seminare im Bereich MS-Office

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Theoretische Grundlagen der Informatik WS 09/10

Beispiel Zusammengesetzte Zufallsvariablen

Willkommen zur Vorlesung Statistik

Tutorial: Homogenitätstest

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Varianzanalyse (ANOVA: analysis of variance)

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

1.3 Die Beurteilung von Testleistungen

Statistische Auswertung:

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Webergänzung zu Kapitel 10

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Statistische Thermodynamik I Lösungen zur Serie 1

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Berechnung der Erhöhung der Durchschnittsprämien

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Repetitionsaufgaben Wurzelgleichungen

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Einfache statistische Auswertungen mit dem Programm SPSS

Statistik II für Betriebswirte Vorlesung 2

Multinomiale logistische Regression

Primzahlen und RSA-Verschlüsselung

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Simplex-Umformung für Dummies

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Data Mining: Einige Grundlagen aus der Stochastik

Quantitative Methoden der Bildungsforschung

Kreativ visualisieren

Statistik für Studenten der Sportwissenschaften SS 2008

4. Erstellen von Klassen

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

8. Berechnung der kalkulatorischen Zinsen

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Quantilsschätzung als Werkzeug zur VaR-Berechnung

Lineare Gleichungssysteme I (Matrixgleichungen)

Lineare Gleichungssysteme

Darstellungsformen einer Funktion

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Korrelation (II) Korrelation und Kausalität

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Einfache Varianzanalyse für abhängige

5 Zusammenhangsmaße, Korrelation und Regression

QM: Prüfen -1- KN

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Interne und externe Modellvalidität

Simulation (vormals Feldversuch) Cico im Gelenkbus

9. Schätzen und Testen bei unbekannter Varianz

Umgekehrte Kurvendiskussion

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Überblick über die Verfahren für Ordinaldaten

R ist freie Software und kann von der Website.

1 Mathematische Grundlagen

Der Leverage-Effekt wirkt sich unter verschiedenen Umständen auf die Eigenkapitalrendite aus.

einfache Rendite

Prozentrechnung. Klaus : = Karin : =

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

XONTRO Newsletter. Makler. Nr. 16

Transkript:

Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I

Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung des Modells Maximum-Likelihood-Schätzung Interpretation der Koeffizienten Modellgüte Beispiel mit SPSS Literatur Übungsaufgabe # 2

Ergänzung zu letzter Sitzung: Interpretation nichtlineare Effekte B Sig. Konstante 30,716 0,000 Index ungesunde Ernährung zentriert 0,441 0,094 Frau -0,566 0,210 Psychische Gesundheit: Mittelmäßig -1,780 0,023 Gut/Sehr gut -2,487 0,001 Pro-Kopf-Einkommen in 100 zentriert -0,095 0,004 Sport: 2- bis 4mal pro Monat -1,020 0,054 mehrmals pro Woche -2,347 0,000 Alter zentriert 0,114 0,000 zentriertes Alter quadriert -,004,001 Der Alterseffekt ist umgekehrt u-förmig Um herauszufinden, bei welchem Alter der BMI am größten ist, muss die erste Ableitung nach dem Alter gleich Null gesetzt werden: β 0 + β 1 x 1 + β 2 x 2 +β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + β 7 x 7 + β 8 x 8 + β 9 x 82 Erste Ableitung nach Alter (x 8 ): β 8 + 2β 9 x 8 = 0 2 β 9 x 8 = β 8 x 8 = β 8 2 β 9 = 0,114 2 ( 0,0040615) = 14,034 Personen, die 14,0 Jahre älter als der Durschnitt (40,8 Jahre) sind haben das höchste Einkommen. # 3

Anwendungsbereich Bisher: Betrachtung der linearen Regression zur Untersuchung des Zusammenhangs metrischer abhängiger und metrischer oder dichotomer unabhängiger Variablen. Häufig ist die abhängige Variable in der Soziologie aber nicht metrisch, sondern dichotom. Beispiele für dichotome abhängige Variablen: Raucher ja/nein Begehen eines Gewaltdelikts ja/nein arbeitslos / nicht arbeitslos verheiratet / unverheiratet Wahlbeteiligung ja/nein # 4

Anwendungsbereich In diesem Fall ist die OLS-Regression nicht angemessen. Die logistische Regression stellt ein Verfahren dar, welches die adäquate Analyse dichotomer abhängiger Variablen erlaubt. Die unabhängigen Variablen müssen auch hier metrisch oder dichotom sein. # 5

Entwicklung des Modells Verschiedene Gründe sprechen gegen die Verwendung der OLS-Regression bei der Analyse dichotomer abhängiger Variablen, obwohl sie auf den ersten Blick geeignet erscheinen mag. Das lineare Regressionsmodell ist prinzipiell für den Wertebereich [- ;+ ] definiert, eine Wahrscheinlichkeit kann aber nur Werte zwischen 0 und 1 annehmen. Der Fehlerterm ist nicht homoskedastisch. Dies lässt sich grafisch leicht verdeutlichen: Y 1 u i ui u i 0 X # 6

Entwicklung des Modells Weitere Probleme des linearen Modells: Die Residuen sind nicht normalverteilt. Außerdem ist aus inhaltlichen Gründen die Annahme eines linearen Zusammenhangs oft nicht plausibel. Vielmehr ist davon auszugehen, dass es einen zentralen Bereich von X gibt, in dem sich Veränderungen besonders stark auswirken (in dem die Frage nach dem Wert von Y i quasi entschieden wird), während sich Änderungen an den Polen weniger stark auswirken. # 7

Entwicklung des Modells Folgender Kurvenverlauf erscheint daher sinnvoller: P 1 0 X # 8

Entwicklung des Modells Gegeben sei eine dichotome Zufallsvariable Y i, die das Eintreten eines bestimmten Ereignisses bzw. das Vorliegen einer bestimmten Eigenschaft mit dem Wert 1 und das Nicht- Eintreten bzw. das Nicht-Vorliegen der Eigenschaft mit dem Wert 0 erfasst. Yi 1Ereignistritt ein 0 Ereignistritt nicht ein # 9

Entwicklung des Modells Die Wahrscheinlichkeitsverteilung einer solchen Variable ist gegeben als P(Y i = 1) für Ausprägung 1 und 1- P(Y i = 1) für Ausprägung 0. Der Erwartungswert lässt sich dann per Definition berechnen als E ( Yi) P( Yi 1) ) 1 P( Yi 1) 0 [1 P( Yi 1)] E( Yi) P( Yi 1 Diesen Erwartungswert könnte man als lineare Funktion unabhängiger Variablen modellieren, also das bekannte lineare Regressionsmodel verwenden (so genanntes lineares Wahrscheinlichkeitsmodell, LPM). Dies hat aber oben angeführte Nachteile. # 10

Entwicklung des Modells Eine Lösung bietet die logistische Verteilungsfunktion. Diese ist definiert als: Y Y 1 1 e 1 1 e x x x e 1 e x P 1 0 X Überträgt man dies auf die Schätzung des Erwartungswertes ergibt sich das Modell: E ( Yi X i1,..., X im ) P i 1 e 1 ( 0 1Xi1... mxim ) 1 1 e zi # 11

Entwicklung des Modells Die Gleichung ist nicht linear, was die Schätzung schwierig macht. Sie lässt sich aber linearisieren: 1 P i = 1 + e Z i Umformen ergibt: 1 P i = 1 1 1 + e Z = 1 i 1 + e Z i e Z i = P i 1 P i Odds, also Wahrscheinlichkeit, dass Y=1 dividiert durch Gegenwahrscheinlichkeit (Y 1) bzw. P i 1 P i = e Z i= e β 0+β 1 X i1 + +β m Xβ im Logarithmieren führt zu: ln P i 1 P i = β 0 + β 1 X i1 + + β m X im = Z i Den Ausdruck P i /(1-P i ) bezeichnet man als Odds, den Ausdruck ln(p i /(1-P i )) als Log-Odds oder Logit, kurz L. # 12

Entwicklung des Modells Dieses Modell lässt sich mit der OLS-Methode nicht korrekt schätzen. Die OLS-Schätzung funktioniert nur zuverlässig, wenn eine metrische AV vorliegt. Gemessen werden aber nur die Werte 0 und 1. Somit ist das OLS-Verfahren nicht sinnvoll anwendbar. (siehe oben) # 13

Maximum-Likelihood-Schätzung Folglich kommt ein alternatives Schätzverfahren zum Einsatz: Die Maximum-Likelihood-(ML)-Methode. Das ML-Prinzip der Parameterschätzung ist wesentlich allgemeiner anwendbar als das OLS-Prinzip. Es stellt wohl das am weitesten verbreitete Schätzverfahren dar. Grundprinzip der ML-Methode: Bestimme die unbekannten Schätzparameter so, dass die Wahrscheinlichkeit der Beobachtung der gegebenen Werte der abhängigen Variablen so hoch wie möglich ist. # 14

Maximum-Likelihood-Schätzung Schritte bei der ML-Schätzung: Spezifiziere die Beziehung zwischen der abhängigen und den unabhängigen Variablen. Bestimme die so genannte Likelihood -Funktion. Diese ergibt sich bei Unabhängigkeit der abhängigen Variable als Produkt der Dichtefunktionen. L( ) n i 1 f ( yi ; xi) Aufgrund der einfacheren Ausdrücke (Summen statt Produkten) wird die Likelihood logarithmiert und die resultierende Log-Likelihood durch die Wahl der Schätzer maximiert. n l( ) ln f ( ; i 1 yi xi ) Die Maxima der Log-Likelihood-Funktionen sind analytisch nicht zu bestimmen, vielmehr finden Iterationsverfahren zur Approximation Anwendung. # 15

Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzer haben im Falle der logistische Regression folgende Eigenschaften: asymptotisch unverzerrt (Erwartungwert=wahrer Wert), asymptotisch konsistent (je größer die Stichprobe desto näher am wahren Wert) und asymptotisch effizient (Schätzer mit der kleinstmöglichen Varianz) Asymptotisch bedeutet, dass die Eigenschaften nur bei großer Fallzahl zutreffen. Leider gibt es in der Literatur keinen eindeutigen Hinweis, was groß bedeutet. Einige Autoren empfehlen, ML-Schätzer nur mit mehr als 50 Fällen zu berechnen, andere empfehlen mehr als 100 Fälle, wieder andere gehen von 30-50 Fällen pro unabhängiger Variable aus. # 16

Interpretation der Koeffizienten Die Interpretation der Koeffizienten ist leider nicht so einfach wie bei der OLS-Regression. Übliche Herangehensweisen: Richtung des Effekts: Ein positives Vorzeichen des Koeffizienten bedeutet einen positiven Einfluss auf die Log-Odds und damit auf die Wahrscheinlichkeit des Eintretens des Ereignisses. Chancenverhältnise (Odds-Ratios): Exponiert man die Koeffizienten, erhält man die so genannten Odds-Ratios, die sehr häufig berichtet werden. Das Chancenverhältnis besagt, um welchen Faktor sich die Chance (nicht die Wahrscheinlichkeit!) ändert, wenn sich die unabhängige Variable um eine Einheit ändert. # 17

Interpretation der Koeffizienten Chance (Odds) ist definiert als Quotient aus der Wahrscheinlichkeit dafür, dass ein bestimmtes Ereigniss eintritt und der Gegenwahrscheinlichkeit. Überleben des Untergangs der Titanic Gesamt nein Anzahl 1490 Überleben % 67,7% ja Anzahl 711 % 32,3% Gesamt Anzahl 2201 % 100,0% Die Chance (Odds) den Untergang der Titanic zu überleben beträgt also 0,323 / 0,677 = 0,48 Die Chance kann ebenso aus den absoluten Häufigkeiten 711 / 1490 = 0,48 berechnet werden. Die Wahrscheinlichkeit beträgt hier aber 32,3%! Chance Wahrscheinlichkeit! Eine Wahrscheinlichkeit nahe 1 entspricht einer Chance (Odds) von 1 / 0 Eine Wahrscheinlichkeit von 0 entspricht einer Chance (Odds) von 0 / 1 = 0 Bei sehr kleinen Wahrscheinlichkeiten sind Chancen (Odds) und Wahrscheinlichkeiten also näherungsweise identisch. # 18

Interpretation der Koeffizienten Chancen (Odds) sind also keine Wahrscheinlichkeiten! Das Chancenverhältnis (Odds-Ratio) ist definiert als Quotient aus der Chance, dass ein bestimmtes Ereignis in einer Gruppe eintritt und der Chance, dass dieses Ereignis in einer anderen Gruppe eintritt. Die Wahrscheinlichkeitsverhältnisse (Odds-Ratios) lassen sich in einfachen Fällen auch von Hand berechnen. Im folgenden Fall wird ein Einfluss des Geschlechts auf die Wahrscheinlichkeit den Untergang der Titanic zu überleben vermutet: # 19

Interpretation der Koeffizienten Überlebe nde Überleben * Geschlecht Geschlecht Frau Mann Gesamt nein Anzahl 126 1364 1490 % innerhalb von Geschlecht 26,8% 78,8% 67,7% ja Anzahl 344 367 711 % innerhalb von Geschlecht 73,2% 21,2% 32,3% Gesamt Anzahl 470 1731 2201 % innerhalb von Geschlecht 100,0% 100,0% 100,0% Die Chance zu überleben beträgt für Frauen 344/126 = 2,7302. Die Chance zu überleben beträgt für Männer 367/1364 = 0,2691. Folglich ergibt sich das Chancenverhältnis als 2,7302 / 0,2691 = 10,1457. Frauen haben also eine 10 Mal so große Chance zu überleben. Die Wahrscheinlichkeit zu überleben ist für Frauen dagegen nur 3,5 Mal so groß! # 20

Interpretation der Koeffizienten Das Chancenverhältnis lässt keinen Schluss auf die konkrete Höhe der Wahrscheinlichkeit zu. Da es über den gesamten Wertebereich konstant ist, wird es oft berichtet und interpretiert. Chancen und Chancenverhältnisse (Odds-Ratios) werden leicht missverstanden. Achten sie bei der Interpretation also auf exakte Begriffe und eindeutige Formulierungen. Alternative: Interpretation der Richtung des Koeffizienten Graphische Darstellungen Berechnen von Wahrscheinlichkeiten für beispielhafte Fälle ( nächste Sitzung) # 21

Modellgüte Es existiert kein Maß, das dem R² der OLS-Regression exakt entspricht. Allerdings gibt es Maße, deren Definition am Bestimmtheitsmaß orientiert sind. In SPSS werden das Cox-Snell-R² und Nagelkerkes R² ausgegeben. Cox und Snell s R²: R 2 CS L0 1 L1 2 n Mit L 0 : Likelihood des sog. Nullmodells, d.h. ohne Kovariaten und L 1 : Likelihood des betrachteten Modells # 22

Modellgüte R² nach Cox und Snell nimmt Werte zwischen 0 und 1-(L 0 ) 2/n an. Nagelkerkes R² korrigiert den Wertebereich auf [0,1] R 2 N R 2 CS 1 ( L ) 0 2 n Außerdem existiert ein Chi²-Test, welcher prüft, ob ein Modell mit den Kovariaten besser ist als das Nullmodell: Die zweifache Differenz der Log-Likelihood des Nullmodells und des vollen Modells folgt einer Chi²-Verteilung. In SPSS wird dieser Test als Omnibus-Test der Modellkoeffizienten bezeichnet. In der Literatur ist die Bezeichnung Likelihood-Ratio-Test üblich. # 23

Beispiel Modellschätzung mit SPSS Untersucht werden soll, von welchen Faktoren es abhängt, ob eine Person raucht. Als unabhängige Variablen werden betrachtet: Alter Stunden pro Monat Sport treiben # 24

Beispiel Modellschätzung mit SPSS Vorbereiten der abhängigen Variable: recode v24 (1 2 = 1) (3 = 0) into rauch. val lab rauch 0 'Nein' 1 'Ja'. var lab rauch 'Raucher?'. Vorbereiten der unabhängigen Variablen: Alter in Jahrzehnten bilden compute alter10 = (2015 v56)/10. var lab alter10 'Alter in Jahrzehnten'. Sport pro Monat bilden if v19>-77 spomo=v19*4. if v20>-77 spomo=v20. if v17=1 and v18=1 spomo=0. variable level spomo (scale). var lab spomo "Sport pro Monat in Stunden". # 25

Beispiel Modellschätzung mit SPSS Vorbereiten der unabhängigen Variablen: Mittelwert für Zentrierung ermitteln Beschränken auf die Fälle, die auch in die Regression eingehen. Dann Mittelwert für Alter ausgeben lassen. temp. select if alter10 < 10 & rauch < 2 & spomo < 220. mean alter10. Bericht Alter in Jahrzehnten Mittelwert N Standardab weichung 4,0449 683 1,19990 Alter in Jahrzehnten zentrieren compute alter10_z = alter10 4.0449. # 26

Beispiel Modellschätzung mit SPSS Durchführen der Regression: logistic regression rauch /method=enter alter10_z spomo / save pred. Auch bei der logistischen Regression liefert SPSS mehrere Tabellen zur Darstellung der Regressionsergebnisse, die auf den folgenden Folien besprochen werden: 1. Zusammenfassung der Fallverarbeitung : Enthält Angaben über Fallzahlen 2. Codierung abhängiger Variablen : Liegt die AV nicht bereits 0/1- kodiert vor, nimmt SPSS eine Umkodierung vor, über die hier informiert wird 3. Klassifizierungstabelle: Enthält Angaben über die Häufigkeit des interessierenden Merkmals in den Daten. # 27

Beispiel Modellschätzung mit SPSS Nach diesen Informationen folgen Angaben über das Nullmodell, zu interpretieren sind die Ergebnisse des endgültigen Modells ( Block 1 ) 4. Omnibustest der Modellkoeffizienten : Enthält das Ergebnis des Likelihood-Ratio-Tests des Gesamtmodells 5. Modellzusammenfassung : Pseudo-R² 6. Klassifizierungstabelle : Informiert darüber, welcher Anteil von Fällen durch die Regression richtig vorhergesagt würde (zusätzliche Info zur Modellgüte) 7. Variablen in der Gleichung : Enthält Koeffizienten und Odds Ratios # 28

Beispiel Modellschätzung mit SPSS 1 Zusammenfassung der Fallverarbeitung Ungewichtete Fälle a H Prozent Ausgewählte Einbezogen in 683 79,2 Fälle Analyse Fehlende Fälle 179 20,8 Gesamtsumme 862 100,0 Nicht ausgewählte Fälle 0 0,0 Gesamtsumme 862 100,0 Informationen über die in die Regression eingegangenen Fälle 2 Codierung abhängiger Variablen Ursprünglicher Wert Interner Wert,00 Nein 0 1,00 Ja 1 Informationen über die Kodierung der abhängigen Variable. Im Beispiel ist die abhängige Variable bereits 0/1- kodiert # 29

Beispiel Modellschätzung mit SPSS 3 Klassifizierungsstabelle a,b Vorhergesagt Raucher? Prozentsatz Beobachtet,00 Nein 1,00 Ja richtig Schritt 0 Raucher?,00 Nein 449 0 100,0 1,00 Ja 234 0 0,0 Gesamtprozentsatz 65,7 a. Die Konstante ist in das Modell einbezogen. b. Der Trennwert lautet,500 Angabe über die Häufigkeit des interessierenden Merkmals in den Daten. Aus der Tabelle lässt sich schließen, dass 65,7 % der Menschen Nichtraucher sind. Wenn ohne jede weitere Information für eine Vorhersage einfach der häufigste Wert (Nichtraucher) verwendet wird, liegt man in 65,7 % der Fälle richtig. # 30

Beispiel Modellschätzung mit SPSS 4 5 Omnibus-Tests der Modellkoeffizienten Chi- Quadrat df Sig. Schritt 1 Schritt Schritt 21,006 2,000 Block 21,006 2,000 Modell 21,006 2,000 Modellzusammenfassung -2 Log-Likelihood Cox & Snell R-Quadrat Nagelkerkes R- Quadrat 1 856,989,030,042 a. Die Schätzung beendet bei Iteration Nummer 4, weil die Parameterschätzungen sich um weniger als,001 änderten. LR-Chi²-Test: Unabhängige Variablen tragen zur Erklärung der abhängigen Variable bei. Das Modell mit Einflussvariablen ist höchstsignifikant besser als das Nullmodell. Die beiden alternativen R²- Werte deuten auf sehr geringe Modellgüte hin. # 31

Beispiel Modellschätzung mit SPSS 6 Klassifizierungstabelle a Vorhergesagt Raucher? Prozentsatz Beobachtet,00 Nein 1,00 Ja richtig,00 Nein 436 13 97,1 Raucher? 1,00 Ja 212 22 9,4 Schritt 1 Gesamtprozentsatz 67,1 a. Der Trennwert lautet,500 9,4 % derjenigen die rauchen, werden korrekt vorhergesagt, sowie 97,1 % derer, die nicht rauchen. Insgesamt werden 67,1 % korrekt vorhergesagt. Es werden also fast alle als Nichtraucher klassifiziert, was nicht dafür spricht, dass das Modell gut zwischen Rauchern und Nichtrauchern unterscheiden kann (vgl. Tabelle 3 auf Folie 29). # 32

Beispiel Modellschätzung mit SPSS 7 Variablen in der Gleichung B Standar dfehler Wald df Sig. Exp(B) alter10_z,094,068 3,000 1,169 1,098 spomo,030,007 17,951 1,000 1,031 Schritt 1 a Konstante -,967,111 76,025 1,000,380 a. In Schritt 1 eingegebene Variable(n): alter10_zspomo. Vorzeicheninterpretation (Spalte B ): Ältere Personen sind mit höherer Wahrscheinlichkeit Raucher als jüngere Personen. Dieser Effekt ist nicht signifikant. Je mehr Sport getrieben wird, umso größer ist die Wahrscheinlichkeit Raucher zu sein. Dieser Effekt ist höchst signifikant. # 33

Beispiel Modellschätzung mit SPSS 7 Variablen in der Gleichung B Standar dfehler Wald df Sig. Exp(B) alter10_z,094,068 3,000 1,169 1,098 spomo,030,007 17,951 1,000 1,031 Schritt 1 a Konstante -,967,111 76,025 1,000,380 a. In Schritt 1 eingegebene Variable(n): alter10_zspomo. Interpretation der Odds-Ratios (Spalte Exp(B) ): Für eine Person, die 10 Jahre älter ist als eine andere, ist die Chance Raucher zu sein 1,098 mal so groß. Wird um eine Stunde mehr Sport getrieben, ist die Chance zu Rauchen 1,031 mal so groß. # 34

Graphische Darstellung Im ersten Versuch werden die vorhergesagten Wahrscheinlichkeiten in einem Scatterplot gegen die psychische Belastung abgetragen. TEMPORARY. select if spomo<60. GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=spomo PRE_1 MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=usersource(id("graphdataset")) DATA: spomo=col(source(s), name("spomo")) DATA: PRE_1=col(source(s), name("pre_1")) GUIDE: axis(dim(1), label("sport pro Monat in Stunden")) GUIDE: axis(dim(2), label("vorhergesagte Wahrscheinlichkeit Raucher zu sein")) ELEMENT: point(position(spomo*pre_1)) END GPL. # 35

Graphische Darstellung Im ersten Versuch werden die vorhergesagten Wahrscheinlichkeiten in einem Scatterplot gegen die psychische Belastung abgetragen. # 36

Graphische Darstellung Um die Graphik übersichtlicher zu gestalten, sollen die vorhergesagten Wahrscheinlichkeiten nur für bestimmte Altersgruppen geplottet werden. Hierfür wird eine Hilfsvariable gebildet, die für bestimmte Altersgruppen das Alter enthält: compute altera=2015-v56. if altera ne 25 & altera ne 35 & altera ne 45 & altera ne 55 & altera ne 66 altera=-66. missing value altera (-66). variable level altera (ordinal). # 37

Graphische Darstellung TEMPORARY. select if spomo<60. GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=spomo PRE_1 altera MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE. BEGIN GPL SOURCE: s=usersource(id("graphdataset")) DATA: spomo=col(source(s), name("spomo")) DATA: PRE_1=col(source(s), name("pre_1")) DATA: altera=col(source(s), name("altera"), unit.category()) GUIDE: axis(dim(1), label("sport pro Monat in Stunden")) GUIDE: axis(dim(2), label("vorhergesagte Wahrscheinlichkeit Raucher zu sein")) GUIDE: legend(aesthetic(aesthetic.color.exterior), label("")) ELEMENT: point(position(spomo*pre_1), color.exterior(altera)) END GPL. # 38

Graphische Darstellung Im ersten Versuch werden die vorhergesagten Wahrscheinlichkeiten in einem Scatterplot gegen die psychische Belastung abgetragen. # 39

Zusammenfassung wichtiger Aspekte Was sollte ich mir mindestens merken? Zweck: Prüfung des Einflusses mehrerer metrischer oder dichotomer unabhängiger Variablen auf dichotome abhängige Variable ( Drittvariablenkontrolle). Vorgehensweise: Logarithmiertes Verhältnis von Wahrscheinlichkeit, auf abhängiger Variable den Wert 1 zu haben zur Gegenwahrscheinlichkeit wird als linear abhängig von unabhängigen Variablen betrachtet, Modellschätzung mittels Maximum Likelihood. Interpretation: Pseudo-R² und LR-Test zur Beurteilung der Modellgüte. Koeffizienten: Vorzeichen gibt Auskunft über Einflussrichtung. Odds Ratios: Geben Veränderung des Verhältnisses der Odds bei Veränderung der unabhängigen Variable um eine Einheit an. Graphische Darstellung der vorhergesagten Wahrscheinlichkeiten # 40

Literatur Best, Henning; Wolf, Christof (2010): Logistische Regression. Handbuch der sozialwissenschaftlichen Datenanalyse. In: Christof Wolf und Henning Best (Hg.): VS Verlag für Sozialwissenschaften, S. 827 854. Kohler, Ulrich; Frauke Kreuter (2001): Datenanalyse mit Stata, München, S. 255 264. Backhaus, Klaus u.a. (2005): Multivariate Analysemethoden, 11. Aufl. Berlin u.a.: Springer, Kapitel 7. Bühl, Achim (2006): SPSS 14. Einührung in die moderne Datenanalyse, 10. Aufl. München: Pearson, S. 372ff. Greene, William (1993): Ecomometric Analysis. 2nd ed., New York, Kap. 21. Long, Scott und Jeremy Freese (2006): Regression Models for Categorial Dependent Variables, College Station, Texas: Stata Press, Kapitel 4. # 41

Übungsaufgabe Haben ältere, verheiratete und höher gebildete Personen eher Kinder? Untersuchen Sie mit Hilfe der logistischen Regression, welchen Einfluss hohe Bildung (v65), Familienstand = verheiratet (v57) und das Alter (v56) auf die Wahrscheinlichkeit, dass Kinder im Haushalt leben haben (v35). Interpretieren Sie die Modellgüte und die Richtung der Effekte. Um die Effekte besser beurteilen zu können, stellen Sie diese graphisch dar. Bilden Sie hierzu eine Hilfsvariable, die jeweils eine Ausprägung für jede Merkmalskombinationen der beiden kategorialen Variablen enthält. Fügen Sie in die Grafik kubische Anpassungslinien ein. # 42