Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62
Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62
Der Erklärungsgegenstand Soziale Forschungsgegenstände sind häufig eher diskreter/qualitativer Natur als metrischer/quantitativer Art: Elternschaft Heirat Scheidung Eintritt/Austritt in/aus Arbeitslosigkeit Einkommensverluste bis unter die Armutsgrenze Wahl einer bestimmten Partei/Person Begehen einer Straftat... 3 / 62
Der Erklärungsgegenstand Auf Ebene der Variablenumsetzung...... nehmen soziale Erklärungsgegenstände dieser Art die Form einer dichotomenen Variable an... weisen soziale Erklärungsgegenstände dieser Art die numerischen Werte 0 und 1 auf. Vorteile: 1 Der Mittelwert gleicht dann dem Anteil der Fälle, welche den Wert 1 aufweisen. 2 Der Mittelwert kann dann als Wahrscheinlichkeit interpretiert werden. 4 / 62
Multiple Regression? Naive Vorüberlegung - Verwendung linearer Regression: scheinbar brauchbare Interpretation zugrunde liegende Funktionsform wird als linear angenommen Probleme: nicht-lineare Funktionsform Verletzung weiterer Modellprämissen der linearen Regression 5 / 62
Multiple Regression? 6 / 62
Multiple Regression? 7 / 62
Multiple Regression? Zwischenresümee I: Eine lineare Funktionsform für die Abbildung des Zusammenhangs anzunehmen ist unangemessen. Jegliche lineare Funktionsgleichung wird die Grenzwerte (0 & 1) wahrscheinlich über-/unterschreiten. 8 / 62
Funktionsform? 9 / 62
Funktionsform? 10 / 62
Multiple Regression? Zwischenresümee II: Der Zusammenhang zwischen quantitativen/qualitativen unabhängigen Merkmalen und einem dichotomen abhängigen Merkmal wird durch eine S-Form adäquat abgebildet. Charakteristika: Annähernd linearer Zusammenhang im mittleren Bereich der statistischen Beziehung Kleiner werdende Effekte (bei einem Fortschreiten auf der unabhängigen Variable um eine Einheit) in den Grenzbereichen des statistischen Zusammenhangs. 11 / 62
Probleme stat. Inferenz Ausgangspunkt: Eine Dummy-Variable kann lediglich zwei numerische Werte (0/1) annehmen. Dementsprechend, können auch nur zwei Residualwerte für jeden X-Wert vorliegen. 1 (b 0 + b 1 X i ), wenn Y i = 1 0 (b 0 + b 1 X i ), wenn Y i = 0 Folgen: 1. Verletzung der Annahme der Normalverteilung der Residuen. 2. Verletzung der Annahme der Homoskedastizität der Residuen. 12 / 62
Logistische Regression Anforderungen an die Transformation von Y: Wertebereich der Vorhersagewerte zwischen 0 und 1 Annahme einer S-förmigen Verlausfskurve Sinkende Effekte von X auf Y an den Enden/Extremen der Verlaufskurve 13 / 62
Logistische Regression Lösung: L i = ln[p i /(1 P i )] Mit: P i : Wahrscheinlichkeit des Eintretens des Ereignisses i Vorgehen: 1 Bildung der Odds 2 Logarithmierung der Odds 14 / 62
Odds Odds drücken die Chance, des Eintreten eines Ereignisses, im Verhältnis zu dem Nicht-Eintreten des Ereignisses auf. Formal: Mit: O i = P i /(1 P i ) P i : Wahrscheinlichkeit des Eintretens des Ereignisses i 15 / 62
Odds Charakteristika: P i 0.01 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.99 1 - P i 0.99 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.01 Odds 0.01.111 0.25 0.429 0.667 1 1.5 2.33 4 9 99 Ist die Wahrscheinlichkeit des Eintretens und des Nicht-Eintretens eines Ereignisses gleich groß, nehmen Odds den Wert 1 an. keine numerische Obergrenze von 1 immer noch: numerische Untergrenze von 0 16 / 62
Odds Interpretation Odds > 1 geben an, dass es wahrscheinlicher ist, dass das Ereignis eintritt als dass es nicht eintritt. Odds von 1 geben an, dass auf ein Nicht-Eintreten des Ereignisses ein Eintreten des Ereignisses zu erwarten ist. Odds < 1 geben an, dass es wahrscheinlicher ist, das das Ereignis nicht eintritt als dass es eintritt. 17 / 62
Odds Ratio Vergleich von Odds Da Odds proportional ansteigen, können sie per Division miteinander verglichen werden: Es gilt: Odds Ratio = O i O j Odds Ratio > 1: die Odds der ersten Gruppe sind um x mal höher als in der zweiten Gruppe Odds Ratio = 1: die Odds der ersten Gruppe und zweiten Gruppe sind gleich Odds Ratio < 1: die Odds der ersten Gruppe sind um x mal geringer als in der zweiten Gruppe 18 / 62
Odds Zwischenresümee: Odds stellen den ersten Transformationsschritt der logistischen Regression dar. Odds liefern eine inhaltlich sinnvolle Interpretation für die Wahrscheinlichkeit von Ereignissen. Odds verfügen über keine numerische Grenze in ihrem Wertebereich von 1 19 / 62
Logarithmierte Odds Die Logarithmierung der Odds eliminiert die untere Grenze im Wertebereich. Formal: Mit: L i = ln[p i /(1 P i )] P i : Wahrscheinlichkeit des Eintretens des Ereignisses i 20 / 62
Logarithmierte Odds Es gilt: Odds zwischen 0 und 1 entsprechen einem negativen Wert der logarithmierten Odds. Odds = 1 entsprechen dem Wert 0 der logarithmierten Odds Odds > 1 entsprechen positiven Werten der logarithmierten Odds 21 / 62
Logarithmierte Odds Charakteristika: P i 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 - P i 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Odds 0.111 0.25 0.429 0.667 1 1.5 2.33 4 9 Logit -2.20-1.39-0.847-0.405 0 0.405 0.847 1.39 2.20 Symmetrie um den Mittelpunkt (Wahrscheinlichkeit von 0.5) Gleiche Änderungen in Wahrscheinlichkeiten führen zu verschiedenen Veränderungen in den Logarithmierten Odds. Keine numerische Ober- oder Untergrenze 22 / 62
Zusammenfassung Linearizing the Nonlinear Die logarithmische Transformation...... eliminiert die obere und untere Grenzwerte der dichotomen Variable Y.... erweitert/streckt die Wahrscheinlichkeiten von Y an seinen Extremwertenen im Verhältnis zu dem Mittelpunkt. Folge: Der vormals nicht-lineare Zusammenhang wurde in einen linearen transformiert. Gleiche Veränderungen in X führen nun zu ähnlichen Effektveränderungen in Y. 23 / 62
Zusammenfassung Linearizing the Nonlinear Die Linearisierung des nicht linearen Zusammenhangs führt zu einer Verschiebung der Interpretation der Koeffizienten weg von Wahrschenlichkeiten hin zu logarithmierten Odds. Vorteil Sparsamkeit: Lineare Zusammenhänge können über einen Koeffizienten charakterisiert werden. Nachteil Verlust einer einfachen, intuitiven Interpretation. 24 / 62
Übersicht Logarithmierte Odds Wahrscheinlichkeiten Odds - linear und additiv - wenig intuitive Bedeutung der Skaleninterpretation - Ausdruck der Beziehung in einem Koeffizienten - nicht linearer, nicht additiver Zusammenhang - intuitive Bedeutung der Skaleninterpretation - mehrere Koeffizienten notwendig; Abhängigkeit des Zusammenhangs vom gewählten Referenzpunkt - Mittelpunkt als möglicher Referenzpunkt - intuitivere Bedeutung der Skaleninterpretation als logarithmierte Odds - multiplikativer Zusammenhang - Ausdruck der Beziehung in einem Koeffizienten 25 / 62
Logarithmierte Odds Die Koeffizienten, welche direkt aus der logistischen Regression beobachtet werden, zeigen die Veränderung in den vorhergesagten logarithmierten Odds hinsichtlich des Eintretens eines Ereignisses, wenn sich der Wert der unabhängigen Variable um eine Einheit erhöht. Die Koeffizienten der logistischen Regression sind äquivalent zur linearen Regression interpretierbar. Sie beziehen sich allerdings auf logarithmierte Odds. 26 / 62
Logarithmierte Odds Unabhängige Dummy-Variablen: Die Steigerung des Werte der unabhängigen Variablen vergleicht - wie in der linearen Regression - die Referenz- und Vergleichsgruppe miteinander. 27 / 62
Odds Expontentialisieren beider Seiten der logistischen Regression löst den Logarithmus auf und bringt so den Einfluss der Variable auf die Odds zum Ausdruck. ln(p/1 P) = b 0 + b 1 X 1 + b 2 X 2 e ln(p/1 P) = e b 0+b 1 X 1 +b 2 X 2 P/1 P = e b 0 e b 1X 1 e b 2X 2 28 / 62
Odds Konsequenzen für die Interpretation: Der Koeffizient spiegelt den Effekt wider, wenn alle anderen Variablen den Wert 1 annehmen. Positive Exponenten schlagen sich in Werten > 1 nieder. Negative Exponenten schlagen sich in Werten < 1 nieder. Es gilt: Koeffizient > 1: die Variable steigert die Odds, dass ein Ereignis eintritt. Koeffizient = 1: die Variable hat keinen Einfluss darauf, dass ein Ereignis eintritt. Koeffizient < 1: die Variable vermindert die Odds, dass ein Ereignis eintritt. 29 / 62
Odds Interpretation in Prozent: Da der Abstand des Koeffizienten von 1 die Stärke des Effektes zum Ausdruck bringen, kann seine Interpretation folgendermaßen variiert werden: % = (e b 1) 100 Ein Koeffizient von 1.14 bringt demnach zum Ausdruck, dass die Odds des Eintretens eines Ereignisses um 14% größer sind bei einem Anstieg der unabhängigen Variable um eine Einheit. 30 / 62
Signifikanztest Signifikanztest STATA: Basis für den Signifikanztest ist die Größe des Koeffizient in Relation zu seinem Standardfehler: Formal: b S b Z-Verteilung! vorausgesetzte Stichprobengröße von mindestens 100 Beobachtungen 31 / 62
Signifikanztest Signifikanztest SPSS: Wald-Statistik als Signifikanztest Grundlage ist die Größe des quadrierten Koeffizienten in Relation zu seinem Standardfehler: Formal: b 2 S b! vorausgesetzte Stichprobengröße von mindestens 100 Beobachtungen! Mit größer werdender, absoluten Größe von b leidet der Wald-Test an Präzision. - Lösung: Vergleich der Log Likelihood Ratios der Modelle mit und ohne die erklärende Variable. 32 / 62
Signifikanztest Baysian information criterion (BIC): Ausgangspunkt: Anfälligkeit der Signifikanz in Abhängigkeit des Stichprobenumfang. Folge: Wenig Verlässlichkeit bzgl. Stärke und Relevanz der jeweiligen Signifikanz. Der z-wert sollte Logarithmus des Stichprobenumfangs überschreiten: Formal BIC = z 2 ln(n) 33 / 62
Signifikanztest Interpretation - eine Orientierung (BIC): BIC = 0: BIC 0-2: BIC 2-6: der Einschluss der erklärenden Variablen in das Modell erweist sich als nicht sinnvoll. Signifikanz des Koeffizienten ist in seiner Stärke und Bedeutung schwach Signifikanz des Koeffizienten ist in seiner Stärke und Bedeutung zufriedenstellend BIC 6-10: Signifikanz des Koeffizienten ist in seiner Stärke und Bedeutung stark BIC > 10: Signifikanz des Koeffizienten ist in seiner Stärke und Bedeutung sehr stark 34 / 62
Standardisierte Koeffizienten Die Effekte der logistsichen Regression sind abhängig von der Skalierung der jeweiligen Variablen. Sie sind daher nicht direkt miteinander vergleichbar. Standardisierte Koeffizienten in SPSS: Partieller Korrelationskoeffizient abgleitet aus der Waldstatistik und dem baseline log likelihood ratio Wertebereich zwischen -1 und +1 35 / 62
Ein Beispiel Erklärungsgegenstand ist der Umstand, ob eine Person raucht (1) oder nicht (0). Insgesamt gehen vier Merkmale in die Modellierung ein: Bildung (in Jahren) Alter Geschlecht (Frau: 1; Mann: 0) Famlienstand (Verheiratet: 1; nicht verheiratet: 0) Datengrundlage ist der General Social Survey (GSS) 1994 36 / 62
Ein Beispiel Auszug aus dem SPSS-Output Variable B S.E. Wald df Sig. B Exp(B) Bildung -0.2085 0.0382 29.8742 1 0.0000-0.2153 0.8118 Alter -0.0341 0.0067 26.1222 1 0.0000-0.2003 0.9665 Familienstand -0.03746 0.2112 3.14441 1 0.0762-0.0436 0.6875 Geschlecht 0.0964 0.2126 0.2056 1 0.6502 0.000 1.1012 Konstante 3.3666 0.6478 27.0112 1 0.0000 37 / 62
MLH Als optimale Schätzer für α und β gelten die Werte, welche die beobachteten Werte von Y in der Stichprobe mit der höchsten Wahrscheinlichkeit reproduzieren. OLS: Minimierung der Residuenquadrate Iteratives Schätzverfahren: Verschiedene Parameterwerte werden schrittweise ausprobiert. Das Vorgehen wird dann abgebrochen, wenn sich die Wahrscheinlichkeit, die Daten zu reproduzieren im Vergleich zum vorigen Iterationsschritt nicht mehr gesteigert wird. 38 / 62
MLH Der Likelihood-Wert für die beobachtete Y-Verteilung im Sample... N = n 1 + n 2 Mit: n 1 : Personen, die das Ereignis Y = 1 realisiert haben n 2 : Personen, die das Ereignis Y = 0 realisiert haben 39 / 62
MLH... ergibt sich aus der Multiplikation der Einzelwahrscheinlichkeiten in der Likelihood-Funktion: L(π) = (π 1 )(Y 1 ) (π 2 )(Y 2 ) (π n1 )(Y n1 ) (1 π n1+1 )(Y n1+1 ) (1 π n+2 )(Y n+2 ) (π n1+n2 )(Y n1+n2 ) Mit: π: wahre Wahrscheinlichkeit, mit der eine bestimmte Person das Ereignis Y i = 1 realisiert 1 π: wahre Wahrscheinlichkeit, mit der eine bestimmte Person das Ereignis Y i = 0 realisiert 40 / 62
MLH Alternativ: L(π) = ( n1 i=1 ) (π i )(Y i ) ( n1 +n 2 i=n 1 +1 ) (1 π i )(1 Y i ) Durch Logarithmierung ist die so genannte Log-Likelihood-Funktion definiert als: ( n1 ) ( n1 ) +n 2 LL(π) = ln(π i )(Y i ) ln(1 π i )(1 Y i ) i=1 i=n 1 +1 41 / 62
MLH Die wahre Wahrscheinlichkeit π, mit der eine bestimmte Person das Ereignis Y i = 1 realisiert wird berechnet durch: π i = P i = βk e(α+ X kj ) 1+e (α+ β k X kj ) häufige Verwendung des 2 LL Das Maximum der Schätzung ist hier dann erreicht, wenn der absolute Wert von 2 LL am geringsten ist 42 / 62
MLH Beispiel eines Iterationsprotokolls Iteration 2 LL Regressionskoeffizient b i Schritt 1 2648.125 0.343 Schritt 2 2607.061 0.468 Schritt 3 2606.116 0.491 Schritt 4 2606.115 0.492 Schritt 5 2606.115 0.492 43 / 62
MLH Parameter aus dem Vorgehen der ML-Schätzung sind asymptotisch: konsistent effizient normalverteilt 44 / 62
R 2 Grundlegend: Die -2LL des Modells ohne erklärende Variablen (L0) ist ein Äquivalent für die Streuung insgesamt. Die -2LL des Modells mit erklärenden Variablen (L1) ist ein Äquivalent für die die nicht erklärte Streuung. McFaddens Pseudo-R 2 : R 2 = [( 2lnL0) ( 2lnL1)]/( 2lnL0) Wertebereich zwischen 0 und 1 Nachteil: Kann den Wert 1 nicht erreichen. 45 / 62
R 2 Cox & Snells R 2 : R 2 = ([( 2lnL0) ( 2lnL1)]/( 2lnL0)) 2 N Wertebereich zwischen 0 und 1 Nachteil: Kann den Wert 1 ebenfalls nicht erreichen. 46 / 62
R 2 Nagelkerkes R 2 : R 2 = R2 R 2 max Wertebereich zwischen 0 und 1 Kann den Wert 1 erreichen. = R 2 ([( 2lnL0) ( 2lnL1)]/( 2lnL0)) 2 N 47 / 62
R 2 Resümee: Die Maße zur Bewertung der in der logistischen Regression beziehen sich nicht (!) auf die Varianz im Sinne der quadrierten Abweichungsquadrate. Sie stellen lediglich ähnliche Maße zu denen der linearen Regression dar (daher: Pseudo-R 2 ). Bisher besteht kein eindeutiger Konsens über das beste Maß zur Bewertung der. Wider der gängigen Praxis ist bei der Interpretation der verschiedenen Maße relative Zurückhaltung angebracht. 48 / 62
Güte der Klassifikationsergebnisse Grundidee: Verlgeich der empirisch beobachteten Gruppenzuordnungen mit denen der vorhergesagten Gruppenzuordnungen. Vorgehen: 1. Berechnung der Wahrscheinlichkeit durch die logistische Regression. 2. Zuweisungsregel: { Gruppe y = 1 fallsp k > 0, 5 y k = Gruppe y = 0 fallsp k < 0, 5 49 / 62
Güte der Klassifikationsergebnisse 3. Klassifikationsmatrix Vorhergesagt Beobachtet 0 1 Prozent richtig 0 349 20 94.58 1 112 29 20.57 Prozent insgesamt 74.12 50 / 62
Güte der Klassifikationsergebnisse 4. Beurteilung a. Begutachtung des Prozentsatzes richtig vorhergesagter Gruppenzugehörigkeit singulär Wert = 100%: Perfekte Modellanpassung. Wert = 50%: Inakzeptable Modellanpassung b. Begutachtung des Prozentsatzes richtig vorhergesagter Gruppenzugehörigkeit im Vergleich zum Nullmodell Es gilt: Je größer der prozentualle Zuwachs, desto sinnvoller ist der Einschluss der gewählten Variablen ins Modell 51 / 62
Literaturhinweise Pampel, F. C. (2000): Logistic Regression: A Primer. Sage University Papers 132, Series on Quantitative Applications in the Social Sciences. Sage: Thousand Oaks. Menard, S. (2001): Applied Logistic Regression Analysis. Sage University Papers 106, Series on Quantitative Applications in the Social Sciences. Sage: Thousand Oaks. Kapitel zur logistischen Regression aus dem Handbuch der sozialwissenschaftlichen Datenanalyse von Wolf/Best. 52 / 62
SPSS Analysieren Regression binär logistische Regression 53 / 62
SPSS 54 / 62
STATA Befehlssequenz zur Ausgabe der Effekte auf die Logarithmierten Odds: logit av uvs Z.B.: logit Abtreibung Kirchgangshäufigkeit Leben n Tod Einkommen Befehlssequenz zur Ausgabe der Effekte auf die Odds: logistic av uvs Z.B.: logistic Abtreibung Kirchgangshäufigkeit Leben n Tod Einkommen 55 / 62
Übung 56 / 62
Übung Determinanten für das Vorhandensein von Kindern (ja/nein) 57 / 62
Übung Determinanten für Arbeitslosigkeitserfahrungen (ja/nein) 58 / 62
Übung Determinanten für Arbeitslosigkeitserfahrungen (ja/nein) 59 / 62
Übung Determinanten für Arbeitslosigkeitserfahrungen (ja/nein) 60 / 62
Übung Determinanten der Befürwortung von Abtreibung (ja/nein) 61 / 62
Übung Determinanten der Befürwortung von Abtreibung (ja/nein) 62 / 62
Übung Determinanten der Befürwortung von Abtreibung (ja/nein) 63 / 62