Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E R E G R E S S I O N M I T D U M M Y - V A R I A B L E N Zentrale Methodenlehre, Europa Universität - Flensburg
Anwendung 2 In welchen Situationen ist die (Binär) logistische Regression anwendbar? Wenn man eine abhängige Variable vorhersagen möchte, die Werte zwischen 0 und 1 liegen oder die Variable dichotom ist, ist die logistische Regression geeignet. Eine dichotome Variable ist eine Variable mit zwei Ausprägungen: Krank oder gesund Bestanden oder durchgefallen Vertrauenswürdig oder unzuverlässig Raucher oder Nichtraucher Erfolg oder Misserfolg Angestellt oder Arbeitslos Ausgezeichnet oder nicht ausgezeichnet OLS Regression ist in diesen Fall nicht geeignet, weil die Interpretation der OLS- Koeffizienten die Dichotomie der abhängigen Variable nicht im Betracht zieht.
Beispiel: Ausgezeichnet 3 Nehmen wir an, man möchte einen Modell bauen, das vorhersagen muss, ob ein Student am Ende eines Semesters ausgezeichnet wird. Um das Modell zu bauen, hat man folgende Informationen: die Mathe-Note von früheren Studierenden (Mathe), Geschlecht (Frau) (1, wenn sie Frauen sind), und die Information, ob die Studierenden ausgezeichnet wurden (Ausgezeichnet) (0: der Studierende wurde nicht ausgezeichnet; 1: der Studierende wurde ausgezeichnet): Wenn man z.b. das OLS-Modell Ausgezeichnet = β 0 + β 1 Mathe berechnen würde, bekommt man das folgende Ergebnis: Die Interpretation der Koeffizient für Mathe sagt uns, dass jeder zusätzliche Punkt Mathe das Merkmal Ausgezeichnet um 0.028 Einheiten erhöht. Diese Interpretation macht aber kein Sinn, weil Ausgezeichnet nur 0 oder 1 sein kann. Interessanter könnte es sein, wenn wir eine Einschätzung der Wahrscheinlichkeit, Ausgezeichnet zu werden, vorhersagen könnten, wenn man eine Mathenote hat. Das kann man mit einer Logistische Regression berechnen.
Grundbegriffe: Odds 4 Grundbegriffe (1): In der Stichprobe in unserem Beispiel gibt es 6 Studierende, die ausgezeichnet wurden. Folgende Begriffe bzw. Definitionen müssen verstanden werden: Die relative Häufigkeit, ausgezeichnet zu sein, lautet f Ausgezeichnet = 6 20 = 0.3 bzw. 30%. Wenn wir eine Population hätten, würden wir über die Wahrscheinlichkeit ausgezeichnet zu werden sprechen: P(Ausgezeichnet) = p. Die relative Häufigkeit, nicht ausgezeichnet zu werden, ist dann f Ausgezeichnet = 0.7 ; In Wahrscheinlichkeitstermen wäre das: P(Ausgezeichnet) = 0.7 = 1-p. Die Odds (Chancen) dafür, ausgezeichnet zu werden, sind wie folgt definiert: Odds dafür (Ausgezeichnet = 1) = p (1 p) = 0.3 0.7 = 3 7 0.43; Mögliche Interpretationen wären: von jede 10 Studierenden werden 3 ausgezeichnet oder die Chancen, ausgezeichnet zu werden, betragen ungefähr 0.43.
Grundbegriffe (2): Grundbegriffe: Odds-Ratio 5 In der Stichprobe in unserem Beispiel sieht die Kreuztabelle der Variablen Frau und Ausgezeichnet wie folgt aus: Folgende Informationen kann man aus der Kreuztabelle ableiten: Prozent der Männer, die ausgezeichnet werden, beträgt 2/10 Prozent der Frauen, die ausgezeichnet werden, beträgt 4/10 Die Odds (dafür), dass einen Mann ausgezeichnet wird, betragen 2/8 (Von 10 Männer werden 2 ausgezeichnet). Die Odds (dafür), dass eine Frau ausgezeichnet wird, betragen 4/6. Die Odds-Ratio (OR), dass eine Frau ausgezeichnet wird (im Vergleich mit Männern), ist OR = (4/6) / (2/8) = 8/3. Das bedeutet, dass die Chancen einer Frau ausgezeichnet zu werden 166% höher sind als die Chancen von einem Mann.
Logit-Transformation 6 Die Logit-Transformation wird definiert als der natürliche Logarithmus der Odds, einen Erfolg zu haben. Gegeben die Wahrscheinlichkeit eines Erfolgs p, ist die Logit-Transformation : Z = Logit p = LN Odds Erfolg = LN p 1 p Mit der Logit-Transformation kann man gültige Werte für p generieren, durch die sogenannte Logistische Funktion: p = 1 1 + e Z
Logistische Regression - Modell 7 Wenn man Werte einer dichotomen Variable Y mit Ausprägungen 0 (Misserfolg) und 1 (Erfolg), durch eine oder mehrere Prädiktoren (erklärende Variablen) x 1, x 2,, x n vorhersagen möchte, wird angenommen, dass es eine lineare Beziehung zwischen den Prädiktoren und dem Logarithmus der Odds (logit Transformation) gibt, dass Y den Wert 1 annimmt. Das heißt: Wobei p = P(Y=1). Z = logit(p) = LN p 1 p = β 0 + β 1 x 1 + + β n x n + u Lass uns eine logistische Regression einsetzen, um vorherzusagen, ob ein Studierender ausgezeichnet wird, wenn man als Prädiktor die Mathe-Note der Studierenden benutzt. Das Modell lautet dann LN p 1 p = β 0 + β 1 Mathe + ε; wobei p = P(Ausgezeichnet = 1) Um das Modell zu berechnen, benutzen wir die Datei klein_beispiel.sav.
Logistische Regression mit SPSS (1) Um das Modell LN p 1 p folgen wir der folgenden Prozedur: Prozedur: 8 = β 0 + β 1 Mathe + u mit SPSS zu berechnen, Datei Klein_Beispiel.sav mit SPSS öffnen. Um eine logistische Regression durchzuführen: Analysieren Regression Binär Logistisch anklicken. Ausgezeichnet als abhängige Variable auswählen. Mathe als Kovariate auswählen. Wenn man eine besondere Methode möchte, dies in der Option Methoden auswählen. Wir lassen den Default Methode Einschluss. OK anklicken. SPSS-Output interpretieren.
Logistische Regression mit SPSS (2) Logistische Regressionsanalyse durchführen: 9 2 1
Logistische Regression mit SPSS (3) 10 Die Logistische Regressionsanalyse erzeugt folgenden Output im Ausgabe-Fenster: 3 1 2 4 3 1 2 3 4 Ergebnis der logistischen Regression ohne Prädiktoren Ergebnis des Unabhängigkeitstests: Wenn der P-Wert < α, dann gibt es einen Zusammenhang zwischen die abhängige (Ausgezeichnet) und unabhängigen Variablen (Mathe). Diese Werte messen die Stärke der Beziehung zwischen Ausgezeichnet und Mathe. Diese Tabelle vergleicht observed (beobachtete) Ausgezeichnet-Werte mit der durch das Modell vorhergesagte Werte für jeden Fall im Datensatz. Hier kann man sehen, in wie viel % der Fälle richtig klassifiziert wurde. Diese Tabelle zeigt die berechnete Koeffizienten des Modells an. In diesem Fall: β 0 und β 1. 4 Ergebnis der logistischen Regression mit Mathe -Prädiktor
Logistische Regression mit SPSS (4) 11 Logistische Regressionsanalyse: Output Anfangsblock Modell ohne Prädiktoren: Das Modell zu berechnen lautet: LN p 1 p = β 0 + u Anzahl der Fälle, die richtig klassifiziert wurden. In diesen Beispiel wurden alle Ausgezeichnet -Studierende falsch klassifiziert. 70% der Fälle wurden richtig klassifiziert. Das Modell berechnet für jeden Fall die Wahrscheinlichkeit p=p(ausgezeichnet = 1) (*). Wenn p < 0.5, wird der Fall als nicht ausgezeichnet klassifiziert. β 0 Das berechnete Modell ist dann logit(p) = 0, 847. (*): Zum Beispiel: Für einen Studierenden mit Mathe=50, ist p = ist p immer 0.3 < 0.5, und deswegen sind alle Fälle als nicht ausgezeichnet klassifiziert. 1+e 1 0.847 =0.3; die Mathe-Information wird hier nicht benutzt; also
Logistische Regression mit SPSS (5) 12 Logistische Regressionsanalyse: Output Anfangsblock Interpretation des Koeffizienten β 0 : β 0 P-Wert e β 0 Die Koeffizienten β i einer logistischen Regression werden nicht direkt interpretiert. Die Interpretation der Koeffizienten wird in Funktion von Odds oder Odds-Ratios vorgenommen. In diesem Fall, in einem Modell ohne Prädiktoren, wird durch die Interpretation von β 0 folgende Frage beantwortet: Was sind die Chancen (Odds), ausgezeichnet zu werden? LN p 1 p = β 0 p 1 p = eβ 0 Odds Ausgezeichnet = 1 = e β 0 = 0.429 Das heißt, die Chancen ausgezeichnet zu werden, sind 0.429 bzw. ca. 3/7 (von 10 Studenten werden 3 ausgezeichnet). Dieser Koeffizient ist auf dem 10%-Niveau signifikant (P-Wert=0,082).
Logistische Regression mit SPSS (6) 13 Logistische Regressionsanalyse: Output Block 1: Güte des Gesamtsmodells, Stärke des Zusammenhangs und Klassifikationstabelle: P-Wert Ergebnis des Tests der Güte des Gesamtsmodells. Die Null-Hypothese (H 0 ) ist in diesen Fall, dass das Modell logit p = β 0 + β 1 Mathe + u kein gültiges Modell ist, um Odds in der Grundgesamtheit dazu, ausgezeichnet zu werden, vorhersagen zu können. Die P-Werte sind alle kleiner als 0.05; das heißt, H 0 kann verworfen werden. Das Modell ist auf dem 5%- Signifikanz Niveau gültig. Die Cox & Snell R-Quadrat und Nagelkerkes R-Quadrat Werte messen die Stärke der Beziehung zwischen Ausgezeichnet und Mathe. Beide Werte sind zwischen 0 und 1, aber können nicht wie die R 2 der OLS Regressionsanalyse interpretiert werden. Es gilt aber: je größer, desto besser, sie nehmen den Wert 1 an, wenn das Modell perfekte Vorhersagen macht. In diesem Beispiel sind beide Werte mittelgroß (nicht so schlecht). Mit der Hinzunahme des Prädiktors Mathe, klassifiziert das Modell jetzt 75% der Fälle richtig (Im Anfangsblock klassifiziert das Modell [ohne Prädiktoren] nur 70% der Fälle richtig). Das Modell mit Mathe klassifiziert jetzt 2 (33.3%) der ausgezeichneten Fälle richtig, ebenso wie alle nicht ausgezeichnete Fälle.
Logistische Regression mit SPSS (7) 14 Logistische Regressionsanalyse: Output Block 1: Interpretation der Koeffizienten: Beide Koeffizienten sind signifikant, aber nicht auf dem 5%-Niveau (P-Wert Mathe = 0.08; P-Wert Konstante =0.07) e β 0=0 bedeutet, dass einen Studierender mit 0 Punkten in Mathe keine Chancen hat, ausgezeichnet zu werden. Um den Koeffizienten β 1 zu interpretieren, fragt man sich, wie die Chancen, ausgezeichnet zu werden, durch jeden zusätzlichen Punkt in der Mathenote beeinflusst wird; zum Beispiel von Mathe=52 zu Mathe=53 Dem Output zufolge haben wir: Für Mathe = 52 logit(p) Mathe=52 = -12 + 0.21*52 Für Mathe = 53 logit(p) Mathe=53 = -12 + 0.21*53 logit(p) Mathe=53 - logit(p) Mathe=52 = 0.21 LN( Odds(Ausgezeichnet = 1) Mathe=53 Odds(Ausgezeichnet = 1) Mathe=52 ) = 0.21 Odds-Ratio(Ausgezeichnet = 1) = e β 1=e 0.21 = 1.227 Das heißt, jeder zusätzliche Punkt in Mathe die Chancen, ausgezeichnet zu werden, um 22.7% erhöht.
Logistische Regression mit SPSS (8) 15 Logistische Regressionsanalyse - Interpretation der e β i Termen für Prädiktor-Variablen: Die Terme e β i - (Odds-Ratios) können folgende Werte aufweisen: < 1 Es gibt einen negativen Zusammenhang zwischen der abhängigen und der unabhängigen Variablen; jede zusätzliche Einheit der unabhängigen Variable senkt die Chancen von Erfolg um 100*(1 - e β i)%; z.b. im Modell LN p 1 p = β 0 + β 1 Mathe + u; wenn e β 1 = 0.92 wäre, würde das bedeuten, dass jeder zusätzliche Punkt in Mathe die Chancen, ausgezeichnet zu werden, um 100*(1-0.92)% = 8% senkt. e β i = 1 Es gibt keinen Zusammenhang zwischen der abhängigen und der unabhängigen Variablen; jede zusätzliche Einheit der unabhängigen Variable beeinflusst die Chancen von Erfolg nicht. > 1 Es gibt einen positiven Zusammenhang zwischen der abhängigen und der unabhängigen Variablen; jede zusätzliche Einheit der unabhängigen Variable erhöht die Chancen von Erfolg im 100(e β i -1)%; Das ist der Fall bei logit(p) = -12 + 0.21 *Mathe; wobei e 0.21 = 1.227
Logistische Regression mit Dummy-Variablen 16 Wie ändert sich das Ergebnis, wenn man das Geschlecht der Studierenden zum Modell addiert: LN p 1 p Frau eine Dummy-Variable ist ; In SPSS: Prozedur: = β 0 + β 1 Mathe + β 2 Frau + u ; wobei Datei Klein_Beispiel.sav mit SPSS öffnen. Um eine logistische Regression durchzuführen: Analysieren Regression Binär Logistisch anklicken. Ausgezeichnet als abhängige Variable auswählen. Mathe und Frau als Kovariaten auswählen. Wenn man eine besondere Methoden möchte, dies in der Option Methoden auswählen. Wir lassen die Default Methode Einschluss. OK anklicken. SPSS-Output interpretieren.
Logistische Regression mit Dummy-Variablen (2) 17 Die Logistische Regressionsanalyse erzeugt folgenden Output im Ausgabe-Fenster: Der Anfangsblock wird hier nicht angezeigt. Es gibt keinen Unterschied mit dem, was im Folie 10 gezeigt wurde: Das Ergebnis eines Modells ohne Prädiktoren. 1 2 1 2 3 Das Ergebnis des Omnibus-Tests (Güte des Gesamtsmodells) zeigt, dass das Modell mit Frau und Mathe gültig für die Population ist auf einem 6% Signifikanzniveau (P-Wert = 0.06). Im Vergleich mit dem Modell LN einen Pseudo-R 2 p 1 p = β 0 + β 1 Mathe + u, das von 0.33 hatte, hat das neue Modell LN β 0 + β 1 Mathe + β 2 Frau + u einen Pseudo-R 2 von 0.354, also eine Verbesserung. Die Klassifikationstabelle zeigt, dass das Modell mit der Dummy- Variablen Frau 80% der Fälle richtig klassifiziert. Das Modell ohne die Dummy-Variable hatte nur 75% der Fälle richtig klassifiziert. p 1 p = 4 3 4 Im Bezug auf die Signifikanz der Koeffizienten, zeigt der Output, dass trotz Verbesserungen des Modells die Dummy-Variable Frau nicht signifikant ist (P-Wert > 0.1), während Mathe nur auf dem 10%-Nivaeu signifikant ist (P-Wert = 0.09), und die Konstante auf dem 7%-Niveau (P-Wert = 0.07). Die mangelnde Signifikanz könnte mit dem geringen Umfang der Stichprobe zusammenhängen: n =20 5 5 Die Referenzkategorie ist in diesem Fall männliche Studenten mit 0 Punkten im Mathe. Das heißt, e β 0= 0 bedeutet, dass männliche Studierende mit Note 0 in Mathe keine Chancen haben, ausgezeichnet zu werden.
Logistische Regression mit Dummy-Variablen (3) 18 Logistische Regressionsanalyse: Output Block 1: Interpretation der Koeffizienten: Ähnlich wie im ersten Modell können wir e β 1 interpretieren: ceteris paribus, die Odds (Chancen) ausgezeichnet zu werden erhöhen sich mit jeden zusätzlichen Punkt in Mathe um 22.7%. Auch wenn der Koeffizient für die Dummy-Variablen β 2 nicht signifikant ist, kann man e β 2 als einen Odds-Ratio interpretieren: Die Odds (Chancen), dass eine weibliche Studentin ausgezeichnet wird, im Vergleich mit einen männlichen Studenten: Für Frau = 0 logit(p) Mann = -12.5 + 0.21*Mathe Für Frau = 1 logit(p) Frau = -12.5 + 0.21*Mathe + 0.755*1 logit(p) Frau - logit(p) Mann 0.75 LN( Odds(Ausgezeichnet = 1) Frau Odds(Ausgezeichnet = 1) Mann ) = 0.755 Odds-Ratio(Ausgezeichnet = 1) = e β 2=e 0.755 = 2.127 Das heißt, ceteris paribus, dass die Chancen einer weiblichen Studentin, ausgezeichnet zu werden, ca. 113% höher sind als die von männlichen Studenten.
Übung 1 19 Übung 1: Mit der Datei ausgezeichnet.sav: 1. Wie hoch sind die Odds, ausgezeichnet zu werden, wenn man ein logistisches Modell ohne erklärende Variablen hat? Wie viel % der Fälle werden mit diesem Modell richtig vorhergesagt? 2. Berechnen Sie folgende Odds, ohne eine logistische Regression durchzuführen: 1. Odds, dass ein Mann ausgezeichnet wird. 2. Odds, dass eine Frau ausgezeichnet wird. 3. Odds-ratio, dass eine Frau ausgezeichnet wird, verglichen mit männlichen Studenten. 3. Führen Sie eine logistische Regression mit der Variablen Frau als erklärender Variable durch. Interpretieren Sie die Koeffizienten der logistischen Regression und vergleichen Sie sie mit den Ergebnissen zu Frage 2. Wie viel % der Fälle werden mit diesem Modell richtig vorhergesagt? 4. Führen Sie eine logistische Regression mit der Variablen Mathe als erklärende Variable durch. Interpretieren Sie die Koeffizienten der logistischen Regression. Wie viel % der Fälle werden mit diesem Modell richtig vorhergesagt? 5. Führen Sie eine logistische Regression mit allen Variablen durch und interpretieren Sie die Koeffizienten.
Übung 2 20 Übung 2: Mit der Datei Margarine_Problem.sav: Berücksichtigen wir folgende Variablen, um den Kauf eine bestimmter Margarinemarke vorherzusagen (Quelle: Backhaus, Multivariate Analysemethoden) käufer: Käufer von Margarine. Käufer = 0: Kunde hat die Margarine nicht gekauft. Käufer = 1: Kunde hat die Margarine gekauft. streichf: Margarinestreichfähigkeit und ihre Bedeutung als Grund für den Margarinekauf. Streichf = 1: Geringe Kaufbedeutung bis Streichf = 7: Hohe Kaufbedeutung haltbark: Margarineshaltbarkeit und ihre Bedeutung als Grund für den Margarinekauf. haltbark= 1: Geringe Kaufbedeutung bis haltbark = 7: Hohe Kaufbedeutung Führen Sie eine logistische Regression durch, um den Effekt der Variablen Streichf und haltbark auf die Kaufentscheidung bei der Margarine zu untersuchen.