Fortgeschrittene Statistik Logistische Regression

Ähnliche Dokumente

Kommentierter SPSS-Ausdruck zur logistischen Regression

Korrelation (II) Korrelation und Kausalität

Tutorial: Homogenitätstest

Was meinen die Leute eigentlich mit: Grexit?

Professionelle Seminare im Bereich MS-Office

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Theoretische Grundlagen der Informatik WS 09/10

Statistische Auswertung:

Einfache statistische Auswertungen mit dem Programm SPSS

Varianzanalyse (ANOVA: analysis of variance)

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Die Post hat eine Umfrage gemacht

Grundlagen der Inferenzstatistik

UNIVERSITÄT LEIPZIG WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT DIPLOM-PRÜFUNG

Quantitative Methoden der Bildungsforschung

Anleitung über den Umgang mit Schildern

Webergänzung zu Kapitel 10

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Übungen zur Veranstaltung Statistik 2 mit SPSS

Zeichen bei Zahlen entschlüsseln

Kapitalerhöhung - Verbuchung

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

5 Zusammenhangsmaße, Korrelation und Regression

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Nicht über uns ohne uns

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Leichte-Sprache-Bilder

Binäre abhängige Variablen

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

easysolution GmbH easynet Bessere Kommunikation durch die Weiterleitung von easynet-nachrichten per nach Hause

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Erstellen von x-y-diagrammen in OpenOffice.calc

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

EINFACHES HAUSHALT- KASSABUCH

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

ALEMÃO. Text 1. Lernen, lernen, lernen

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Outlook-Daten komplett sichern

Studieren- Erklärungen und Tipps

Was ich als Bürgermeister für Lübbecke tun möchte

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Internet Explorer Version 6

Statuten in leichter Sprache

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).

Berechnung der Erhöhung der Durchschnittsprämien

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Auswertung des Fragebogens zum CO2-Fußabdruck

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Netzwerkeinstellungen unter Mac OS X

Was ist clevere Altersvorsorge?

Die Invaliden-Versicherung ändert sich

Multinomiale logistische Regression

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Adventskalender Gewinnspiel

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Kontingenzkoeffizient (nach Pearson)

W-Rechnung und Statistik für Ingenieure Übung 11

Bedienungsanleitung Anlassteilnehmer (Vereinslisten)

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Ab 2012 wird das Rentenalter schrittweise von 65 auf 67 Jahre steigen. Die Deutsche Rentenversicherung erklärt, was Ruheständler erwartet.

PC-Umzug: So ziehen Sie Ihre Daten von Windows XP nach Windows 8 um

Sollsaldo und Habensaldo

Professionelle Seminare im Bereich MS-Office

Der Kalender im ipad

Aufgabenblatt 3: Rechenbeispiel zu Stiglitz/Weiss (AER 1981)

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Übungen zur Vorlesung Induktive Statistik Bedingte Wahrscheinlichkeiten

Animationen erstellen

der Eingabe! Haben Sie das Ergebnis? Auf diesen schwarzen Punkt kommen wir noch zu sprechen.

Informationsblatt Induktionsbeweis

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

A1.7: Entropie natürlicher Texte

Statistik für Studenten der Sportwissenschaften SS 2008

DeltaVision Computer Software Programmierung Internet Beratung Schulung

Transkript:

Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E R E G R E S S I O N M I T D U M M Y - V A R I A B L E N Zentrale Methodenlehre, Europa Universität - Flensburg

Anwendung 2 In welchen Situationen ist die (Binär) logistische Regression anwendbar? Wenn man eine abhängige Variable vorhersagen möchte, die Werte zwischen 0 und 1 liegen oder die Variable dichotom ist, ist die logistische Regression geeignet. Eine dichotome Variable ist eine Variable mit zwei Ausprägungen: Krank oder gesund Bestanden oder durchgefallen Vertrauenswürdig oder unzuverlässig Raucher oder Nichtraucher Erfolg oder Misserfolg Angestellt oder Arbeitslos Ausgezeichnet oder nicht ausgezeichnet OLS Regression ist in diesen Fall nicht geeignet, weil die Interpretation der OLS- Koeffizienten die Dichotomie der abhängigen Variable nicht im Betracht zieht.

Beispiel: Ausgezeichnet 3 Nehmen wir an, man möchte einen Modell bauen, das vorhersagen muss, ob ein Student am Ende eines Semesters ausgezeichnet wird. Um das Modell zu bauen, hat man folgende Informationen: die Mathe-Note von früheren Studierenden (Mathe), Geschlecht (Frau) (1, wenn sie Frauen sind), und die Information, ob die Studierenden ausgezeichnet wurden (Ausgezeichnet) (0: der Studierende wurde nicht ausgezeichnet; 1: der Studierende wurde ausgezeichnet): Wenn man z.b. das OLS-Modell Ausgezeichnet = β 0 + β 1 Mathe berechnen würde, bekommt man das folgende Ergebnis: Die Interpretation der Koeffizient für Mathe sagt uns, dass jeder zusätzliche Punkt Mathe das Merkmal Ausgezeichnet um 0.028 Einheiten erhöht. Diese Interpretation macht aber kein Sinn, weil Ausgezeichnet nur 0 oder 1 sein kann. Interessanter könnte es sein, wenn wir eine Einschätzung der Wahrscheinlichkeit, Ausgezeichnet zu werden, vorhersagen könnten, wenn man eine Mathenote hat. Das kann man mit einer Logistische Regression berechnen.

Grundbegriffe: Odds 4 Grundbegriffe (1): In der Stichprobe in unserem Beispiel gibt es 6 Studierende, die ausgezeichnet wurden. Folgende Begriffe bzw. Definitionen müssen verstanden werden: Die relative Häufigkeit, ausgezeichnet zu sein, lautet f Ausgezeichnet = 6 20 = 0.3 bzw. 30%. Wenn wir eine Population hätten, würden wir über die Wahrscheinlichkeit ausgezeichnet zu werden sprechen: P(Ausgezeichnet) = p. Die relative Häufigkeit, nicht ausgezeichnet zu werden, ist dann f Ausgezeichnet = 0.7 ; In Wahrscheinlichkeitstermen wäre das: P(Ausgezeichnet) = 0.7 = 1-p. Die Odds (Chancen) dafür, ausgezeichnet zu werden, sind wie folgt definiert: Odds dafür (Ausgezeichnet = 1) = p (1 p) = 0.3 0.7 = 3 7 0.43; Mögliche Interpretationen wären: von jede 10 Studierenden werden 3 ausgezeichnet oder die Chancen, ausgezeichnet zu werden, betragen ungefähr 0.43.

Grundbegriffe (2): Grundbegriffe: Odds-Ratio 5 In der Stichprobe in unserem Beispiel sieht die Kreuztabelle der Variablen Frau und Ausgezeichnet wie folgt aus: Folgende Informationen kann man aus der Kreuztabelle ableiten: Prozent der Männer, die ausgezeichnet werden, beträgt 2/10 Prozent der Frauen, die ausgezeichnet werden, beträgt 4/10 Die Odds (dafür), dass einen Mann ausgezeichnet wird, betragen 2/8 (Von 10 Männer werden 2 ausgezeichnet). Die Odds (dafür), dass eine Frau ausgezeichnet wird, betragen 4/6. Die Odds-Ratio (OR), dass eine Frau ausgezeichnet wird (im Vergleich mit Männern), ist OR = (4/6) / (2/8) = 8/3. Das bedeutet, dass die Chancen einer Frau ausgezeichnet zu werden 166% höher sind als die Chancen von einem Mann.

Logit-Transformation 6 Die Logit-Transformation wird definiert als der natürliche Logarithmus der Odds, einen Erfolg zu haben. Gegeben die Wahrscheinlichkeit eines Erfolgs p, ist die Logit-Transformation : Z = Logit p = LN Odds Erfolg = LN p 1 p Mit der Logit-Transformation kann man gültige Werte für p generieren, durch die sogenannte Logistische Funktion: p = 1 1 + e Z

Logistische Regression - Modell 7 Wenn man Werte einer dichotomen Variable Y mit Ausprägungen 0 (Misserfolg) und 1 (Erfolg), durch eine oder mehrere Prädiktoren (erklärende Variablen) x 1, x 2,, x n vorhersagen möchte, wird angenommen, dass es eine lineare Beziehung zwischen den Prädiktoren und dem Logarithmus der Odds (logit Transformation) gibt, dass Y den Wert 1 annimmt. Das heißt: Wobei p = P(Y=1). Z = logit(p) = LN p 1 p = β 0 + β 1 x 1 + + β n x n + u Lass uns eine logistische Regression einsetzen, um vorherzusagen, ob ein Studierender ausgezeichnet wird, wenn man als Prädiktor die Mathe-Note der Studierenden benutzt. Das Modell lautet dann LN p 1 p = β 0 + β 1 Mathe + ε; wobei p = P(Ausgezeichnet = 1) Um das Modell zu berechnen, benutzen wir die Datei klein_beispiel.sav.

Logistische Regression mit SPSS (1) Um das Modell LN p 1 p folgen wir der folgenden Prozedur: Prozedur: 8 = β 0 + β 1 Mathe + u mit SPSS zu berechnen, Datei Klein_Beispiel.sav mit SPSS öffnen. Um eine logistische Regression durchzuführen: Analysieren Regression Binär Logistisch anklicken. Ausgezeichnet als abhängige Variable auswählen. Mathe als Kovariate auswählen. Wenn man eine besondere Methode möchte, dies in der Option Methoden auswählen. Wir lassen den Default Methode Einschluss. OK anklicken. SPSS-Output interpretieren.

Logistische Regression mit SPSS (2) Logistische Regressionsanalyse durchführen: 9 2 1

Logistische Regression mit SPSS (3) 10 Die Logistische Regressionsanalyse erzeugt folgenden Output im Ausgabe-Fenster: 3 1 2 4 3 1 2 3 4 Ergebnis der logistischen Regression ohne Prädiktoren Ergebnis des Unabhängigkeitstests: Wenn der P-Wert < α, dann gibt es einen Zusammenhang zwischen die abhängige (Ausgezeichnet) und unabhängigen Variablen (Mathe). Diese Werte messen die Stärke der Beziehung zwischen Ausgezeichnet und Mathe. Diese Tabelle vergleicht observed (beobachtete) Ausgezeichnet-Werte mit der durch das Modell vorhergesagte Werte für jeden Fall im Datensatz. Hier kann man sehen, in wie viel % der Fälle richtig klassifiziert wurde. Diese Tabelle zeigt die berechnete Koeffizienten des Modells an. In diesem Fall: β 0 und β 1. 4 Ergebnis der logistischen Regression mit Mathe -Prädiktor

Logistische Regression mit SPSS (4) 11 Logistische Regressionsanalyse: Output Anfangsblock Modell ohne Prädiktoren: Das Modell zu berechnen lautet: LN p 1 p = β 0 + u Anzahl der Fälle, die richtig klassifiziert wurden. In diesen Beispiel wurden alle Ausgezeichnet -Studierende falsch klassifiziert. 70% der Fälle wurden richtig klassifiziert. Das Modell berechnet für jeden Fall die Wahrscheinlichkeit p=p(ausgezeichnet = 1) (*). Wenn p < 0.5, wird der Fall als nicht ausgezeichnet klassifiziert. β 0 Das berechnete Modell ist dann logit(p) = 0, 847. (*): Zum Beispiel: Für einen Studierenden mit Mathe=50, ist p = ist p immer 0.3 < 0.5, und deswegen sind alle Fälle als nicht ausgezeichnet klassifiziert. 1+e 1 0.847 =0.3; die Mathe-Information wird hier nicht benutzt; also

Logistische Regression mit SPSS (5) 12 Logistische Regressionsanalyse: Output Anfangsblock Interpretation des Koeffizienten β 0 : β 0 P-Wert e β 0 Die Koeffizienten β i einer logistischen Regression werden nicht direkt interpretiert. Die Interpretation der Koeffizienten wird in Funktion von Odds oder Odds-Ratios vorgenommen. In diesem Fall, in einem Modell ohne Prädiktoren, wird durch die Interpretation von β 0 folgende Frage beantwortet: Was sind die Chancen (Odds), ausgezeichnet zu werden? LN p 1 p = β 0 p 1 p = eβ 0 Odds Ausgezeichnet = 1 = e β 0 = 0.429 Das heißt, die Chancen ausgezeichnet zu werden, sind 0.429 bzw. ca. 3/7 (von 10 Studenten werden 3 ausgezeichnet). Dieser Koeffizient ist auf dem 10%-Niveau signifikant (P-Wert=0,082).

Logistische Regression mit SPSS (6) 13 Logistische Regressionsanalyse: Output Block 1: Güte des Gesamtsmodells, Stärke des Zusammenhangs und Klassifikationstabelle: P-Wert Ergebnis des Tests der Güte des Gesamtsmodells. Die Null-Hypothese (H 0 ) ist in diesen Fall, dass das Modell logit p = β 0 + β 1 Mathe + u kein gültiges Modell ist, um Odds in der Grundgesamtheit dazu, ausgezeichnet zu werden, vorhersagen zu können. Die P-Werte sind alle kleiner als 0.05; das heißt, H 0 kann verworfen werden. Das Modell ist auf dem 5%- Signifikanz Niveau gültig. Die Cox & Snell R-Quadrat und Nagelkerkes R-Quadrat Werte messen die Stärke der Beziehung zwischen Ausgezeichnet und Mathe. Beide Werte sind zwischen 0 und 1, aber können nicht wie die R 2 der OLS Regressionsanalyse interpretiert werden. Es gilt aber: je größer, desto besser, sie nehmen den Wert 1 an, wenn das Modell perfekte Vorhersagen macht. In diesem Beispiel sind beide Werte mittelgroß (nicht so schlecht). Mit der Hinzunahme des Prädiktors Mathe, klassifiziert das Modell jetzt 75% der Fälle richtig (Im Anfangsblock klassifiziert das Modell [ohne Prädiktoren] nur 70% der Fälle richtig). Das Modell mit Mathe klassifiziert jetzt 2 (33.3%) der ausgezeichneten Fälle richtig, ebenso wie alle nicht ausgezeichnete Fälle.

Logistische Regression mit SPSS (7) 14 Logistische Regressionsanalyse: Output Block 1: Interpretation der Koeffizienten: Beide Koeffizienten sind signifikant, aber nicht auf dem 5%-Niveau (P-Wert Mathe = 0.08; P-Wert Konstante =0.07) e β 0=0 bedeutet, dass einen Studierender mit 0 Punkten in Mathe keine Chancen hat, ausgezeichnet zu werden. Um den Koeffizienten β 1 zu interpretieren, fragt man sich, wie die Chancen, ausgezeichnet zu werden, durch jeden zusätzlichen Punkt in der Mathenote beeinflusst wird; zum Beispiel von Mathe=52 zu Mathe=53 Dem Output zufolge haben wir: Für Mathe = 52 logit(p) Mathe=52 = -12 + 0.21*52 Für Mathe = 53 logit(p) Mathe=53 = -12 + 0.21*53 logit(p) Mathe=53 - logit(p) Mathe=52 = 0.21 LN( Odds(Ausgezeichnet = 1) Mathe=53 Odds(Ausgezeichnet = 1) Mathe=52 ) = 0.21 Odds-Ratio(Ausgezeichnet = 1) = e β 1=e 0.21 = 1.227 Das heißt, jeder zusätzliche Punkt in Mathe die Chancen, ausgezeichnet zu werden, um 22.7% erhöht.

Logistische Regression mit SPSS (8) 15 Logistische Regressionsanalyse - Interpretation der e β i Termen für Prädiktor-Variablen: Die Terme e β i - (Odds-Ratios) können folgende Werte aufweisen: < 1 Es gibt einen negativen Zusammenhang zwischen der abhängigen und der unabhängigen Variablen; jede zusätzliche Einheit der unabhängigen Variable senkt die Chancen von Erfolg um 100*(1 - e β i)%; z.b. im Modell LN p 1 p = β 0 + β 1 Mathe + u; wenn e β 1 = 0.92 wäre, würde das bedeuten, dass jeder zusätzliche Punkt in Mathe die Chancen, ausgezeichnet zu werden, um 100*(1-0.92)% = 8% senkt. e β i = 1 Es gibt keinen Zusammenhang zwischen der abhängigen und der unabhängigen Variablen; jede zusätzliche Einheit der unabhängigen Variable beeinflusst die Chancen von Erfolg nicht. > 1 Es gibt einen positiven Zusammenhang zwischen der abhängigen und der unabhängigen Variablen; jede zusätzliche Einheit der unabhängigen Variable erhöht die Chancen von Erfolg im 100(e β i -1)%; Das ist der Fall bei logit(p) = -12 + 0.21 *Mathe; wobei e 0.21 = 1.227

Logistische Regression mit Dummy-Variablen 16 Wie ändert sich das Ergebnis, wenn man das Geschlecht der Studierenden zum Modell addiert: LN p 1 p Frau eine Dummy-Variable ist ; In SPSS: Prozedur: = β 0 + β 1 Mathe + β 2 Frau + u ; wobei Datei Klein_Beispiel.sav mit SPSS öffnen. Um eine logistische Regression durchzuführen: Analysieren Regression Binär Logistisch anklicken. Ausgezeichnet als abhängige Variable auswählen. Mathe und Frau als Kovariaten auswählen. Wenn man eine besondere Methoden möchte, dies in der Option Methoden auswählen. Wir lassen die Default Methode Einschluss. OK anklicken. SPSS-Output interpretieren.

Logistische Regression mit Dummy-Variablen (2) 17 Die Logistische Regressionsanalyse erzeugt folgenden Output im Ausgabe-Fenster: Der Anfangsblock wird hier nicht angezeigt. Es gibt keinen Unterschied mit dem, was im Folie 10 gezeigt wurde: Das Ergebnis eines Modells ohne Prädiktoren. 1 2 1 2 3 Das Ergebnis des Omnibus-Tests (Güte des Gesamtsmodells) zeigt, dass das Modell mit Frau und Mathe gültig für die Population ist auf einem 6% Signifikanzniveau (P-Wert = 0.06). Im Vergleich mit dem Modell LN einen Pseudo-R 2 p 1 p = β 0 + β 1 Mathe + u, das von 0.33 hatte, hat das neue Modell LN β 0 + β 1 Mathe + β 2 Frau + u einen Pseudo-R 2 von 0.354, also eine Verbesserung. Die Klassifikationstabelle zeigt, dass das Modell mit der Dummy- Variablen Frau 80% der Fälle richtig klassifiziert. Das Modell ohne die Dummy-Variable hatte nur 75% der Fälle richtig klassifiziert. p 1 p = 4 3 4 Im Bezug auf die Signifikanz der Koeffizienten, zeigt der Output, dass trotz Verbesserungen des Modells die Dummy-Variable Frau nicht signifikant ist (P-Wert > 0.1), während Mathe nur auf dem 10%-Nivaeu signifikant ist (P-Wert = 0.09), und die Konstante auf dem 7%-Niveau (P-Wert = 0.07). Die mangelnde Signifikanz könnte mit dem geringen Umfang der Stichprobe zusammenhängen: n =20 5 5 Die Referenzkategorie ist in diesem Fall männliche Studenten mit 0 Punkten im Mathe. Das heißt, e β 0= 0 bedeutet, dass männliche Studierende mit Note 0 in Mathe keine Chancen haben, ausgezeichnet zu werden.

Logistische Regression mit Dummy-Variablen (3) 18 Logistische Regressionsanalyse: Output Block 1: Interpretation der Koeffizienten: Ähnlich wie im ersten Modell können wir e β 1 interpretieren: ceteris paribus, die Odds (Chancen) ausgezeichnet zu werden erhöhen sich mit jeden zusätzlichen Punkt in Mathe um 22.7%. Auch wenn der Koeffizient für die Dummy-Variablen β 2 nicht signifikant ist, kann man e β 2 als einen Odds-Ratio interpretieren: Die Odds (Chancen), dass eine weibliche Studentin ausgezeichnet wird, im Vergleich mit einen männlichen Studenten: Für Frau = 0 logit(p) Mann = -12.5 + 0.21*Mathe Für Frau = 1 logit(p) Frau = -12.5 + 0.21*Mathe + 0.755*1 logit(p) Frau - logit(p) Mann 0.75 LN( Odds(Ausgezeichnet = 1) Frau Odds(Ausgezeichnet = 1) Mann ) = 0.755 Odds-Ratio(Ausgezeichnet = 1) = e β 2=e 0.755 = 2.127 Das heißt, ceteris paribus, dass die Chancen einer weiblichen Studentin, ausgezeichnet zu werden, ca. 113% höher sind als die von männlichen Studenten.

Übung 1 19 Übung 1: Mit der Datei ausgezeichnet.sav: 1. Wie hoch sind die Odds, ausgezeichnet zu werden, wenn man ein logistisches Modell ohne erklärende Variablen hat? Wie viel % der Fälle werden mit diesem Modell richtig vorhergesagt? 2. Berechnen Sie folgende Odds, ohne eine logistische Regression durchzuführen: 1. Odds, dass ein Mann ausgezeichnet wird. 2. Odds, dass eine Frau ausgezeichnet wird. 3. Odds-ratio, dass eine Frau ausgezeichnet wird, verglichen mit männlichen Studenten. 3. Führen Sie eine logistische Regression mit der Variablen Frau als erklärender Variable durch. Interpretieren Sie die Koeffizienten der logistischen Regression und vergleichen Sie sie mit den Ergebnissen zu Frage 2. Wie viel % der Fälle werden mit diesem Modell richtig vorhergesagt? 4. Führen Sie eine logistische Regression mit der Variablen Mathe als erklärende Variable durch. Interpretieren Sie die Koeffizienten der logistischen Regression. Wie viel % der Fälle werden mit diesem Modell richtig vorhergesagt? 5. Führen Sie eine logistische Regression mit allen Variablen durch und interpretieren Sie die Koeffizienten.

Übung 2 20 Übung 2: Mit der Datei Margarine_Problem.sav: Berücksichtigen wir folgende Variablen, um den Kauf eine bestimmter Margarinemarke vorherzusagen (Quelle: Backhaus, Multivariate Analysemethoden) käufer: Käufer von Margarine. Käufer = 0: Kunde hat die Margarine nicht gekauft. Käufer = 1: Kunde hat die Margarine gekauft. streichf: Margarinestreichfähigkeit und ihre Bedeutung als Grund für den Margarinekauf. Streichf = 1: Geringe Kaufbedeutung bis Streichf = 7: Hohe Kaufbedeutung haltbark: Margarineshaltbarkeit und ihre Bedeutung als Grund für den Margarinekauf. haltbark= 1: Geringe Kaufbedeutung bis haltbark = 7: Hohe Kaufbedeutung Führen Sie eine logistische Regression durch, um den Effekt der Variablen Streichf und haltbark auf die Kaufentscheidung bei der Margarine zu untersuchen.