Binäre logistische Regressionsanalyse

Größe: px
Ab Seite anzeigen:

Download "Binäre logistische Regressionsanalyse"

Transkript

1 Binäre logistische Regressionsanalyse Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Sabine Fromm Bamberger Beiträge zur empirischen Sozialforschung Nr. 11, 2005 Herausgeber: Gerhard Schulze und Leila Akremi ISSN

2 Bamberger Beiträge zur empirischen Sozialforschung 1 Einführung in die Methoden der empirischen Sozialforschung (2., überarbeitete Auflage) 2 Einführung in die Methoden der empirischen Sozialforschung. Übungsaufgaben und Lösungen (2., überarbeitete Auflage) 3 Die biographische Methode. Ein Verfahren zur qualitativen Analyse individueller Verlaufsmuster in den Sozialwissenschaften (2., unveränderte Auflage) 4-1 Sozialwissenschaftliche Datenanalyse am PC für Fortgeschrittene. Ein Arbeitsbuch mit SPSS für Windows 5 Takeoff der Auswertung. Zur Vorbereitung statistischer Analysen Gerhard Schulze 2004 Gerhard Schulze 2004 Nina Baur 2003 Nina Baur 2003 Nina Baur Typenbildung, Umgang mit fehlenden Werten und Bilden neuer Variablen. Eine Einführung in die Datenmodifikation und selektion mit SPSS für Windows. 7 Datenbereinigung und Matchen. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows. Sabine Fromm Sabine Fromm In Vorb. In Vorb. 8 Univariate Statistik. Eine Einführung in den Umgang mit eindimensionalen Häufigkeitsverteilungen mit SPSS für Windows Nina Baur Bivariate Statistik, Drittvariablenkontrolle und das Ordinalskalenproblem. Eine Einführung in die Kausalanalyse und in den Umgang mit zweidimensionalen Häufigkeitsverteilungen mit SPSS für Windows (2., korrigierte Auflage) Nina Baur Multiple lineare Regressionsanalyse. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows 11 Binäre logistische Regressionsanalyse. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows 12 Faktorenanalyse und Reliabilitätsanalyse. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Sabine Fromm 2003 Sabine Fromm 2005 Sabine Fromm Wie kommt man von den Ergebnissen der Faktorenanalyse zu Dimensionsvariablen? Eine Einführung in die Dimensionsbildung mit SPSS für Windows (2., korrigierte Auflage) Nina Baur Quantitative Analyse zeitlicher Veränderung Band 1: Überblick und theoretische Grundlage Band 2: Panelanalyse Band 3 Kohortenanalyse Band 4: Zeitreihenanalyse Band 5: Ereignisanalyse 20 Präsentation statistischer Daten Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Nina Baur (Hg.) Nina Baur (Hg.) Nina Baur (Hg.) Nina Baur (Hg.) Nina Baur (Hg.) Simone Zdrojewski / Jan D. Engelhardt 2003 In Vorb. In Vorb. In Vorb. In Vorb Datenaufbereitung. Arbeitsschritte zwischen Erhebung und Auswertung quantitativer Daten 22 Arbeiten mit MAXqda. Kurze Einführung in die computergestützte Analyse qualitativer Daten (2., korrigierte Auflage) Detlev Lück 2003 Britta Wagner Wo liegen die Grenzen quantitativer Längsschnittsanalysen? Nina Baur 2004 ISSN: X Herausgegeben von Gerhard Schulze und Leila Akremi, Professur für Methoden der empirischen Sozialforschung, Otto-Friedrich-Universität Bamberg, Bamberg

3 Inhalt 1 Einleitung Modellvoraussetzungen Der Rechenansatz der binären logistischen Regressionsanalyse Berechnung einer logistischen Regressionsanalyse mit SPSS Fragestellung und Beispieldatensatz Transformation kategorialer Regressoren mit k > 2 Ausprägungen Einführung Dummy-Codierung (Bezeichnung in SPSS: Indicator) Effekt-Codierung (Bezeichnung in SPSS: Deviation) Kontrast-Codierung (Bezeichnung in SPSS: spezial(matrix)) Wahl der Referenzkategorie Modell 1: Schrittweise Aufnahme der unabhängigen Variablen, keine Berücksichtigung von Interaktionseffekten Syntax für Modell SPSS-Output Informationen zum Modell Ausgangssituation vor Aufnahme der ersten Variable (nur Konstante im Modell) Beurteilung der Modellgüte Beurteilung der einzelnen Prädiktoren Ausreissererkennung Modell 2: Schrittweise Aufnahme der unabhängigen Variablen unter Berücksichtigung von Interaktionseffekten Literatur Anhang...34

4

5 1 Einleitung Die logistische Regressionsanalyse kann immer dann eingesetzt werden, wenn es darum geht, Gruppenunterschiede zu erklären oder Gruppenzugehörigkeiten zu prognostizieren. Im Fall der binären logistischen Regressionsanalyse ist die abhängige Gruppenvariable dichotom. Typischen Fragestellungen sind etwa: Welche Ehen haben ein erhöhtes Scheidungsrisiko? Welche Familien bleiben dauerhaft von Sozialhilfe abhängig? Wie kann man vorhersagen, welche Kunden eine erhöhte Kaufwahrscheinlichkeit für ein bestimmtes Produkt haben? Welche Kunden kann man als kreditwürdig einschätzen? Wie kann man die Unterschiede zwischen Wählern und Nichtwählern erklären? Wie kann man prognostizieren, ob ein Unternehmen wachsen wird? Bei der Erklärung von Gruppenunterschieden geht es darum, Variablen zu identifizieren, die diese Unterschiede produzieren und die Stärke und Richtung ihres Einflusses zu bestimmen. Häufig wird aber eine Prognose interessieren. So werden z.b. im Marketing Modelle zur Prognose von Kaufwahrscheinlichkeiten für bestimmte Produkte berechnet. Dazu werden die bisherigen Käufer mit ihren typischen Produkt- und sonstigen Merkmalskombinationen modelliert. Mit diesem Modell können dann Kaufprognosen für die bisherigen Nicht-Käufer erstellt werden, für die diese Merkmale ebenfalls erhoben wurden. In Vertriebsaktionen werden dann bisherige Nicht-Käufer mit einer hohen Kaufwahrscheinlichkeit angeschrieben die Abschlussquoten sind höher als wenn alle Kunden angeschrieben würden, und es muss nur eine relativ kleine Gruppe kontaktiert werden (Kostenersparnis). Da bei der logistischen Regressionsanalyse Gruppenzugehörigkeitswahrscheinlichkeiten geschätzt werden, sind auch Aussagen darüber möglich, wie sich diese Wahrscheinlichkeiten verändern, wenn sich die Werte der unabhängigen Variablen (Regressoren) verändern. Wie ändert sich zum Beispiel die Kaufwahrscheinlichkeit für Produkt A mit der Anzahl der bisher gekauften Produkte oder welche Produktkombination lässt die Wahrscheinlichkeit für den zusätzlichen Kauf von Produkt A besonders stark ansteigen? Die logistische Regressionsanalyse weist Ähnlichkeiten insbesondere mit der multiplen linearen Regressionsanalyse und der linearen Diskriminanzanalyse auf, hebt sich aber dennoch deutlich von beiden Verfahren ab: Bei der multiplen linearen Regressionsanalyse wird eine metrische, kontinuierliche Variable erklärt oder prognostiziert, keine Gruppenzugehörigkeiten. Die lineare Diskriminanzanalyse erfordert die Erfüllung von Verteilungsannahmen wie multivariate Normalverteilung der Prädiktoren in beiden Gruppen und Homogenität der Kovarianzmatrizen, außerdem müssen die Prädiktoren mindestens intervallskaliert sein. 2 Modellvoraussetzungen Welche Voraussetzungen bezüglich der Daten müssen für eine logistische Regressionsanalyse erfüllt sein? Die unabhängigen Variablen (auch Regressoren oder Prädiktoren genannt) können sowohl kategorial als auch metrisch sein. Kategoriale Variablen mit mehr als zwei Ausprägungen müssen für die Analyse in Indikatorvariablen umgewandelt werden, d.h. für jede Ausprägung der ursprünglichen Variable wird eine neue, dichotome Variable gebildet (siehe 4.2). SPSS bietet verschiedene Möglichkeiten zum automatischen Umkodieren von kategorialen Variablen innerhalb der Prozedur logistic regression. Die abhängige Variable (Kriterium) kann binär oder kategorial sein. Für die Berechnung einer logistischen Regressionsanalyse mit einer kategorialen abhängigen Variable mit mehr als zwei Ausprägungen bietet SPSS eine eigenständige Prozedur an ( nomreg ). Diese kann selbstverständlich auch auf den binären Spezialfall angewendet werden, führt aber zu etwas anderen Ergebnissen als die binäre logistische Regression ( logistic regression ), da zum Teil

6 6 Sabine Fromm andere Algorithmen berechnet werden. Insbesondere rechnet nomreg nicht mit Individualdaten, sondern fasst alle Fälle mit identischer Prädiktoren-Kombination zu einer Gruppe zusammen. Dies wirkt sich vor allem bei der Berechnung von Maßen zur Beschreibung und zum Test der Anpassungsgüte eines Modells aus (Baltes-Götz 2004: 6 f.). Verteilungsannahmen sind für die logistische Regressionsanalyse nicht erforderlich. Zwischen den Prädiktoren sollte keine Multikollinearität vorliegen, da sonst verzerrte Schätzungen und erhöhte Standardfehler auftreten können. Weiterhin muss die Stichprobengröße berücksichtigt werden: Als absolute Untergrenze gelten 50 Beobachtungen, bei der binären logistischen Regression sollten also für jede Gruppe mindestens 25 Beobachtungen vorliegen. Aussagekräftige Ergebnisse können jedoch erst ab ca. 100 Beobachtungen erwartet werden. Weiterhin muss die Zahl der erforderlichen Beobachtungen mit der Zahl der Prädiktoren in Verbindung gesetzt werden, da bei zunehmender Variablenzahl die Zahl der möglichen Kovariatenmuster dramatisch anwächst. Im folgenden geht es ausschließlich um die binäre logistische Regressionsanalyse. 3 Der Rechenansatz der binären logistischen Regressionsanalyse Ebenso wie bei der multiplen linearen Regression wird nach einer Gleichung gesucht, die den Zusammenhang zwischen einer abhängigen und mehreren unabhängigen Variablen abbildet. Diese Gleichung soll den Zusammenhang modellieren zwischen der Veränderung kategorialer oder metrischer unabhängiger Variablen einerseits und der Wahrscheinlichkeit der Zugehörigkeit zu einer Kategorie der abhängigen Variable andererseits. Die logistische Regression ist ein Beispiel für ein verallgemeinertes lineares Modell ( generalized linear model ). Bei diesen Modellen werden die Schätzwerte der abhängigen Variable nicht unmittelbar durch eine lineare Gleichung bestimmt, sondern es wird eine sog. Link- Funktion zwischen die lineare Funktion und die Schätzwerte geschaltet. Mittels dieser Link- Funktion wird die Regressionsgerade in einen nicht-linearen Verlauf transformiert (Kühnel/Krebs 2001: 609). Bei der linearen multiplen Regressionsanalyse wird der Zusammenhang zwischen Kriterium und Prädiktoren bekanntlich wie folgt abgebildet: y = b + b x + b x b x +... b x + e i 0 1 i1 2 i2 j ij k ik i Mit: y i = Ausprägung der abhängigen Variable bei Merkmalsträger i (i = 1, 2,, n) x ij = Ausprägung der j-ten unabhängigen Variable bei Merkmalsträger i (j = 1,2,...k) b j = Regressionskoeffizient (Steigungsparameter) der j-ten unabhängigen Variable b 0 = Regressionskonstante e i = Residuum bei Merkmalsträger i Es wird also die Ausprägung einer metrischen Variable geschätzt. Demgegenüber geht es bei der Problemstellung der logistischen Regression um die Erklärung oder Prognose der Zugehörigkeit zu einer von zwei Gruppen, die abhängige Variable ist binär. Geschätzt wird hier immer die die Zugehörigkeit zur mit 1 codierten Gruppe der mit 0 und 1 codierten Ausprägungen der abhängigen Variable. Um eine Schätzgleichung aufzustellen, die es erlaubt, die Stärke des Einflusses der unabhängigen Variablen zu modellieren, also kontinuierliche Veränderungen abzubilden, sind mehrere Zwischenschritte notwendig: Zunächst wird nicht die Gruppenzugehörigkeit (y = 1) selbst als abhängige Variable betrachtet, sondern die Wahrscheinlichkeit der Gruppenzugehörigkeit: p(y=1). Dadurch ergibt sich eine im Intervall [0;1] stetige abhängige Variable. Ohne etwas über die Ausprägungen der unabhängigen Variablen bei einem Merkmalsträger zu wissen, würde man seine Wahrscheinlichkeit dafür, bei der abhängigen Variable die Ausprägung 1 aufzuweisen, mit der relativen Häufigkeit von y = 1 in der Stichprobe gleichsetzen, würde diese relative Häufigkeit also als durchschnittliche Wahrscheinlichkeit interpre-

7 Binäre logistische Regressionsanalyse 7 tieren. Die Ausprägungen bei den unabhängigen Variablen beeinflussen dann die Wahrscheinlichkeit des Merkmalsträgers nach oben oder unten 1. Da Wahrscheinlichkeiten nur im Intervall [0;1] variieren, die abhängige Variable aber Werte von - bis + annehmen können soll, werden zwei Transformationen vorgenommen: (1) Als abhängige Variable wird nicht länger die Wahrscheinlichkeit der Gruppenzugehörigkeit betrachtet, sondern das sog. Chancenverhältnis, die Odds Ratio : p( y = 1) ( 1 p( y = 1) ) Die Wahrscheinlichkeit der Gruppe 1 anzugehören wird also dividiert durch die Wahrscheinlichkeit, ihr nicht anzugehören. Mit der Verwendung der Odds Ratio kann die abhängige Variable nun Werte im Intervall [0;+ ] annehmen. (2) Im nächsten Schritt wird die Beschränkung nach unten aufgehoben, indem man das Chancenverhältnis logarithmiert; damit kann die abhängige Variable alle Werte zwischen [- ;+ ] annehmen. Es ergibt sich folgende Schätzgleichung: p ( y = 1 )) ( 1 p ( y = 1 ) ln = b Der Ausdruck auf der linken Seite der Gleichung wird als Logit bezeichnet. Nun kann wieder nach der Wahrscheinlichkeit p(y=1) aufgelöst werden, und es ergibt sich die Schätzgleichung für das Modell der logistischen Regression: 1 p... z 1+ e ( y = 1) = mit z = b0 + b1 xi 1 + b2 xi b j xij + bk xik Die logistische Funktion ist häufig besser als eine lineare Funktion geeignet, Verhalten zu beschreiben, da für sie nicht die Modellannahme gilt, dass eine Veränderung der unabhängigen Variable stets eine proportionale Veränderung der abhängigen Variable bewirkt. Mit anderen Worten: eine Veränderung von x hat nicht an allen Stellen der Funktion die gleiche Wirkung auf y. Im Bereich sehr kleiner und sehr großer x-werte sind die Veränderungen von y nur sehr gering; starke Veränderungen von y finden sich nur im mittleren Bereich der Funktion. Abbildung 1: Logistische Funktion 0 b 1 x i 1 b 2 x i 2... b j x ij... b k x ik 1.0 p(y=1) unabhängige Variable x 1 Die durchschnittliche Wahrscheinlichkeit wird als cut off bezeichnet. Z.B. würde man für eine Marketingaktion nur Kunden auswählen, deren Kaufwahrscheinlichkeit für das beworbene Produkt über dem cut off liegt.

8 8 Sabine Fromm Beispiel: y = Entscheidung für ( 1 ) oder gegen ( 0 ) Umzug x = Mieterhöhung in Euro Es ist anzunehmen, dass nicht jeder Euro Mieterhöhung die Wahrscheinlichkeit für die Entscheidung umzuziehen gleichermaßen beeinflusst. Plausibel ist vielmehr, dass eine Mieterhöhung in geringem Umfang (kleine Werte von x) die Wahrscheinlichkeit nur geringfügig beeinflusst. Ab einem gewissen Schwellwert lassen aber geringfügige Erhöhungen die Wahrscheinlichkeit stark ansteigen, förmlich jeder Euro mehr nimmt starken Einfluss auf die Entscheidung. Im oberen Bereich (sehr hohe x-werte) wiederum wirken weitere Erhöhungen erneut nur geringfügig auf die bereits sehr hohe Wahrscheinlichkeit ein. Wie sind nun die b-koeffizienten der logistischen Regressionsfunktion zu interpretieren? b 0 wirkt sich auf die Lage der Regressionsfunktion aus, nicht auf ihre Gestalt. Die Steigungskoeffizienten b j geben an, wie steil oder wie flach die Kurve verläuft und ob der Zusammenhang von x auf y positiv oder negativ ist. Ein stark von Null abweichender b j -Wert charakterisiert einen steilen Anstieg (oder Abfall) der Funktion, je näher der Wert bei Null liegt, desto stärker nähert sich die Funktion einer Gerade an (= kein Zusammenhang von x und y). Aufgrund der Eigenschaften der logistischen Regressionsfunktion kann b j aber nicht als globales Maß für den Einfluss von x und y interpretiert werden. An unterschiedlichen Stellen der Funktion also bei unterschiedlichen Ausprägungen von x ist die Steigung der Funktion unterschiedlich stark, also der Einfluss von x unterschiedlich groß. Für die Interpretation der Ergebnisse wird man deshalb lediglich das Vorzeichen von b j betrachten. Um die Stärke des Einflusses von x zu beurteilen verwendet man den sog. Effekt-Koeffizienten exp(b j ): Dieser gibt den Faktor der Vervielfachung der Odds Ratio an, wenn sich x um eine Einheit verändert 2 (siehe z.b. Diaz-Bone/Künemund 2003: 8). Der Effekt-Koeffizient kann Werte zwischen größer 0 und + annehmen. Werte größer 1 vergrößern die Odds Ratio, Werte kleiner 1 verringern sie. Der b-koeffizient der logistischen Regression beeinflusst also die Wahrscheinlichkeit p(y = 1) in nicht-linearer Weise, verändert aber das Wahrscheinlichkeitsverhältnis linear um das exp(b)-fache. Bei kategorialen Regressoren hängt die genaue Interpretation von exp(b) von der gewählten Kontrast-Kodierung ab (siehe 4.2). Beispiel: Untersucht wird der Einfluss der unabhängigen Variable x = Geschlecht (0 weiblich, 1 männlich ) auf die abhängige Variable y = Berufstätigkeit (0 nein, 1 ja). Der Regressionskoeffizient b betrage 0,25. Der Effekt-Koeffizient exp(b) beträgt dann exp(0,25) = 1,28. Dies bedeutet, dass die Zunahme der Variable Geschlecht um eine Einheit, also der Übergang von weiblich zu männlich, das Verhältnis der Wahrscheinlichkeiten p( berufstätig ) / p( nicht berufstätig ) um das 1,28-fache erhöht. Die Odds Ratio der Männer ist also gegenüber derjenigen der Frauen um 28% erhöht. Mittels der binären logistischen Regressionsanalyse sollen die b-koeffizienten so geschätzt werden, dass die resultierende Gleichung die zwei Ausprägungen der abhängigen Variable bestmöglich trennt. Dazu wird die Maximum-Likelihood-Methode verwendet, ein Verfahren, bei dem im Nachhinein 3 bestimmt wird, wie wahrscheinlich das Auftreten einer konkreten Stichprobe ist, unter der Bedingung, dass ein bestimmter Parameter vorliegt. Gesucht wird diejenige Kombination von b-koeffizienten, welche die Likelihood-Funktion maximiert und damit die beste Trennung zwischen den Ausprägungen der abhängigen Variable bewirkt. Üblicherweise wird die logarithmierte Likelihood-Funktion LL verwendet: LL = ln ( L) = ln(p(y i = 1)) + yi = 1 yi = 0 ln(1 p(y i = 1)) LL kann Werte zwischen [- ;0] annehmen. Hohe b-werte bewirken eine starke Steigung der Funktion und begrenzen somit den Wahrscheinlichkeitsübergang auf einen engeren Wertebe- 2 3 Und bei einer multivariaten Analyse die Ausprägungen aller anderen Regressoren gleich bleiben. Wegen dieser nachträglichen Berechnung, also nach Ziehung der Stichprobe, wird von likelihood und nicht von probability gesprochen.

9 Binäre logistische Regressionsanalyse 9 reich als niedrige b-werte. Je größer b, desto mehr nähert sich der LL-Wert Null an. Aus der LL-Funktion werden verschiedene Gütemaße für die Modellanpassung abgeleitet ( ). Dabei gilt 4, dass das Modell umso besser ist, je größer der Abstand zwischen LL 0 und LL V ist. - maximierter LL-Wert des Nullmodells für den Datensatz LL 0 LL V 0 maximierter LL-Wert unter Berücksichtigung aller unabhängigen Variablen maximal erreichbarer LL-Wert 4 Berechnung einer logistischen Regressionsanalyse mit SPSS Die Teilschritte der Prozedur logistische Regression und ihre Interpretation werden im Folgenden an einem Beispiel dargestellt. 4.1 Fragestellung und Beispieldatensatz Im Folgenden sollen Gruppenunterschiede zwischen Personen mit bzw. ohne höheren Bildungsabschluss untersucht werden; es geht also um die Frage, welche unabhängigen Variablen die Unterschiede zwischen den Ausprägungen der binären Variable Vorliegen/Fehlen eines höheren Bildungsabschlusses erklären. Für das Anwendungsbeispiel verwende ich Umfragedaten aus den USA, die 1993 erhoben wurden (n = 1.500). Dieser Datensatz ist als Beispieldatensatz in SPSS (Version ; Datensatz 1993 US-Sozialerhebung (Teilmenge.sav )) enthalten, so dass das Anwendungsbeispiel nachvollzogen werden kann. Im Anhang dieses Bandes ist die Syntax für alle Berechnungen angegeben, inklusive Variablentransformationen usw. Die Information über den Bildungsabschluss ist in der Variable schulab abgelegt. Ich benenne die labels wie folgt um: variable labels schulab 'Höherer Bildungsabschuss'. add value labels schulab 0 'nein' 1 'ja (mind. Abitur)'. execute. Zunächst werden Variablen aus dem Datensatz ausgewählt, von denen angenommen werden kann, dass sie Einfluss auf das Erreichen des Schulabschlusses nehmen. Es muss sich also um Variablen handeln, die bereits ausgeprägt waren, bevor der Befragte seinen Bildungsabschluss erlangte. Vor der Durchführung der Prozedur logistic regression betrachte ich die Verteilungen dieser Variablen und schätze mittels Kreuztabellen und Korrelationsanalysen ihren Zusammenhang mit der abhängigen Variable. Als aus inhaltlichen Überlegungen potenziell geeignete Variablen wähle ich aus: Anzahl der Geschister (geschw), Alter des Befragten (alter), Bildungsabschluss des Vaters bzw. der Mutter (vaterab, mutterab), Geschlecht (geschl), ethnische Zugehörigkeit (ethgr), Religionszugehörigkeit (religion). Weiterhin wird eine neue Variable berechnet (konsistenz), die angibt, ob die Eltern identische oder unterschiedliche Bildungsabschlüsse besitzen: compute konsistenz = 0. if (vaterab = mutterab) konsistenz = 1. if (vaterab < mutterab) konsistenz = 2. if (vaterab > mutterab) konsistenz = 3. variable labels konsistenz 'Konsistenz'. value labels konsistenz 0 'fehlende Werte bei mind. 1 Elternteil' 1 'vaterab = mutterab' 2 'vaterab < mutterab' 3 'vaterab > mutterab'. freq /var konsistenz.if (vaterab = mutterab) konsistenz = 1. 4 Quelle: Rese 2000, S. 115.

10 10 Sabine Fromm Nachstehend eine Übersicht über alle Variablen und ihre Ausprägungen, die in die Analyse aufgenommen werden: Tabelle 1: Variablen in der Analyse Variable labels Variablenname Value labels Ausprägungen schulab höherer Bildungsabschluss 1 ja (mind. Abitur) 0 nein alter Alter (Alter in Jahren) Abhängige Variable Unabhängige Variablen geschw Anzahl Geschwister (Anzahl) vaterab Höchster Schulabschluss des Vaters Hauptschule 5 Hauptschule (Quali) Mittlere Reife Abitur Uni/FH mutterab Höchster Schulabschluss der Mutter Hauptschule Hauptschule (Quali) Mittlere Reife Abitur Uni/FH geschl Geschlecht 0 1 weiblich männlich ethgr Ethnische Gruppe weiß farbig andere religion Religionszugehörigkeit protestantisch katholisch jüdisch keine andere konsistenz Konsistenz der Bildungsabschlüsse der Eltern vaterab = mutterab vaterab < mutterab vaterab > mutterab fehlende Werte bei mind. 1 Elternteil Die Betrachtung der abhängigen Variable schulab zeigt zunächst, dass 347 der Befragten mindestens Abitur besitzen. Einige der bisher ausgewählten unabhängigen Variablen weisen zum Teil nur sehr schwach besetzte Kategorien auf (siehe Tabelle 2), hier sind Signifikanzprobleme zu erwarten. In einem ersten Schritt wird nun überprüft, ob Zusammenhänge der einzelnen unabhängigen Variablen mit der abhängigen Variable bestehen. Dazu berechne ich einfache Kreuztabellen für die kategorialen Variablen und Korrelationen für die metrischen Variablen. * Basic Tables. TABLES /FORMAT BLANK MISSING('.') 5 Die Datenbeschriftung Hauptschule bzw. Hauptschule (Quali) entnehme ich dem Originaldatensatz. Welcher Abschluss des amerikanischen Schulsystems damit genau bezeichnet wird, ist unklar.

11 Binäre logistische Regressionsanalyse 11 Tabelle 2: Verteilung der Variable "schulab" in den kategorialen Prädiktoren Schulabschluss Vater Höherer Bildungsabschluss nein ja (mind. Abitur) /FTOTAL $t 'Gruppen-Gesamtwert' /TABLES (vaterab + $t + mutterab + $t + geschl + $t + ethgr + $t + religion + $t + konsistenz + $t) BY (schulab > (STATISTICS) + $t ) /STATISTICS count( ( F5.0 )) cpct( ( PCT5.1 ) 'Zeilen%':vaterab mutterab geschl ethgr religion region4 konsistenz). Gruppen- Gesamtwert Anzahl Zeilen% Anzahl Zeilen% Anzahl Zeilen% Hauptschule ,6% 70 12,4% ,0% Hauptschule (Quali.) ,7% ,3% ,0% Mittlere Reife 14 56,0% 11 44,0% ,0% Abitur 56 46,3% 65 53,7% ,0% Universität/FH 28 39,4% 43 60,6% ,0% Gruppen-Gesamtwert ,7% ,3% ,0% Schulabschluss Mutter Hauptschule ,9% 60 11,1% ,0% Hauptschule (Quali.) ,7% ,3% ,0% Mittlere Reife 21 51,2% 20 48,8% ,0% Abitur 47 49,0% 49 51,0% ,0% Universität/FH 11 37,9% 18 62,1% ,0% Gruppen-Gesamtwert ,1% ,9% ,0% Geschlecht weiblich ,9% ,1% ,0% männlich ,7% ,3% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Ethnische Gruppe weiß ,4% ,6% ,0% farbig ,6% 14 8,4% ,0% andere 50 66,7% 25 33,3% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Religionszugehörigkeit Protestantisch ,4% ,6% ,0% Katholisch ,8% 94 28,2% ,0% Jüdisch 13 41,9% 18 58,1% ,0% keine 98 70,0% 42 30,0% ,0% andere 20 57,1% 15 42,9% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Konsistenz fehlende Werte bei mind. 1 Elternteil ,8% 49 13,2% ,0% vaterab = mutterab ,1% ,9% ,0% vaterab < mutterab ,1% 54 26,9% ,0% vaterab > mutterab ,5% 90 40,5% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Tabelle 2 zeigt, dass die Anteile der Personen mit höherem Bildungsabschluss in den Subgruppen aller betrachteten Variablen sehr unterschiedlich verteilt sind. Auch wenn hier jeweils

12 12 Sabine Fromm nur bivariate Beziehungen betrachtet werden, lassen die Ergebnisse doch erwarten, dass auch bei der multivariaten Analyse eine gute Trennung zwischen Personen mit/ohne höheren Bildungsabschluss erreicht wird. Allerdings sind einige Kategorien nur sehr schwach besetzt, z.b. die mittleren Bildungsabschlüsse bei beiden Elternteilen (vaterab, mutterab) oder die Ausprägungen jüdisch oder andere bei der Religionszugehörigkeit. Aufgrund der schwachen Besetzung werden in diesen Fällen vermutlich keine signifikanten Ergebnisse entstehen. In dieser Situation könnte man schwach besetzte Kategorien zusammenfassen. Ich verzichte hier jedoch darauf, da dadurch im Anwendungsbeispiel eine zu große inhaltliche Heterogenität der Kategorien entstünde. Um die metrischen Merkmale Anzahl der Geschwister und Alter des Befragten auf ihre Eignung zu überprüfen, korreliere ich sie mit schulab : corr geschw alter schulab. Tabelle 3: Korrelationen der abhängigen Variable mit den metrischen Prädiktoren Anzahl Geschwister Alter Geburtsjahr Höherer Bildungsabschluss Alter Anzahl Geschwister Geburtsjahr Höherer Bildungsabschluss Korrelation nach Pearson 1,143 -,143 -,162 Signifikanz (2-seitig),000,000,000 N Korrelation nach Pearson, ,000 -,083 Signifikanz (2-seitig),000,000,001 N Korrelation nach Pearson -,143-1,000 1,083 Signifikanz (2-seitig),000,000,001 N Korrelation nach Pearson -,162 -,083,083 1 Signifikanz (2-seitig),000,001,001 N Zwischen der Anzahl der Geschwister und schulab besteht ein deutlicher negativer Zusammenhang (-.162). Das heißt, je größer die Zahl der Geschwister ist, desto seltener sind Personen mit höherem Bildungsabschluss. Die Korrelation von schulab und dem Alter ist nahe Null, obwohl aus inhaltlichen Überlegungen ein Zusammenhang zu erwarten wäre. Eine Analyse des Zusammenhanges zeigt jedoch, dass der Zusammenhang zwischen Alter und Bildungsabschluss nicht-monoton ist, wie die nachstehende Abbildung zeigt; hierzu wurde der Wertebereich von alter in Perzentile umgruppiert. Man sieht, dass der Anteil der Befragten mit mindestens Abitur über die Altergruppen zunächst ansteigt, vermutlich weil viele Befragte in den jüngsten Altersgruppen ihren endgültigen Abschluss noch nicht erreicht haben. In den darauf folgenden Kohorten gibt es relativ viele Abiturienten, in den ältesten Kohorten nimmt der Anteil dann wieder deutlich ab. Dieser umgekehrt u-förmige Zusammenhang wird durch Pearsons r nicht abgebildet, da dieses Maß bekanntlich nur lineare Zusammenhänge misst. Zusammenhänge, die noch nicht einmal monoton sind, werden damit gar nicht erfasst. Dass ein solcher, nicht-monotoner Zusammenhang aber existiert, zeigt neben der Verteilung der Bildungsabschlüsse in den verschiedenen Altersgruppen z.b. der Wert des Zusammenhangsmaßes Eta: eta = 0,26.

13 Binäre logistische Regressionsanalyse 13 Abbildung 2: Verteilung der höheren Bildungsabschlüsse in den Altersgruppen (Perzentile) Balkendiagramm Höherer Bildungsabschuss nein ja (mind. Abitur) 100 Anzahl Alter (In Bereiche eingeteilt) Statt der ursprünglichen, metrischen Altersvariable verwende ich deshalb eine klassierte Variable, die ich als kategorial behandle. Damit wird erreicht, dass alle definierten Altersgruppen gesondert betrachtet werden (siehe 4.2.). Nach Inspektion der gemeinsamen Verteilung von alter und schulab definiere ich diese neue Variable alter_gr wie folgt: recode alter (0, 98, 99 = sysmis) (low thru 24 = 1) (25 thru 49 = 2) (50 thru 65 = 3) (66 thru hi = 4) into alter_gr. variable labels alter_gr 'Alter grupp.'. value labels alter_gr 1 '18-24' 2 '25-49' 3 '50-65' 4 '>= 66'. freq/var alter_gr. 4.2 Transformation kategorialer Regressoren mit k > 2 Ausprägungen Einführung Während kategoriale Variablen mit 2 Ausprägungen, codiert mit 0 und 1, ohne weiteres in die Analyse aufgenommen und wie metrische Merkmale interpretiert werden können, müssen kategoriale Regressoren mit k > 2 Ausprägungen zunächst geeignet transformiert werden, da die numerischen Codes der Ausprägungen ja keinerlei Aussagen über Rangfolge oder gar Abstände der Ausprägungen machen und deshalb nicht rechnerisch verwendet werden dürfen 6. In jedem Fall werden für die ursprüngliche Variable mit k Ausprägungen k-1 Indikator- oder Dummy-Variablen gebildet, welche zusammen die Information der ursprünglichen Variable vollständig abbilden. Wie ich nachstehend am Beispiel der Transformation der Variable ethgr 6 Die Verfahren zur Transformation sind identisch mit denen, die bei der Varianzanalyse (Codierung eines qualitativen Faktors) verwendet werden.

14 14 Sabine Fromm (ethnische Zugehörigkeit) zeige, ist eine Anzahl von k-1 Variablen ausreichend, um die vollständige Information der kategorialen Ursprungsvariable zu erhalten. Tabelle 4: Transformation von "ethgr" ethgr eth_1 eth_2 1 weiß 2 farbig 3 sonstige Mit den beiden Dummy-Variablen eth_1 und eth_2 wird die Information der Ursprungsvariable vollständig abgebildet: eth_1 weist den Wert 1 auf, falls bei der ursprünglichen Variable ethgr 1 für weiß angegeben wurde, bei eth_2 erhalten Befragte die Ausprägung 1, falls sie bei der Ursprungsvariable den Code 2 für farbig angegeben hatten. Für sonstige Befragte muss keine zusätzliche Dummy-Variable gebildet werden, sie sind dadurch gekennzeichnet, dass sie bei eth_1 und bei eth_2 den Wert 0 aufweisen. Diejenige Ausprägung der ursprünglichen Variable, für die keine Dummy-Variable gebildet wird, wird als Referenzkategorie bezeichnet. SPSS führt die Berechnung dieser Dummy-Variablen innerhalb der Prozedur logistische Regression automatisch durch (Wahlmöglichkeiten s.u ). In die Modellbildung der logistischen Regressionsanalyse werden die Dummy-Variablen, nicht die Ursprungsvariable (hier ethgr) aufgenommen. Die neuen Variablen werden stets als Variablenset verwendet, also z.b. bei den Stepwise-Verfahren zur Variablenaufnahme in einem Schritt in das Modell aufgenommen. Bei der Analyse von Interaktionseffekten (4.4) wird der entsprechende Interaktionsterm ebenfalls durch das Set der Kontrastvariablen ersetzt. Es gibt verschiedene Möglichkeiten, kategoriale Variablen zu codieren, die auch mit SPSS realisiert werden können. Die nachstehende Tabelle zeigt am Beispiel der Variable ethgr die wichtigsten Möglichkeiten auf. Tabelle 5: Codierung von Dummy-Variablen Ausprägung Dummy-Codierung Effekt-Codierung Kontrast-Codierung von ethgr x1 x2 x1 x2 x1 x2 1 weiß /2 2 farbig /2 3 sonstige Die gesamte Erklärungskraft des Modells bleibt unabhängig von der Art der Codierung der kategorialen Variablen stets gleich; die b-koeffizienten und damit auch die Effekt- Koeffizienten exp(b) haben jedoch unterschiedliche Bedeutungen Dummy-Codierung (Bezeichnung in SPSS: Indicator) Die Voreinstellung in SPSS ist indicator(refcat). Als Referenzkategorie einer Variable wird per Voreinstellung die letzte Ausprägung verwendet, es ist jedoch auch möglich, eine andere Ausprägung als Referenzkategorie zu definieren (s.u. Befehlssyntax). Bei der Indicator- Codierung wird jede Ausprägung mit der Referenzkategorie verglichen, genauer: Hier geben die b-gewichte an, welche Unterschiede bei der Schätzung von Y sich ergeben, wenn man die Referenzkategorie mit den anderen Kategorien der Ursprungsvariable vergleicht. In unserem Beispiel gibt also b 1 an, wie groß der Unterschied bei den Anteilen der Befragten mit höherem Bildungsabschluss ist, wenn man weiße und sonstige Befragte vergleicht; b 2 gibt dementsprechend den Unterschied bei der Betrachtung farbiger und sonstiger Befragter an. Hat die ursprüngliche Variable einen Einfluss auf die abhängige Variable, so muss mindestens ein b-gewicht deutlich und signifikant von Null abweichen. Die Effekt-Koeffizienten exp(b) geben den Faktor an, um den sich die Odds Ratio der abhängigen Variablen in der betracheten Kategorie gegenüber der Odds Ratio der abhängigen Variablen in der Referenzkategorie verändert.

15 Binäre logistische Regressionsanalyse Effekt-Codierung (Bezeichnung in SPSS: Deviation) Mit deviation(refcat) 7 wird eine sog. Effekt-Codierung angefordert: Für jede Ausprägung der kategorialen Variable, mit Ausnahme der Referenzkategorie, wird untersucht, wie stark der Einfluss der jeweiligen Ausprägung vom ungewichteten Mittel des Einflusses aller Ausprägungen der kategorialen Variable abweicht. Genauer: Die b-gewichte bringen dann also die Abweichung des Logits der jeweiligen Kategorie zum ungewichteten Mittel der Logits aller Kategorien der ursprünglichen Variable zum Ausdruck. Die Effekt-Koeffizienten geben an, wie sich die Odds Ratio der abhängigen Variable in der betrachteten Kategorie gegenüber dem ungewichteten Mittel der Odds Ratios der abhängigen Variable verändert Kontrast-Codierung (Bezeichnung in SPSS: spezial(matrix)) Die Kontrast-Codierung (SPSS: special(matrix)) ist eine benutzerdefinierte Codierung zur Überprüfung spezifischer Hypothesen. Es sollen also stets nach inhaltlichen Gesichtspunkten auszuwählende Kategorien miteinander verglichen werden. Formal muss die Codierung so aufgebaut werden, dass die Summierung über die neuen Variablen stets Null ergibt. In unserem Beispiel (Tabelle 4) werden mit x1 die Ausprägungen 1 und 2 von ethgr miteinander verglichen, mit x2 wird der Mittelwert von Y in den Gruppen 1 und 2 von ethgr mit der Gruppe 3 verglichen. Anders als bei der Effekt- und der Indicator-Codierung können hier die b- Koeffizienten nicht unmittelbar interpretiert werden. Die Matrix muss so aufgebaut werden, dass die neuen Variablen zeilenweise stehen. Der Codierungs-Unterbefehl müsste hier lauten: /CONTRAST (ethgr)=special( ) Wahl der Referenzkategorie Als Referenzkategorie ist in SPSS per Voreinstellung die letzte Kategorie definiert; es gibt jedoch die Möglichkeit, auch eine andere Variable als Referenzkategorie festzulegen. Dabei ist die Steuerung über die Syntax weitaus flexibler als die über das Menü. Letztere bietet grundsätzlich nur die Möglichkeit, zwischen der ersten und der letzten Kategorie zu wählen, über die Syntax kann jede beliebige Kategorie als Referenzkategorie definiert werden. Welche Kriterien sollten bei der Wahl der Referenzkategorie beachtetet werden (vgl. dazu z.b. Hardy 1993)? Wichtig sind zunächst inhaltliche Überlegungen: Die Referenzkategorie sollte einen aus Sicht der jeweiligen Fragestellung interessanten Vergleich ermöglichen. Das bedeutet, dass die Referenzkategorie z.b. nicht die Kategorie sonstige sein sollte, da diese heterogen ist und damit unklar bleibt, zu welchen Merkmalen überhaupt ein Vergleich hergestellt wird. Liegt den Merkmalsausprägungen eine zumindest versteckte Ordinalität zugrunde, wie z.b. bei Berufen, empfiehlt es sich die niedrigste oder höchste Ausprägung zu wählen und somit einen Extremgruppenvergleich anzustellen. Aus statistischer Sicht ist weiterhin eine ausreichende Besetzung der gewählten Kategorie von Bedeutung, damit eine hinreichend präzise Schätzung überhaupt möglich ist. Im Anwendungsbeispiel definiere ich folgende Ausprägungen als Referenzkategorien; mit diesen werden die anderen Ausprägungen also jeweils verglichen: Tabelle 6: Referenzkategorien Variable Referenzkategorie alter_gr vaterab 0 Hauptschule mutterab 0 Hauptschule ethgr 1 weiß religion 1 protestantisch konsistenz 1 vaterab = mutterab 7 SPSS-Menü: Abweichung.

16 16 Sabine Fromm Nach diesen Vorarbeiten kann mit der eigentlichen Regressionsanalyse begonnen werden. Die einzelnen Elemente der nachstehenden Befehlssyntax und der damit angeforderte Output werden sukzessive erklärt. 4.3 Modell 1: Schrittweise Aufnahme der unabhängigen Variablen, keine Berücksichtigung von Interaktionseffekten Die Wahl eines stepwise -Modells bedeutet, dass die unabhängigen Variablen nicht auf einmal, sondern schrittweise in das Modell aufgenommen werden. Dabei werden auf jeder Stufe (= bei Aufnahme einer jeden Variablen) verschiedene statistische Kriterien überprüft, die über die Aufnahme bzw. den erneuten Ausschluss der einzelnen Variablen entscheiden. Zum Vergleich sollte stets ein Modell mit gleichzeitiger Aufnahme aller Variablen berechnet werden (/method = enter), weil bei den stepwise -Verfahren ausschließlich statistische Kriterien berücksichtigt werden. Möglicherweise will man aber bestimmte Variablen aus inhaltlichen Gründen im Modell haben, auch wenn sie z.b. schlechte Signifikanzwerte aufweisen. Im Folgenden stelle ich aber nur Syntax und Output für ein stepwise -Verfahren dar. Die Ergebnisse für ein Modell mit gleichzeitiger Aufnahme bilden gewissermaßen eine Teilmenge davon und müssen deshalb hier nicht gesondert dargestellt werden Syntax für Modell 1 LOGISTIC REGRESSION schulab ❶ /METHOD= fstep(cond) geschw alter_gr vaterab mutterab geschl ethgr religion konsistenz ❷ /contrast (alter_gr)=indicator(1)/contrast (vaterab)=indicator(1) /CONTRAST (mutterab)=indicator(1) /CONTRAST (ethgr)=indicator(1) /contrast (religion)=indicator(1) /contrast (konsistenz)=indicator(1) ❸ /CLASSPLOT /❹CASEWISE OUTLIER(2) ❺ /PRINT = summary CI(95) ❻ /CRITERIA = PIN(.05) POUT(.10) ITERATE(20) ❼CUT(.26). Erläuterungen: ❶ Aufnahmemethode der unabhängigen Variablen; hier: schrittweise vorwärts, d.h. es wird immer nur eine der unabhängigen Variablen geprüft und ggf. in das Modell aufgenommen; Kriterium ist eine Chi-Quadrat-Statistik und gleichzeitig ein akzeptabler Signifikanzwert (siehe Output: Variablen nicht in der Gleichung ); der Algorithmus endet, wenn entweder alle Variablen im Modell sind oder aufgrund statistischer Kriterien keine weitere Variable mehr aufgenommen werden kann. Die Aufnahmereihenfolge wird durch diesen Befehl nicht festgelegt, sie ergibt sich aus den Gütemaßen der einzelnen Variablen. ❷ Definition der kategorialen Variablen und Festlegung, welche Ausprägung jeweils Referenzkategorie sein soll; im Beispiel wurde jeweils die erste Ausprägung als Referenzkategorie gewählt, für sie wird also keine eigene Indikatorvariable berechnet. ❸ Anforderung einer grafischen Darstellung (Histogramm) der korrekten und falschen Klassifikationen (Abbildung 2). ❹ Fallweise Auflistung aller Ausreisser, deren z-residuen > 2 sind. ❺ Anforderung statistischer Informationen; per Voreinstellung werden ausgegeben: Tests und Kennzahlen der Modellgüte, Klassifikationstabellen und Statistiken für die einzelnen Variablen auf jeder Stufe der Modellentwicklung; zusätzlich wurde angefordert: corr = Korrelationsmatrix der Prädiktoren (Multikollinearität!); summary = zusammenfassende Tabelle zur Modellentwicklung; CI(95) = Konfidenzintervall für exp(b) (s.u.). ❻ PIN(n) = maximaler Signifikanzwert, der bei einer Variable noch vorliegen darf, damit sie in das Modell aufgenommen wird; je kleiner dieser Wert ist, desto schwieriger ist die Aufnahme. POUT(n) = analog PIN, aber für den Ausschluss. ❼ Cut-off für die Klassifikation; ein Fall wird der Gruppe mit der Ausprägung 1 zugeordnet, wenn die prognostizierte Wahrscheinlichkeit, der Gruppe 1 anzugehören, mindestens so groß

17 Binäre logistische Regressionsanalyse 17 wie der Cut-Wert ist; sind die Gruppen der abhängigen Variable gleich besetzt, ist der Cut gleich 0,5; andernfalls entspricht er dem Anteil der Fälle mit Ausprägung SPSS-Output Die Regressionsanalyse mit SPSS liefert 5 Typen von Informationen, die jedoch im SPSS- Output nicht durchgehend in der nachstehenden Reihenfolge dargestellt werden: Informationstypus Bezeichnung der Tabellen/Abbildungen des SPSS- Outputs 1. Informationen zum Modell Zusammenfassung der Fallverarbeitung Codierung abhängiger Variablen 2. Ausgangssituation vor Aufnahme der ersten Variable (nur Konstante im Modell) Codierung kategorialer Variablen (Anfangsblock:) Klassifizierungstabelle (Anfangsblock:) Variablen in der Gleichung (Anfangsblock:) Variablen nicht in der Gleichung 3. Beurteilung der Modellgüte Omnibustests der Modellkoeffizienten Modellzusammenfassung (Block 1:) Klassifizierungstabelle Zusammenfassung der Stufen Observed Groups and Predicted Probabilities 4. Beurteilung der einzelnen Variablen 5. Informationen über Ausreisser Variablen in der Gleichung Variablen nicht in der Gleichung Fallweise Liste Informationen zum Modell Zusammenfassung der Fallverarbeitung Ungewichtete Fälle(a) N Prozent Ausgewählte Fälle Einbezogen in Analyse ,3 Fehlende Fälle ,7 Gesamt ,0 Nicht ausgewählte Fälle 0,0 Gesamt ,0 a Wenn die Gewichtung wirksam ist, finden Sie die Gesamtzahl der Fälle in der Klassifizierungstabelle. Von den Fällen im Datensatz werden für die Analyse verwendet; 386 Fälle weisen fehlende Werte bei den unabhängigen Variablen auf. Wie ein Blick auf die Häufigkeitsverteilungen zeigt, betrifft dies in erste Linie die Variablen vaterab und mutterab und damit auch konsistenz. Diese Fälle werden nicht in die Modellbildung aufgenommen. Codierung abhängiger Variablen Ursprünglicher Wert Interner Wert nein 0 ja (mind. Abitur) 1 In Abhängigkeit von der Codierung der abhängigen Variable, wird immer die höhere Merkmalsausprägung geschätzt. Wollte man also im Beispiel die Ausprägung kein Abschluss schätzen, so müsste man die Variable schulab entsprechend recodieren. Sind die Ausprägungen nicht bereits im Datensatz mit 0 und 1 codiert, so vergibt SPSS diese Werte intern in der Prozedur zur Berechnung der logistischen Regressionsanalyse.

18 18 Sabine Fromm Codierungen kategorialer Variablen Parametercodierung Häufigkeit (1) (2) (3) (4) Schulabschluß Mutter Religionszugehörigkeit Schulabschluß Vater Alter grupp. Ethnische Gruppe Konsistenz 8 Hauptschule 436,000,000,000,000 Hauptschule (Quali.) 543 1,000,000,000,000 Mittlere Reife 35,000 1,000,000,000 Abitur 77,000,000 1,000,000 Universität/FH 23,000,000,000 1,000 Protestantisch 702,000,000,000,000 Katholisch 256 1,000,000,000,000 Jüdisch 25,000 1,000,000,000 keine 102,000,000 1,000,000 andere 29,000,000,000 1,000 Hauptschule 506,000,000,000,000 Hauptschule (Quali.) 401 1,000,000,000,000 Mittlere Reife 24,000 1,000,000,000 Abitur 115,000,000 1,000,000 Universität/FH 68,000,000,000 1, ,000,000, ,000,000, ,000 1,000,000 >= ,000,000 1,000 weiß 967,000,000 farbig 88 1,000,000 andere 59,000 1,000 vaterab = mutterab 698,000,000 vaterab < mutterab 196 1,000,000 vaterab > mutterab 220,000 1,000 Mit der Befehlssyntax wurde festgelegt, dass immer die erste Ausprägung der kategorialen Variablen Referenzkategorie sein soll. Für die Variable vaterab bedeutet das zum Beispiel, dass die Ausprägung mit dem Code 0 (Hauptschule ohne Abschluss) als Referenzkategorie dient; alle anderen Ausprägungen werden bei der Modellierung mit dieser verglichen. Die Informationen der anderen 4 Ausprägungen werden durch die von SPSS berechneten Indikatorvariablen abgebildet: Befragte, deren Väter z.b. Mittlere Reife haben, weisen folgende Werte auf: vaterab(1) = 0, vaterab(2) = 1, vaterab(3) = 0, vaterab(4) = Ausgangssituation vor Aufnahme der ersten Variable (nur Konstante im Modell) Aus der Klassifizierungstabelle des Anfangsblocks geht der Anteil der Merkmalsträger mit Ausprägung 1 bei der abhängigen Variable hervor; dieser Wert muss als cut off in die Befehlssyntax eingesetzt werden. Alle Fälle, deren Schätzwert mindestens so groß ist wie der cut off, werden bei der Klassifizierung nach Schätzwert der Ausprägung 1 der abhängigen Variable zugeordnet (siehe letzte Zeile der Befehlssyntax). 8 Bei der Variable Konsistenz ist die geringste Ausprägung 0 (fehlende Werte bei vaterab oder mutterab). Fälle mit fehlenden Werten bei diesen beiden Variablen werden aber gar nicht in das Modell aufgenommen. Deshalb hat die Variable konsistenz in der Prozedur logische Regression nur 3 Ausprägungen, von denen 1 (vaterab = mutterab) die niedrigste und damit Referenzkategorie ist.

19 Binäre logistische Regressionsanalyse 19 Klassifizierungstabelle(a,b) Beobachtet Schritt 0 Höherer Bildungsabschluss nein Höherer Bildungsabschluss ja (mind. nein Abitur) Vorhergesagt Prozentsatz der Richtigen 0 820,0 ja (mind. Abitur) ,0 Gesamtprozentsatz 26,4 a Konstante in das Modell einbezogen. b Der Trennwert lautet,260 Cut-off Die Klassifizierungstabelle zeigt die Klassifikation der Merkmalsträger, wenn nur die Konstante im Modell ist. Im Beispiel werden alle Befragten der Kategorie ja (mind. Abitur) zugeordnet. Mit Aufnahme geeigneter Prädiktoren wird dann eine sukzessive Trennung der Gruppen erreicht (siehe Klassifizierungstabelle in ). Die Odds Ratio der abhängigen Variable beträgt 294/820 = 0,359 für die Gesamtstichprobe. Logarithmierte Odds Ratio: ln(294/820) Variablen in der Gleichung Odds Ratio: 294/820 Regressionskoeffizient B Standardfehler Wald df Sig. Exp(B) Schritt 0 Konstante -1,026, ,687 1,000,359 In dieser Tabelle wird das Modell dargestellt, das lediglich die Konstante und noch keinerlei Prädiktoren enthält. Der Regressionskoeffient B gibt hier die logarithmierte Odds Ratio für die Zugehörigkeit zu Gruppe 1 (mind. Abitur) an, wenn keinerlei Informationen über die Merkmalsträger gegeben sind. Die Tabelle Variablen nicht in der Gleichung zeigt die Situation vor Aufnahme der unabhängigen Variablen in das Modell. Für alle Variablen wird die Situation vor Aufnahme der ersten Variable in das Modell angegeben. Berechnet wird jeweils das Chi-Quadrat-Maß zu einer Kreuztabelle aus jeder betrachteten unabhängigen und der abhängigen Variable zum Test der Hypothese, dass Zeilen und Spalten der Tabelle unabhängig von einander sind. Ausgewählt wird dann als erste Variable für das Modell, diejenige unabhängige Variable, mit dem höchsten Chi-Quadrat-Wert, der zugleich signifikant ist. In unserem Beispiel wird als erstes vaterab in die Analyse aufgenommen werden. Im nächsten Schritt werden die Chi-Quadrat-Statistiken erneut berechnet und diejenige Variable in das Modell aufgenommen, die nun den besten Wert aufweist. Diese Algorithmus wird so lange wiederholt, bis entweder alle Variablen in das Modell aufgenommen wurden oder bis keine signifikanten Chi-Quadrat-Statistiken mehr berechnet werden können.

20 20 Sabine Fromm Variablen nicht in der Gleichung Schritt 0 Wert df Sig. Variablen geschw 28,271 1,000 alter_gr 41,363 3,000 alter_gr(1) 29,720 1,000 alter_gr(2),061 1,805 alter_gr(3) 15,145 1,000 vaterab 136,537 4,000 vaterab(1) 1,031 1,310 vaterab(2) 2,946 1,086 vaterab(3) 53,210 1,000 vaterab(4) 42,849 1,000 mutterab 116,623 4,000 mutterab(1) 9,526 1,002 mutterab(2) 11,660 1,001 mutterab(3) 33,751 1,000 mutterab(4) 22,534 1,000 geschl 7,612 1,006 ethgr 10,776 2,005 ethgr(1) 9,491 1,002 ethgr(2) 1,807 1,179 religion 30,722 4,000 religion(1) 6,222 1,013 religion(2) 8,633 1,003 religion(3) 3,628 1,057 religion(4) 5,210 1,022 konsistenz 29,143 2,000 konsistenz(1),017 1,897 konsistenz(2) 27,909 1,000 Gesamtstatistik 227,516 21,000 Weiter geht es dann unter der Überschrift Block 1: Methode = Vorwärts Schrittweise (Konditional) mit Informationen zur Modellgüte Beurteilung der Modellgüte Die Statistiken zur Beurteilung der Modellgüte umfassen den Omnibus-Test der Modellkoeffizienten, die sog. Devianz und Maße zur Beurteilung der im Modell erklärten Varianz: Der Omnibus-Test der Modellkoeffizienten gibt zunächst einen Gesamteindruck von der Güte des Modells: Es zeigt Zahl der Schritte der Modellbildung (= Anzahl der aufgenommenen Variablen) und die Verbesserung der Modellgüte (gemessen als Veränderung von Chi-Quadrat) von Schritt zu Schritt der Variablenaufnahme, sowie die Signifikanz dieser Veränderungen. Der erste Wert in jedem der Schritt x -Felder ab Schritt 2 zeigt die Veränderung von Chi- Quadrat auf dieser Stufe, die beiden anderen den Gesamtwert von Chi-Quadrat auf dieser Stufe. Ist das Testergebnis signifikant, so bedeutet dies, dass alle ausgewählten Prädiktoren Einfluss auf die abhängige Variable haben.

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Logistische Regression - - - - - 24. Juni 2011

Logistische Regression - - - - - 24. Juni 2011 Lehrveranstaltung Empirische Forschung und Politikberatung Sommersemester 2011 Logistische Regression - - - - - 24. Juni 2011 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2: Qualifikation, berufliche

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation Einführung in die Logistische Regression Fortbildung zur 9.Informationstagung Tumordokumentation Bernd Schicke, Tumorzentrum Berlin FB Bayreuth, 29.März 20 Gliederung Einleitung Schätzen von Maßzahlen

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

IBM SPSS Regression 22

IBM SPSS Regression 22 IBM SPSS Regression 22 Hinweis Vor Verwendung dieser Informationen und des darin beschriebenen Produkts sollten die Informationen unter Bemerkungen auf Seite 33 gelesen werden. Produktinformation Diese

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Multivariate Analyse: Einführung in das COX-Modell

Multivariate Analyse: Einführung in das COX-Modell Auswertung Multivariate Analyse: Einführung in das COX-Modell Deskriptive Statistik Häufigkeiten, Univariate Statistiken, Explorative Datenanalyse, Kreuztabellen) Induktive Statistik, Vergleich von Mittelwerten

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Master of Science in Pflege

Master of Science in Pflege Master of Science in Pflege Modul: Statistik Einfache und multiple Regressionsanalyse / Logistische Regressionsanalyse November 2012 Prof. Dr. Jürg Schwarz Folie 2 Programm 28. November 2012: Vormittag

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

SPSS Regression Models 12.0

SPSS Regression Models 12.0 SPSS Regression Models 12.0 Weitere Informationen zu SPSS -Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com, oder wenden Sie sich an SPSS GmbH Software Rosenheimer

Mehr

3 Zusammenhangsmaße Zusammenhangshypothesen

3 Zusammenhangsmaße Zusammenhangshypothesen 3 Zusammenhangsmaße Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert

Mehr

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik Institut für Soziologie Dr. Methoden 2 Einführung, grundlegende PASW-Bedienung, univariate Statistik Programm Wiederholung zentraler Aspekten der Übungen Literatur zur Veranstaltung Erste Schritte mit

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

5 Zusammenhangsmaße, Korrelation und Regression

5 Zusammenhangsmaße, Korrelation und Regression 5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung Eine Einführung für Anwender - Marcel Erlinghagen - Gelsenkirchen, Oktober 2003 Gliederung

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

SPSS Regression Models 16.0

SPSS Regression Models 16.0 i SPSS Regression Models 16.0 Weitere Informationen zu SPSS -Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com oder wenden Sie sich an SPSS Inc. 233 South Wacker Drive,

Mehr

Kreuztabellenanalyse -Zusammenhangsmaße

Kreuztabellenanalyse -Zusammenhangsmaße Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Kreuztabellenanalyse -Zusammenhangsmaße 14. Dezember 2007 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2:

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Datenanalyse mit SPSS spezifische Analysen

Datenanalyse mit SPSS spezifische Analysen Datenanalyse mit SPSS spezifische Analysen Arnd Florack Tel.: 0251 / 83-34788 E-Mail: florack@psy.uni-muenster.de Raum 2.015 Sprechstunde: Dienstags 15-16 Uhr 25. Mai 2001 2 Auswertung von Häufigkeitsdaten

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

i PASW Regression 18

i PASW Regression 18 i PASW Regression 18 Weitere Informationen zu SPSS Inc.-Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com oder wenden Sie sich an SPSS Inc. 233 South Wacker Drive,

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

6.1.2 Die Interaktionseffekte von Dummy- und zentrierten metrischen Variablen

6.1.2 Die Interaktionseffekte von Dummy- und zentrierten metrischen Variablen Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003-1 6.1.2 Die Interaktionseffekte von Dummy- und zentrierten metrischen Variablen Bei der Zentrierung handelt es sich um eine lineare

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

IBM SPSS Regression 20

IBM SPSS Regression 20 IBM SPSS Regression 20 Hinweis: Lesen Sie zunächst die allgemeinen Informationen unter Hinweise auf S. 47, bevor Sie dieses Informationsmaterial sowie das zugehörige Produkt verwenden. Diese Ausgabe bezieht

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Grundbegriffe (1) Grundbegriffe (2)

Grundbegriffe (1) Grundbegriffe (2) Grundbegriffe (1) S.1 Äquivalenzklasse Unter einer Äquivalenzklasse versteht man eine Klasse von Objekten, die man hinsichtlich bestimmter Merkmalsausprägungen als gleich (äquivalent) betrachtet. (z.b.

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

V A R I A N Z A N A L Y S E

V A R I A N Z A N A L Y S E V A R I A N Z A N A L Y S E Ziel / Funktion: statistische Beurteilung des Einflusses von nominal skalierten (kategorialen) Faktoren auf intervallskalierte abhängige Variablen Vorteil: die Wirkung von mehreren,

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav Beispiel für eine multivariate Varianzanalyse () Daten: POKIV_Terror_V12.sav Es soll überprüft werden, inwieweit das ATB-Syndrom (Angst vor mit den drei Subskalen affektive Angst von, Terrorpersistenz,

Mehr

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Poster Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Timm Euler Tobias Otte viadee GmbH viadee GmbH Anton-Bruchausen-Str. 8 Anton-Bruchausen-Str. 8 48147 Münster 48147 Münster Timm.Euler@viadee.de

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Kapitel 33 Hoch-Tief-Diagramme

Kapitel 33 Hoch-Tief-Diagramme Kapitel 33 Hoch-Tief-Diagramme 33.1 Diagrammtypen In einem Hoch-Tief-Diagramm werden Wertepaare oder -tripel dargestellt. Einen typischen Anwendungsfall für Hoch-Tief-Diagramme bildet die Darstellung von

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen.

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen. 5 Statistik mit SPSS Die Durchführung statistischer Auswertungen erfolgt bei SPSS in 2 Schritten, der Auswahl der geeigneten Methode, bestehend aus Prozedur Variable Optionen und der Ausführung. 5.1 Variablen

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Kurs 9.3: Forschungsmethoden II

Kurs 9.3: Forschungsmethoden II MSc Banking & Finance Kurs 9.3: Forschungsmethoden II Zeitreihenanalyse Lernsequenz 01: Einführung EViews Oktober 2014 Prof. Dr. Jürg Schwarz Folie 2 Inhalt Anmerkung 4 Das Hilfesystem von EViews 5 Workshop

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Varianzananalyse. How to do

Varianzananalyse. How to do Varianzananalyse How to do Die folgende Zusammenfassung zeigt beispielhaft, wie eine Varianzanalyse mit SPSS durchgeführt wird und wie die Ergebnisse in einem Empra-Bericht oder in einer Bachelor- oder

Mehr

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Phasen des Forschungsprozesses Auswahl des Forschungsproblems Theoriebildung Theoretische Phase Konzeptspezifikation / Operationalisierung

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr