Binäre logistische Regressionsanalyse

Größe: px
Ab Seite anzeigen:

Download "Binäre logistische Regressionsanalyse"

Transkript

1 Binäre logistische Regressionsanalyse Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Sabine Fromm Bamberger Beiträge zur empirischen Sozialforschung Nr. 11, 2005 Herausgeber: Gerhard Schulze und Leila Akremi ISSN

2 Bamberger Beiträge zur empirischen Sozialforschung 1 Einführung in die Methoden der empirischen Sozialforschung (2., überarbeitete Auflage) 2 Einführung in die Methoden der empirischen Sozialforschung. Übungsaufgaben und Lösungen (2., überarbeitete Auflage) 3 Die biographische Methode. Ein Verfahren zur qualitativen Analyse individueller Verlaufsmuster in den Sozialwissenschaften (2., unveränderte Auflage) 4-1 Sozialwissenschaftliche Datenanalyse am PC für Fortgeschrittene. Ein Arbeitsbuch mit SPSS für Windows 5 Takeoff der Auswertung. Zur Vorbereitung statistischer Analysen Gerhard Schulze 2004 Gerhard Schulze 2004 Nina Baur 2003 Nina Baur 2003 Nina Baur Typenbildung, Umgang mit fehlenden Werten und Bilden neuer Variablen. Eine Einführung in die Datenmodifikation und selektion mit SPSS für Windows. 7 Datenbereinigung und Matchen. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows. Sabine Fromm Sabine Fromm In Vorb. In Vorb. 8 Univariate Statistik. Eine Einführung in den Umgang mit eindimensionalen Häufigkeitsverteilungen mit SPSS für Windows Nina Baur Bivariate Statistik, Drittvariablenkontrolle und das Ordinalskalenproblem. Eine Einführung in die Kausalanalyse und in den Umgang mit zweidimensionalen Häufigkeitsverteilungen mit SPSS für Windows (2., korrigierte Auflage) Nina Baur Multiple lineare Regressionsanalyse. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows 11 Binäre logistische Regressionsanalyse. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows 12 Faktorenanalyse und Reliabilitätsanalyse. Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Sabine Fromm 2003 Sabine Fromm 2005 Sabine Fromm Wie kommt man von den Ergebnissen der Faktorenanalyse zu Dimensionsvariablen? Eine Einführung in die Dimensionsbildung mit SPSS für Windows (2., korrigierte Auflage) Nina Baur Quantitative Analyse zeitlicher Veränderung Band 1: Überblick und theoretische Grundlage Band 2: Panelanalyse Band 3 Kohortenanalyse Band 4: Zeitreihenanalyse Band 5: Ereignisanalyse 20 Präsentation statistischer Daten Eine Einführung für Sozialwissenschaftler mit SPSS für Windows Nina Baur (Hg.) Nina Baur (Hg.) Nina Baur (Hg.) Nina Baur (Hg.) Nina Baur (Hg.) Simone Zdrojewski / Jan D. Engelhardt 2003 In Vorb. In Vorb. In Vorb. In Vorb Datenaufbereitung. Arbeitsschritte zwischen Erhebung und Auswertung quantitativer Daten 22 Arbeiten mit MAXqda. Kurze Einführung in die computergestützte Analyse qualitativer Daten (2., korrigierte Auflage) Detlev Lück 2003 Britta Wagner Wo liegen die Grenzen quantitativer Längsschnittsanalysen? Nina Baur 2004 ISSN: X Herausgegeben von Gerhard Schulze und Leila Akremi, Professur für Methoden der empirischen Sozialforschung, Otto-Friedrich-Universität Bamberg, Bamberg

3 Inhalt 1 Einleitung Modellvoraussetzungen Der Rechenansatz der binären logistischen Regressionsanalyse Berechnung einer logistischen Regressionsanalyse mit SPSS Fragestellung und Beispieldatensatz Transformation kategorialer Regressoren mit k > 2 Ausprägungen Einführung Dummy-Codierung (Bezeichnung in SPSS: Indicator) Effekt-Codierung (Bezeichnung in SPSS: Deviation) Kontrast-Codierung (Bezeichnung in SPSS: spezial(matrix)) Wahl der Referenzkategorie Modell 1: Schrittweise Aufnahme der unabhängigen Variablen, keine Berücksichtigung von Interaktionseffekten Syntax für Modell SPSS-Output Informationen zum Modell Ausgangssituation vor Aufnahme der ersten Variable (nur Konstante im Modell) Beurteilung der Modellgüte Beurteilung der einzelnen Prädiktoren Ausreissererkennung Modell 2: Schrittweise Aufnahme der unabhängigen Variablen unter Berücksichtigung von Interaktionseffekten Literatur Anhang...34

4

5 1 Einleitung Die logistische Regressionsanalyse kann immer dann eingesetzt werden, wenn es darum geht, Gruppenunterschiede zu erklären oder Gruppenzugehörigkeiten zu prognostizieren. Im Fall der binären logistischen Regressionsanalyse ist die abhängige Gruppenvariable dichotom. Typischen Fragestellungen sind etwa: Welche Ehen haben ein erhöhtes Scheidungsrisiko? Welche Familien bleiben dauerhaft von Sozialhilfe abhängig? Wie kann man vorhersagen, welche Kunden eine erhöhte Kaufwahrscheinlichkeit für ein bestimmtes Produkt haben? Welche Kunden kann man als kreditwürdig einschätzen? Wie kann man die Unterschiede zwischen Wählern und Nichtwählern erklären? Wie kann man prognostizieren, ob ein Unternehmen wachsen wird? Bei der Erklärung von Gruppenunterschieden geht es darum, Variablen zu identifizieren, die diese Unterschiede produzieren und die Stärke und Richtung ihres Einflusses zu bestimmen. Häufig wird aber eine Prognose interessieren. So werden z.b. im Marketing Modelle zur Prognose von Kaufwahrscheinlichkeiten für bestimmte Produkte berechnet. Dazu werden die bisherigen Käufer mit ihren typischen Produkt- und sonstigen Merkmalskombinationen modelliert. Mit diesem Modell können dann Kaufprognosen für die bisherigen Nicht-Käufer erstellt werden, für die diese Merkmale ebenfalls erhoben wurden. In Vertriebsaktionen werden dann bisherige Nicht-Käufer mit einer hohen Kaufwahrscheinlichkeit angeschrieben die Abschlussquoten sind höher als wenn alle Kunden angeschrieben würden, und es muss nur eine relativ kleine Gruppe kontaktiert werden (Kostenersparnis). Da bei der logistischen Regressionsanalyse Gruppenzugehörigkeitswahrscheinlichkeiten geschätzt werden, sind auch Aussagen darüber möglich, wie sich diese Wahrscheinlichkeiten verändern, wenn sich die Werte der unabhängigen Variablen (Regressoren) verändern. Wie ändert sich zum Beispiel die Kaufwahrscheinlichkeit für Produkt A mit der Anzahl der bisher gekauften Produkte oder welche Produktkombination lässt die Wahrscheinlichkeit für den zusätzlichen Kauf von Produkt A besonders stark ansteigen? Die logistische Regressionsanalyse weist Ähnlichkeiten insbesondere mit der multiplen linearen Regressionsanalyse und der linearen Diskriminanzanalyse auf, hebt sich aber dennoch deutlich von beiden Verfahren ab: Bei der multiplen linearen Regressionsanalyse wird eine metrische, kontinuierliche Variable erklärt oder prognostiziert, keine Gruppenzugehörigkeiten. Die lineare Diskriminanzanalyse erfordert die Erfüllung von Verteilungsannahmen wie multivariate Normalverteilung der Prädiktoren in beiden Gruppen und Homogenität der Kovarianzmatrizen, außerdem müssen die Prädiktoren mindestens intervallskaliert sein. 2 Modellvoraussetzungen Welche Voraussetzungen bezüglich der Daten müssen für eine logistische Regressionsanalyse erfüllt sein? Die unabhängigen Variablen (auch Regressoren oder Prädiktoren genannt) können sowohl kategorial als auch metrisch sein. Kategoriale Variablen mit mehr als zwei Ausprägungen müssen für die Analyse in Indikatorvariablen umgewandelt werden, d.h. für jede Ausprägung der ursprünglichen Variable wird eine neue, dichotome Variable gebildet (siehe 4.2). SPSS bietet verschiedene Möglichkeiten zum automatischen Umkodieren von kategorialen Variablen innerhalb der Prozedur logistic regression. Die abhängige Variable (Kriterium) kann binär oder kategorial sein. Für die Berechnung einer logistischen Regressionsanalyse mit einer kategorialen abhängigen Variable mit mehr als zwei Ausprägungen bietet SPSS eine eigenständige Prozedur an ( nomreg ). Diese kann selbstverständlich auch auf den binären Spezialfall angewendet werden, führt aber zu etwas anderen Ergebnissen als die binäre logistische Regression ( logistic regression ), da zum Teil

6 6 Sabine Fromm andere Algorithmen berechnet werden. Insbesondere rechnet nomreg nicht mit Individualdaten, sondern fasst alle Fälle mit identischer Prädiktoren-Kombination zu einer Gruppe zusammen. Dies wirkt sich vor allem bei der Berechnung von Maßen zur Beschreibung und zum Test der Anpassungsgüte eines Modells aus (Baltes-Götz 2004: 6 f.). Verteilungsannahmen sind für die logistische Regressionsanalyse nicht erforderlich. Zwischen den Prädiktoren sollte keine Multikollinearität vorliegen, da sonst verzerrte Schätzungen und erhöhte Standardfehler auftreten können. Weiterhin muss die Stichprobengröße berücksichtigt werden: Als absolute Untergrenze gelten 50 Beobachtungen, bei der binären logistischen Regression sollten also für jede Gruppe mindestens 25 Beobachtungen vorliegen. Aussagekräftige Ergebnisse können jedoch erst ab ca. 100 Beobachtungen erwartet werden. Weiterhin muss die Zahl der erforderlichen Beobachtungen mit der Zahl der Prädiktoren in Verbindung gesetzt werden, da bei zunehmender Variablenzahl die Zahl der möglichen Kovariatenmuster dramatisch anwächst. Im folgenden geht es ausschließlich um die binäre logistische Regressionsanalyse. 3 Der Rechenansatz der binären logistischen Regressionsanalyse Ebenso wie bei der multiplen linearen Regression wird nach einer Gleichung gesucht, die den Zusammenhang zwischen einer abhängigen und mehreren unabhängigen Variablen abbildet. Diese Gleichung soll den Zusammenhang modellieren zwischen der Veränderung kategorialer oder metrischer unabhängiger Variablen einerseits und der Wahrscheinlichkeit der Zugehörigkeit zu einer Kategorie der abhängigen Variable andererseits. Die logistische Regression ist ein Beispiel für ein verallgemeinertes lineares Modell ( generalized linear model ). Bei diesen Modellen werden die Schätzwerte der abhängigen Variable nicht unmittelbar durch eine lineare Gleichung bestimmt, sondern es wird eine sog. Link- Funktion zwischen die lineare Funktion und die Schätzwerte geschaltet. Mittels dieser Link- Funktion wird die Regressionsgerade in einen nicht-linearen Verlauf transformiert (Kühnel/Krebs 2001: 609). Bei der linearen multiplen Regressionsanalyse wird der Zusammenhang zwischen Kriterium und Prädiktoren bekanntlich wie folgt abgebildet: y = b + b x + b x b x +... b x + e i 0 1 i1 2 i2 j ij k ik i Mit: y i = Ausprägung der abhängigen Variable bei Merkmalsträger i (i = 1, 2,, n) x ij = Ausprägung der j-ten unabhängigen Variable bei Merkmalsträger i (j = 1,2,...k) b j = Regressionskoeffizient (Steigungsparameter) der j-ten unabhängigen Variable b 0 = Regressionskonstante e i = Residuum bei Merkmalsträger i Es wird also die Ausprägung einer metrischen Variable geschätzt. Demgegenüber geht es bei der Problemstellung der logistischen Regression um die Erklärung oder Prognose der Zugehörigkeit zu einer von zwei Gruppen, die abhängige Variable ist binär. Geschätzt wird hier immer die die Zugehörigkeit zur mit 1 codierten Gruppe der mit 0 und 1 codierten Ausprägungen der abhängigen Variable. Um eine Schätzgleichung aufzustellen, die es erlaubt, die Stärke des Einflusses der unabhängigen Variablen zu modellieren, also kontinuierliche Veränderungen abzubilden, sind mehrere Zwischenschritte notwendig: Zunächst wird nicht die Gruppenzugehörigkeit (y = 1) selbst als abhängige Variable betrachtet, sondern die Wahrscheinlichkeit der Gruppenzugehörigkeit: p(y=1). Dadurch ergibt sich eine im Intervall [0;1] stetige abhängige Variable. Ohne etwas über die Ausprägungen der unabhängigen Variablen bei einem Merkmalsträger zu wissen, würde man seine Wahrscheinlichkeit dafür, bei der abhängigen Variable die Ausprägung 1 aufzuweisen, mit der relativen Häufigkeit von y = 1 in der Stichprobe gleichsetzen, würde diese relative Häufigkeit also als durchschnittliche Wahrscheinlichkeit interpre-

7 Binäre logistische Regressionsanalyse 7 tieren. Die Ausprägungen bei den unabhängigen Variablen beeinflussen dann die Wahrscheinlichkeit des Merkmalsträgers nach oben oder unten 1. Da Wahrscheinlichkeiten nur im Intervall [0;1] variieren, die abhängige Variable aber Werte von - bis + annehmen können soll, werden zwei Transformationen vorgenommen: (1) Als abhängige Variable wird nicht länger die Wahrscheinlichkeit der Gruppenzugehörigkeit betrachtet, sondern das sog. Chancenverhältnis, die Odds Ratio : p( y = 1) ( 1 p( y = 1) ) Die Wahrscheinlichkeit der Gruppe 1 anzugehören wird also dividiert durch die Wahrscheinlichkeit, ihr nicht anzugehören. Mit der Verwendung der Odds Ratio kann die abhängige Variable nun Werte im Intervall [0;+ ] annehmen. (2) Im nächsten Schritt wird die Beschränkung nach unten aufgehoben, indem man das Chancenverhältnis logarithmiert; damit kann die abhängige Variable alle Werte zwischen [- ;+ ] annehmen. Es ergibt sich folgende Schätzgleichung: p ( y = 1 )) ( 1 p ( y = 1 ) ln = b Der Ausdruck auf der linken Seite der Gleichung wird als Logit bezeichnet. Nun kann wieder nach der Wahrscheinlichkeit p(y=1) aufgelöst werden, und es ergibt sich die Schätzgleichung für das Modell der logistischen Regression: 1 p... z 1+ e ( y = 1) = mit z = b0 + b1 xi 1 + b2 xi b j xij + bk xik Die logistische Funktion ist häufig besser als eine lineare Funktion geeignet, Verhalten zu beschreiben, da für sie nicht die Modellannahme gilt, dass eine Veränderung der unabhängigen Variable stets eine proportionale Veränderung der abhängigen Variable bewirkt. Mit anderen Worten: eine Veränderung von x hat nicht an allen Stellen der Funktion die gleiche Wirkung auf y. Im Bereich sehr kleiner und sehr großer x-werte sind die Veränderungen von y nur sehr gering; starke Veränderungen von y finden sich nur im mittleren Bereich der Funktion. Abbildung 1: Logistische Funktion 0 b 1 x i 1 b 2 x i 2... b j x ij... b k x ik 1.0 p(y=1) unabhängige Variable x 1 Die durchschnittliche Wahrscheinlichkeit wird als cut off bezeichnet. Z.B. würde man für eine Marketingaktion nur Kunden auswählen, deren Kaufwahrscheinlichkeit für das beworbene Produkt über dem cut off liegt.

8 8 Sabine Fromm Beispiel: y = Entscheidung für ( 1 ) oder gegen ( 0 ) Umzug x = Mieterhöhung in Euro Es ist anzunehmen, dass nicht jeder Euro Mieterhöhung die Wahrscheinlichkeit für die Entscheidung umzuziehen gleichermaßen beeinflusst. Plausibel ist vielmehr, dass eine Mieterhöhung in geringem Umfang (kleine Werte von x) die Wahrscheinlichkeit nur geringfügig beeinflusst. Ab einem gewissen Schwellwert lassen aber geringfügige Erhöhungen die Wahrscheinlichkeit stark ansteigen, förmlich jeder Euro mehr nimmt starken Einfluss auf die Entscheidung. Im oberen Bereich (sehr hohe x-werte) wiederum wirken weitere Erhöhungen erneut nur geringfügig auf die bereits sehr hohe Wahrscheinlichkeit ein. Wie sind nun die b-koeffizienten der logistischen Regressionsfunktion zu interpretieren? b 0 wirkt sich auf die Lage der Regressionsfunktion aus, nicht auf ihre Gestalt. Die Steigungskoeffizienten b j geben an, wie steil oder wie flach die Kurve verläuft und ob der Zusammenhang von x auf y positiv oder negativ ist. Ein stark von Null abweichender b j -Wert charakterisiert einen steilen Anstieg (oder Abfall) der Funktion, je näher der Wert bei Null liegt, desto stärker nähert sich die Funktion einer Gerade an (= kein Zusammenhang von x und y). Aufgrund der Eigenschaften der logistischen Regressionsfunktion kann b j aber nicht als globales Maß für den Einfluss von x und y interpretiert werden. An unterschiedlichen Stellen der Funktion also bei unterschiedlichen Ausprägungen von x ist die Steigung der Funktion unterschiedlich stark, also der Einfluss von x unterschiedlich groß. Für die Interpretation der Ergebnisse wird man deshalb lediglich das Vorzeichen von b j betrachten. Um die Stärke des Einflusses von x zu beurteilen verwendet man den sog. Effekt-Koeffizienten exp(b j ): Dieser gibt den Faktor der Vervielfachung der Odds Ratio an, wenn sich x um eine Einheit verändert 2 (siehe z.b. Diaz-Bone/Künemund 2003: 8). Der Effekt-Koeffizient kann Werte zwischen größer 0 und + annehmen. Werte größer 1 vergrößern die Odds Ratio, Werte kleiner 1 verringern sie. Der b-koeffizient der logistischen Regression beeinflusst also die Wahrscheinlichkeit p(y = 1) in nicht-linearer Weise, verändert aber das Wahrscheinlichkeitsverhältnis linear um das exp(b)-fache. Bei kategorialen Regressoren hängt die genaue Interpretation von exp(b) von der gewählten Kontrast-Kodierung ab (siehe 4.2). Beispiel: Untersucht wird der Einfluss der unabhängigen Variable x = Geschlecht (0 weiblich, 1 männlich ) auf die abhängige Variable y = Berufstätigkeit (0 nein, 1 ja). Der Regressionskoeffizient b betrage 0,25. Der Effekt-Koeffizient exp(b) beträgt dann exp(0,25) = 1,28. Dies bedeutet, dass die Zunahme der Variable Geschlecht um eine Einheit, also der Übergang von weiblich zu männlich, das Verhältnis der Wahrscheinlichkeiten p( berufstätig ) / p( nicht berufstätig ) um das 1,28-fache erhöht. Die Odds Ratio der Männer ist also gegenüber derjenigen der Frauen um 28% erhöht. Mittels der binären logistischen Regressionsanalyse sollen die b-koeffizienten so geschätzt werden, dass die resultierende Gleichung die zwei Ausprägungen der abhängigen Variable bestmöglich trennt. Dazu wird die Maximum-Likelihood-Methode verwendet, ein Verfahren, bei dem im Nachhinein 3 bestimmt wird, wie wahrscheinlich das Auftreten einer konkreten Stichprobe ist, unter der Bedingung, dass ein bestimmter Parameter vorliegt. Gesucht wird diejenige Kombination von b-koeffizienten, welche die Likelihood-Funktion maximiert und damit die beste Trennung zwischen den Ausprägungen der abhängigen Variable bewirkt. Üblicherweise wird die logarithmierte Likelihood-Funktion LL verwendet: LL = ln ( L) = ln(p(y i = 1)) + yi = 1 yi = 0 ln(1 p(y i = 1)) LL kann Werte zwischen [- ;0] annehmen. Hohe b-werte bewirken eine starke Steigung der Funktion und begrenzen somit den Wahrscheinlichkeitsübergang auf einen engeren Wertebe- 2 3 Und bei einer multivariaten Analyse die Ausprägungen aller anderen Regressoren gleich bleiben. Wegen dieser nachträglichen Berechnung, also nach Ziehung der Stichprobe, wird von likelihood und nicht von probability gesprochen.

9 Binäre logistische Regressionsanalyse 9 reich als niedrige b-werte. Je größer b, desto mehr nähert sich der LL-Wert Null an. Aus der LL-Funktion werden verschiedene Gütemaße für die Modellanpassung abgeleitet ( ). Dabei gilt 4, dass das Modell umso besser ist, je größer der Abstand zwischen LL 0 und LL V ist. - maximierter LL-Wert des Nullmodells für den Datensatz LL 0 LL V 0 maximierter LL-Wert unter Berücksichtigung aller unabhängigen Variablen maximal erreichbarer LL-Wert 4 Berechnung einer logistischen Regressionsanalyse mit SPSS Die Teilschritte der Prozedur logistische Regression und ihre Interpretation werden im Folgenden an einem Beispiel dargestellt. 4.1 Fragestellung und Beispieldatensatz Im Folgenden sollen Gruppenunterschiede zwischen Personen mit bzw. ohne höheren Bildungsabschluss untersucht werden; es geht also um die Frage, welche unabhängigen Variablen die Unterschiede zwischen den Ausprägungen der binären Variable Vorliegen/Fehlen eines höheren Bildungsabschlusses erklären. Für das Anwendungsbeispiel verwende ich Umfragedaten aus den USA, die 1993 erhoben wurden (n = 1.500). Dieser Datensatz ist als Beispieldatensatz in SPSS (Version ; Datensatz 1993 US-Sozialerhebung (Teilmenge.sav )) enthalten, so dass das Anwendungsbeispiel nachvollzogen werden kann. Im Anhang dieses Bandes ist die Syntax für alle Berechnungen angegeben, inklusive Variablentransformationen usw. Die Information über den Bildungsabschluss ist in der Variable schulab abgelegt. Ich benenne die labels wie folgt um: variable labels schulab 'Höherer Bildungsabschuss'. add value labels schulab 0 'nein' 1 'ja (mind. Abitur)'. execute. Zunächst werden Variablen aus dem Datensatz ausgewählt, von denen angenommen werden kann, dass sie Einfluss auf das Erreichen des Schulabschlusses nehmen. Es muss sich also um Variablen handeln, die bereits ausgeprägt waren, bevor der Befragte seinen Bildungsabschluss erlangte. Vor der Durchführung der Prozedur logistic regression betrachte ich die Verteilungen dieser Variablen und schätze mittels Kreuztabellen und Korrelationsanalysen ihren Zusammenhang mit der abhängigen Variable. Als aus inhaltlichen Überlegungen potenziell geeignete Variablen wähle ich aus: Anzahl der Geschister (geschw), Alter des Befragten (alter), Bildungsabschluss des Vaters bzw. der Mutter (vaterab, mutterab), Geschlecht (geschl), ethnische Zugehörigkeit (ethgr), Religionszugehörigkeit (religion). Weiterhin wird eine neue Variable berechnet (konsistenz), die angibt, ob die Eltern identische oder unterschiedliche Bildungsabschlüsse besitzen: compute konsistenz = 0. if (vaterab = mutterab) konsistenz = 1. if (vaterab < mutterab) konsistenz = 2. if (vaterab > mutterab) konsistenz = 3. variable labels konsistenz 'Konsistenz'. value labels konsistenz 0 'fehlende Werte bei mind. 1 Elternteil' 1 'vaterab = mutterab' 2 'vaterab < mutterab' 3 'vaterab > mutterab'. freq /var konsistenz.if (vaterab = mutterab) konsistenz = 1. 4 Quelle: Rese 2000, S. 115.

10 10 Sabine Fromm Nachstehend eine Übersicht über alle Variablen und ihre Ausprägungen, die in die Analyse aufgenommen werden: Tabelle 1: Variablen in der Analyse Variable labels Variablenname Value labels Ausprägungen schulab höherer Bildungsabschluss 1 ja (mind. Abitur) 0 nein alter Alter (Alter in Jahren) Abhängige Variable Unabhängige Variablen geschw Anzahl Geschwister (Anzahl) vaterab Höchster Schulabschluss des Vaters Hauptschule 5 Hauptschule (Quali) Mittlere Reife Abitur Uni/FH mutterab Höchster Schulabschluss der Mutter Hauptschule Hauptschule (Quali) Mittlere Reife Abitur Uni/FH geschl Geschlecht 0 1 weiblich männlich ethgr Ethnische Gruppe weiß farbig andere religion Religionszugehörigkeit protestantisch katholisch jüdisch keine andere konsistenz Konsistenz der Bildungsabschlüsse der Eltern vaterab = mutterab vaterab < mutterab vaterab > mutterab fehlende Werte bei mind. 1 Elternteil Die Betrachtung der abhängigen Variable schulab zeigt zunächst, dass 347 der Befragten mindestens Abitur besitzen. Einige der bisher ausgewählten unabhängigen Variablen weisen zum Teil nur sehr schwach besetzte Kategorien auf (siehe Tabelle 2), hier sind Signifikanzprobleme zu erwarten. In einem ersten Schritt wird nun überprüft, ob Zusammenhänge der einzelnen unabhängigen Variablen mit der abhängigen Variable bestehen. Dazu berechne ich einfache Kreuztabellen für die kategorialen Variablen und Korrelationen für die metrischen Variablen. * Basic Tables. TABLES /FORMAT BLANK MISSING('.') 5 Die Datenbeschriftung Hauptschule bzw. Hauptschule (Quali) entnehme ich dem Originaldatensatz. Welcher Abschluss des amerikanischen Schulsystems damit genau bezeichnet wird, ist unklar.

11 Binäre logistische Regressionsanalyse 11 Tabelle 2: Verteilung der Variable "schulab" in den kategorialen Prädiktoren Schulabschluss Vater Höherer Bildungsabschluss nein ja (mind. Abitur) /FTOTAL $t 'Gruppen-Gesamtwert' /TABLES (vaterab + $t + mutterab + $t + geschl + $t + ethgr + $t + religion + $t + konsistenz + $t) BY (schulab > (STATISTICS) + $t ) /STATISTICS count( ( F5.0 )) cpct( ( PCT5.1 ) 'Zeilen%':vaterab mutterab geschl ethgr religion region4 konsistenz). Gruppen- Gesamtwert Anzahl Zeilen% Anzahl Zeilen% Anzahl Zeilen% Hauptschule ,6% 70 12,4% ,0% Hauptschule (Quali.) ,7% ,3% ,0% Mittlere Reife 14 56,0% 11 44,0% ,0% Abitur 56 46,3% 65 53,7% ,0% Universität/FH 28 39,4% 43 60,6% ,0% Gruppen-Gesamtwert ,7% ,3% ,0% Schulabschluss Mutter Hauptschule ,9% 60 11,1% ,0% Hauptschule (Quali.) ,7% ,3% ,0% Mittlere Reife 21 51,2% 20 48,8% ,0% Abitur 47 49,0% 49 51,0% ,0% Universität/FH 11 37,9% 18 62,1% ,0% Gruppen-Gesamtwert ,1% ,9% ,0% Geschlecht weiblich ,9% ,1% ,0% männlich ,7% ,3% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Ethnische Gruppe weiß ,4% ,6% ,0% farbig ,6% 14 8,4% ,0% andere 50 66,7% 25 33,3% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Religionszugehörigkeit Protestantisch ,4% ,6% ,0% Katholisch ,8% 94 28,2% ,0% Jüdisch 13 41,9% 18 58,1% ,0% keine 98 70,0% 42 30,0% ,0% andere 20 57,1% 15 42,9% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Konsistenz fehlende Werte bei mind. 1 Elternteil ,8% 49 13,2% ,0% vaterab = mutterab ,1% ,9% ,0% vaterab < mutterab ,1% 54 26,9% ,0% vaterab > mutterab ,5% 90 40,5% ,0% Gruppen-Gesamtwert ,8% ,2% ,0% Tabelle 2 zeigt, dass die Anteile der Personen mit höherem Bildungsabschluss in den Subgruppen aller betrachteten Variablen sehr unterschiedlich verteilt sind. Auch wenn hier jeweils

12 12 Sabine Fromm nur bivariate Beziehungen betrachtet werden, lassen die Ergebnisse doch erwarten, dass auch bei der multivariaten Analyse eine gute Trennung zwischen Personen mit/ohne höheren Bildungsabschluss erreicht wird. Allerdings sind einige Kategorien nur sehr schwach besetzt, z.b. die mittleren Bildungsabschlüsse bei beiden Elternteilen (vaterab, mutterab) oder die Ausprägungen jüdisch oder andere bei der Religionszugehörigkeit. Aufgrund der schwachen Besetzung werden in diesen Fällen vermutlich keine signifikanten Ergebnisse entstehen. In dieser Situation könnte man schwach besetzte Kategorien zusammenfassen. Ich verzichte hier jedoch darauf, da dadurch im Anwendungsbeispiel eine zu große inhaltliche Heterogenität der Kategorien entstünde. Um die metrischen Merkmale Anzahl der Geschwister und Alter des Befragten auf ihre Eignung zu überprüfen, korreliere ich sie mit schulab : corr geschw alter schulab. Tabelle 3: Korrelationen der abhängigen Variable mit den metrischen Prädiktoren Anzahl Geschwister Alter Geburtsjahr Höherer Bildungsabschluss Alter Anzahl Geschwister Geburtsjahr Höherer Bildungsabschluss Korrelation nach Pearson 1,143 -,143 -,162 Signifikanz (2-seitig),000,000,000 N Korrelation nach Pearson, ,000 -,083 Signifikanz (2-seitig),000,000,001 N Korrelation nach Pearson -,143-1,000 1,083 Signifikanz (2-seitig),000,000,001 N Korrelation nach Pearson -,162 -,083,083 1 Signifikanz (2-seitig),000,001,001 N Zwischen der Anzahl der Geschwister und schulab besteht ein deutlicher negativer Zusammenhang (-.162). Das heißt, je größer die Zahl der Geschwister ist, desto seltener sind Personen mit höherem Bildungsabschluss. Die Korrelation von schulab und dem Alter ist nahe Null, obwohl aus inhaltlichen Überlegungen ein Zusammenhang zu erwarten wäre. Eine Analyse des Zusammenhanges zeigt jedoch, dass der Zusammenhang zwischen Alter und Bildungsabschluss nicht-monoton ist, wie die nachstehende Abbildung zeigt; hierzu wurde der Wertebereich von alter in Perzentile umgruppiert. Man sieht, dass der Anteil der Befragten mit mindestens Abitur über die Altergruppen zunächst ansteigt, vermutlich weil viele Befragte in den jüngsten Altersgruppen ihren endgültigen Abschluss noch nicht erreicht haben. In den darauf folgenden Kohorten gibt es relativ viele Abiturienten, in den ältesten Kohorten nimmt der Anteil dann wieder deutlich ab. Dieser umgekehrt u-förmige Zusammenhang wird durch Pearsons r nicht abgebildet, da dieses Maß bekanntlich nur lineare Zusammenhänge misst. Zusammenhänge, die noch nicht einmal monoton sind, werden damit gar nicht erfasst. Dass ein solcher, nicht-monotoner Zusammenhang aber existiert, zeigt neben der Verteilung der Bildungsabschlüsse in den verschiedenen Altersgruppen z.b. der Wert des Zusammenhangsmaßes Eta: eta = 0,26.

13 Binäre logistische Regressionsanalyse 13 Abbildung 2: Verteilung der höheren Bildungsabschlüsse in den Altersgruppen (Perzentile) Balkendiagramm Höherer Bildungsabschuss nein ja (mind. Abitur) 100 Anzahl Alter (In Bereiche eingeteilt) Statt der ursprünglichen, metrischen Altersvariable verwende ich deshalb eine klassierte Variable, die ich als kategorial behandle. Damit wird erreicht, dass alle definierten Altersgruppen gesondert betrachtet werden (siehe 4.2.). Nach Inspektion der gemeinsamen Verteilung von alter und schulab definiere ich diese neue Variable alter_gr wie folgt: recode alter (0, 98, 99 = sysmis) (low thru 24 = 1) (25 thru 49 = 2) (50 thru 65 = 3) (66 thru hi = 4) into alter_gr. variable labels alter_gr 'Alter grupp.'. value labels alter_gr 1 '18-24' 2 '25-49' 3 '50-65' 4 '>= 66'. freq/var alter_gr. 4.2 Transformation kategorialer Regressoren mit k > 2 Ausprägungen Einführung Während kategoriale Variablen mit 2 Ausprägungen, codiert mit 0 und 1, ohne weiteres in die Analyse aufgenommen und wie metrische Merkmale interpretiert werden können, müssen kategoriale Regressoren mit k > 2 Ausprägungen zunächst geeignet transformiert werden, da die numerischen Codes der Ausprägungen ja keinerlei Aussagen über Rangfolge oder gar Abstände der Ausprägungen machen und deshalb nicht rechnerisch verwendet werden dürfen 6. In jedem Fall werden für die ursprüngliche Variable mit k Ausprägungen k-1 Indikator- oder Dummy-Variablen gebildet, welche zusammen die Information der ursprünglichen Variable vollständig abbilden. Wie ich nachstehend am Beispiel der Transformation der Variable ethgr 6 Die Verfahren zur Transformation sind identisch mit denen, die bei der Varianzanalyse (Codierung eines qualitativen Faktors) verwendet werden.

14 14 Sabine Fromm (ethnische Zugehörigkeit) zeige, ist eine Anzahl von k-1 Variablen ausreichend, um die vollständige Information der kategorialen Ursprungsvariable zu erhalten. Tabelle 4: Transformation von "ethgr" ethgr eth_1 eth_2 1 weiß 2 farbig 3 sonstige Mit den beiden Dummy-Variablen eth_1 und eth_2 wird die Information der Ursprungsvariable vollständig abgebildet: eth_1 weist den Wert 1 auf, falls bei der ursprünglichen Variable ethgr 1 für weiß angegeben wurde, bei eth_2 erhalten Befragte die Ausprägung 1, falls sie bei der Ursprungsvariable den Code 2 für farbig angegeben hatten. Für sonstige Befragte muss keine zusätzliche Dummy-Variable gebildet werden, sie sind dadurch gekennzeichnet, dass sie bei eth_1 und bei eth_2 den Wert 0 aufweisen. Diejenige Ausprägung der ursprünglichen Variable, für die keine Dummy-Variable gebildet wird, wird als Referenzkategorie bezeichnet. SPSS führt die Berechnung dieser Dummy-Variablen innerhalb der Prozedur logistische Regression automatisch durch (Wahlmöglichkeiten s.u ). In die Modellbildung der logistischen Regressionsanalyse werden die Dummy-Variablen, nicht die Ursprungsvariable (hier ethgr) aufgenommen. Die neuen Variablen werden stets als Variablenset verwendet, also z.b. bei den Stepwise-Verfahren zur Variablenaufnahme in einem Schritt in das Modell aufgenommen. Bei der Analyse von Interaktionseffekten (4.4) wird der entsprechende Interaktionsterm ebenfalls durch das Set der Kontrastvariablen ersetzt. Es gibt verschiedene Möglichkeiten, kategoriale Variablen zu codieren, die auch mit SPSS realisiert werden können. Die nachstehende Tabelle zeigt am Beispiel der Variable ethgr die wichtigsten Möglichkeiten auf. Tabelle 5: Codierung von Dummy-Variablen Ausprägung Dummy-Codierung Effekt-Codierung Kontrast-Codierung von ethgr x1 x2 x1 x2 x1 x2 1 weiß /2 2 farbig /2 3 sonstige Die gesamte Erklärungskraft des Modells bleibt unabhängig von der Art der Codierung der kategorialen Variablen stets gleich; die b-koeffizienten und damit auch die Effekt- Koeffizienten exp(b) haben jedoch unterschiedliche Bedeutungen Dummy-Codierung (Bezeichnung in SPSS: Indicator) Die Voreinstellung in SPSS ist indicator(refcat). Als Referenzkategorie einer Variable wird per Voreinstellung die letzte Ausprägung verwendet, es ist jedoch auch möglich, eine andere Ausprägung als Referenzkategorie zu definieren (s.u. Befehlssyntax). Bei der Indicator- Codierung wird jede Ausprägung mit der Referenzkategorie verglichen, genauer: Hier geben die b-gewichte an, welche Unterschiede bei der Schätzung von Y sich ergeben, wenn man die Referenzkategorie mit den anderen Kategorien der Ursprungsvariable vergleicht. In unserem Beispiel gibt also b 1 an, wie groß der Unterschied bei den Anteilen der Befragten mit höherem Bildungsabschluss ist, wenn man weiße und sonstige Befragte vergleicht; b 2 gibt dementsprechend den Unterschied bei der Betrachtung farbiger und sonstiger Befragter an. Hat die ursprüngliche Variable einen Einfluss auf die abhängige Variable, so muss mindestens ein b-gewicht deutlich und signifikant von Null abweichen. Die Effekt-Koeffizienten exp(b) geben den Faktor an, um den sich die Odds Ratio der abhängigen Variablen in der betracheten Kategorie gegenüber der Odds Ratio der abhängigen Variablen in der Referenzkategorie verändert.

15 Binäre logistische Regressionsanalyse Effekt-Codierung (Bezeichnung in SPSS: Deviation) Mit deviation(refcat) 7 wird eine sog. Effekt-Codierung angefordert: Für jede Ausprägung der kategorialen Variable, mit Ausnahme der Referenzkategorie, wird untersucht, wie stark der Einfluss der jeweiligen Ausprägung vom ungewichteten Mittel des Einflusses aller Ausprägungen der kategorialen Variable abweicht. Genauer: Die b-gewichte bringen dann also die Abweichung des Logits der jeweiligen Kategorie zum ungewichteten Mittel der Logits aller Kategorien der ursprünglichen Variable zum Ausdruck. Die Effekt-Koeffizienten geben an, wie sich die Odds Ratio der abhängigen Variable in der betrachteten Kategorie gegenüber dem ungewichteten Mittel der Odds Ratios der abhängigen Variable verändert Kontrast-Codierung (Bezeichnung in SPSS: spezial(matrix)) Die Kontrast-Codierung (SPSS: special(matrix)) ist eine benutzerdefinierte Codierung zur Überprüfung spezifischer Hypothesen. Es sollen also stets nach inhaltlichen Gesichtspunkten auszuwählende Kategorien miteinander verglichen werden. Formal muss die Codierung so aufgebaut werden, dass die Summierung über die neuen Variablen stets Null ergibt. In unserem Beispiel (Tabelle 4) werden mit x1 die Ausprägungen 1 und 2 von ethgr miteinander verglichen, mit x2 wird der Mittelwert von Y in den Gruppen 1 und 2 von ethgr mit der Gruppe 3 verglichen. Anders als bei der Effekt- und der Indicator-Codierung können hier die b- Koeffizienten nicht unmittelbar interpretiert werden. Die Matrix muss so aufgebaut werden, dass die neuen Variablen zeilenweise stehen. Der Codierungs-Unterbefehl müsste hier lauten: /CONTRAST (ethgr)=special( ) Wahl der Referenzkategorie Als Referenzkategorie ist in SPSS per Voreinstellung die letzte Kategorie definiert; es gibt jedoch die Möglichkeit, auch eine andere Variable als Referenzkategorie festzulegen. Dabei ist die Steuerung über die Syntax weitaus flexibler als die über das Menü. Letztere bietet grundsätzlich nur die Möglichkeit, zwischen der ersten und der letzten Kategorie zu wählen, über die Syntax kann jede beliebige Kategorie als Referenzkategorie definiert werden. Welche Kriterien sollten bei der Wahl der Referenzkategorie beachtetet werden (vgl. dazu z.b. Hardy 1993)? Wichtig sind zunächst inhaltliche Überlegungen: Die Referenzkategorie sollte einen aus Sicht der jeweiligen Fragestellung interessanten Vergleich ermöglichen. Das bedeutet, dass die Referenzkategorie z.b. nicht die Kategorie sonstige sein sollte, da diese heterogen ist und damit unklar bleibt, zu welchen Merkmalen überhaupt ein Vergleich hergestellt wird. Liegt den Merkmalsausprägungen eine zumindest versteckte Ordinalität zugrunde, wie z.b. bei Berufen, empfiehlt es sich die niedrigste oder höchste Ausprägung zu wählen und somit einen Extremgruppenvergleich anzustellen. Aus statistischer Sicht ist weiterhin eine ausreichende Besetzung der gewählten Kategorie von Bedeutung, damit eine hinreichend präzise Schätzung überhaupt möglich ist. Im Anwendungsbeispiel definiere ich folgende Ausprägungen als Referenzkategorien; mit diesen werden die anderen Ausprägungen also jeweils verglichen: Tabelle 6: Referenzkategorien Variable Referenzkategorie alter_gr vaterab 0 Hauptschule mutterab 0 Hauptschule ethgr 1 weiß religion 1 protestantisch konsistenz 1 vaterab = mutterab 7 SPSS-Menü: Abweichung.

16 16 Sabine Fromm Nach diesen Vorarbeiten kann mit der eigentlichen Regressionsanalyse begonnen werden. Die einzelnen Elemente der nachstehenden Befehlssyntax und der damit angeforderte Output werden sukzessive erklärt. 4.3 Modell 1: Schrittweise Aufnahme der unabhängigen Variablen, keine Berücksichtigung von Interaktionseffekten Die Wahl eines stepwise -Modells bedeutet, dass die unabhängigen Variablen nicht auf einmal, sondern schrittweise in das Modell aufgenommen werden. Dabei werden auf jeder Stufe (= bei Aufnahme einer jeden Variablen) verschiedene statistische Kriterien überprüft, die über die Aufnahme bzw. den erneuten Ausschluss der einzelnen Variablen entscheiden. Zum Vergleich sollte stets ein Modell mit gleichzeitiger Aufnahme aller Variablen berechnet werden (/method = enter), weil bei den stepwise -Verfahren ausschließlich statistische Kriterien berücksichtigt werden. Möglicherweise will man aber bestimmte Variablen aus inhaltlichen Gründen im Modell haben, auch wenn sie z.b. schlechte Signifikanzwerte aufweisen. Im Folgenden stelle ich aber nur Syntax und Output für ein stepwise -Verfahren dar. Die Ergebnisse für ein Modell mit gleichzeitiger Aufnahme bilden gewissermaßen eine Teilmenge davon und müssen deshalb hier nicht gesondert dargestellt werden Syntax für Modell 1 LOGISTIC REGRESSION schulab ❶ /METHOD= fstep(cond) geschw alter_gr vaterab mutterab geschl ethgr religion konsistenz ❷ /contrast (alter_gr)=indicator(1)/contrast (vaterab)=indicator(1) /CONTRAST (mutterab)=indicator(1) /CONTRAST (ethgr)=indicator(1) /contrast (religion)=indicator(1) /contrast (konsistenz)=indicator(1) ❸ /CLASSPLOT /❹CASEWISE OUTLIER(2) ❺ /PRINT = summary CI(95) ❻ /CRITERIA = PIN(.05) POUT(.10) ITERATE(20) ❼CUT(.26). Erläuterungen: ❶ Aufnahmemethode der unabhängigen Variablen; hier: schrittweise vorwärts, d.h. es wird immer nur eine der unabhängigen Variablen geprüft und ggf. in das Modell aufgenommen; Kriterium ist eine Chi-Quadrat-Statistik und gleichzeitig ein akzeptabler Signifikanzwert (siehe Output: Variablen nicht in der Gleichung ); der Algorithmus endet, wenn entweder alle Variablen im Modell sind oder aufgrund statistischer Kriterien keine weitere Variable mehr aufgenommen werden kann. Die Aufnahmereihenfolge wird durch diesen Befehl nicht festgelegt, sie ergibt sich aus den Gütemaßen der einzelnen Variablen. ❷ Definition der kategorialen Variablen und Festlegung, welche Ausprägung jeweils Referenzkategorie sein soll; im Beispiel wurde jeweils die erste Ausprägung als Referenzkategorie gewählt, für sie wird also keine eigene Indikatorvariable berechnet. ❸ Anforderung einer grafischen Darstellung (Histogramm) der korrekten und falschen Klassifikationen (Abbildung 2). ❹ Fallweise Auflistung aller Ausreisser, deren z-residuen > 2 sind. ❺ Anforderung statistischer Informationen; per Voreinstellung werden ausgegeben: Tests und Kennzahlen der Modellgüte, Klassifikationstabellen und Statistiken für die einzelnen Variablen auf jeder Stufe der Modellentwicklung; zusätzlich wurde angefordert: corr = Korrelationsmatrix der Prädiktoren (Multikollinearität!); summary = zusammenfassende Tabelle zur Modellentwicklung; CI(95) = Konfidenzintervall für exp(b) (s.u.). ❻ PIN(n) = maximaler Signifikanzwert, der bei einer Variable noch vorliegen darf, damit sie in das Modell aufgenommen wird; je kleiner dieser Wert ist, desto schwieriger ist die Aufnahme. POUT(n) = analog PIN, aber für den Ausschluss. ❼ Cut-off für die Klassifikation; ein Fall wird der Gruppe mit der Ausprägung 1 zugeordnet, wenn die prognostizierte Wahrscheinlichkeit, der Gruppe 1 anzugehören, mindestens so groß

17 Binäre logistische Regressionsanalyse 17 wie der Cut-Wert ist; sind die Gruppen der abhängigen Variable gleich besetzt, ist der Cut gleich 0,5; andernfalls entspricht er dem Anteil der Fälle mit Ausprägung SPSS-Output Die Regressionsanalyse mit SPSS liefert 5 Typen von Informationen, die jedoch im SPSS- Output nicht durchgehend in der nachstehenden Reihenfolge dargestellt werden: Informationstypus Bezeichnung der Tabellen/Abbildungen des SPSS- Outputs 1. Informationen zum Modell Zusammenfassung der Fallverarbeitung Codierung abhängiger Variablen 2. Ausgangssituation vor Aufnahme der ersten Variable (nur Konstante im Modell) Codierung kategorialer Variablen (Anfangsblock:) Klassifizierungstabelle (Anfangsblock:) Variablen in der Gleichung (Anfangsblock:) Variablen nicht in der Gleichung 3. Beurteilung der Modellgüte Omnibustests der Modellkoeffizienten Modellzusammenfassung (Block 1:) Klassifizierungstabelle Zusammenfassung der Stufen Observed Groups and Predicted Probabilities 4. Beurteilung der einzelnen Variablen 5. Informationen über Ausreisser Variablen in der Gleichung Variablen nicht in der Gleichung Fallweise Liste Informationen zum Modell Zusammenfassung der Fallverarbeitung Ungewichtete Fälle(a) N Prozent Ausgewählte Fälle Einbezogen in Analyse ,3 Fehlende Fälle ,7 Gesamt ,0 Nicht ausgewählte Fälle 0,0 Gesamt ,0 a Wenn die Gewichtung wirksam ist, finden Sie die Gesamtzahl der Fälle in der Klassifizierungstabelle. Von den Fällen im Datensatz werden für die Analyse verwendet; 386 Fälle weisen fehlende Werte bei den unabhängigen Variablen auf. Wie ein Blick auf die Häufigkeitsverteilungen zeigt, betrifft dies in erste Linie die Variablen vaterab und mutterab und damit auch konsistenz. Diese Fälle werden nicht in die Modellbildung aufgenommen. Codierung abhängiger Variablen Ursprünglicher Wert Interner Wert nein 0 ja (mind. Abitur) 1 In Abhängigkeit von der Codierung der abhängigen Variable, wird immer die höhere Merkmalsausprägung geschätzt. Wollte man also im Beispiel die Ausprägung kein Abschluss schätzen, so müsste man die Variable schulab entsprechend recodieren. Sind die Ausprägungen nicht bereits im Datensatz mit 0 und 1 codiert, so vergibt SPSS diese Werte intern in der Prozedur zur Berechnung der logistischen Regressionsanalyse.

18 18 Sabine Fromm Codierungen kategorialer Variablen Parametercodierung Häufigkeit (1) (2) (3) (4) Schulabschluß Mutter Religionszugehörigkeit Schulabschluß Vater Alter grupp. Ethnische Gruppe Konsistenz 8 Hauptschule 436,000,000,000,000 Hauptschule (Quali.) 543 1,000,000,000,000 Mittlere Reife 35,000 1,000,000,000 Abitur 77,000,000 1,000,000 Universität/FH 23,000,000,000 1,000 Protestantisch 702,000,000,000,000 Katholisch 256 1,000,000,000,000 Jüdisch 25,000 1,000,000,000 keine 102,000,000 1,000,000 andere 29,000,000,000 1,000 Hauptschule 506,000,000,000,000 Hauptschule (Quali.) 401 1,000,000,000,000 Mittlere Reife 24,000 1,000,000,000 Abitur 115,000,000 1,000,000 Universität/FH 68,000,000,000 1, ,000,000, ,000,000, ,000 1,000,000 >= ,000,000 1,000 weiß 967,000,000 farbig 88 1,000,000 andere 59,000 1,000 vaterab = mutterab 698,000,000 vaterab < mutterab 196 1,000,000 vaterab > mutterab 220,000 1,000 Mit der Befehlssyntax wurde festgelegt, dass immer die erste Ausprägung der kategorialen Variablen Referenzkategorie sein soll. Für die Variable vaterab bedeutet das zum Beispiel, dass die Ausprägung mit dem Code 0 (Hauptschule ohne Abschluss) als Referenzkategorie dient; alle anderen Ausprägungen werden bei der Modellierung mit dieser verglichen. Die Informationen der anderen 4 Ausprägungen werden durch die von SPSS berechneten Indikatorvariablen abgebildet: Befragte, deren Väter z.b. Mittlere Reife haben, weisen folgende Werte auf: vaterab(1) = 0, vaterab(2) = 1, vaterab(3) = 0, vaterab(4) = Ausgangssituation vor Aufnahme der ersten Variable (nur Konstante im Modell) Aus der Klassifizierungstabelle des Anfangsblocks geht der Anteil der Merkmalsträger mit Ausprägung 1 bei der abhängigen Variable hervor; dieser Wert muss als cut off in die Befehlssyntax eingesetzt werden. Alle Fälle, deren Schätzwert mindestens so groß ist wie der cut off, werden bei der Klassifizierung nach Schätzwert der Ausprägung 1 der abhängigen Variable zugeordnet (siehe letzte Zeile der Befehlssyntax). 8 Bei der Variable Konsistenz ist die geringste Ausprägung 0 (fehlende Werte bei vaterab oder mutterab). Fälle mit fehlenden Werten bei diesen beiden Variablen werden aber gar nicht in das Modell aufgenommen. Deshalb hat die Variable konsistenz in der Prozedur logische Regression nur 3 Ausprägungen, von denen 1 (vaterab = mutterab) die niedrigste und damit Referenzkategorie ist.

19 Binäre logistische Regressionsanalyse 19 Klassifizierungstabelle(a,b) Beobachtet Schritt 0 Höherer Bildungsabschluss nein Höherer Bildungsabschluss ja (mind. nein Abitur) Vorhergesagt Prozentsatz der Richtigen 0 820,0 ja (mind. Abitur) ,0 Gesamtprozentsatz 26,4 a Konstante in das Modell einbezogen. b Der Trennwert lautet,260 Cut-off Die Klassifizierungstabelle zeigt die Klassifikation der Merkmalsträger, wenn nur die Konstante im Modell ist. Im Beispiel werden alle Befragten der Kategorie ja (mind. Abitur) zugeordnet. Mit Aufnahme geeigneter Prädiktoren wird dann eine sukzessive Trennung der Gruppen erreicht (siehe Klassifizierungstabelle in ). Die Odds Ratio der abhängigen Variable beträgt 294/820 = 0,359 für die Gesamtstichprobe. Logarithmierte Odds Ratio: ln(294/820) Variablen in der Gleichung Odds Ratio: 294/820 Regressionskoeffizient B Standardfehler Wald df Sig. Exp(B) Schritt 0 Konstante -1,026, ,687 1,000,359 In dieser Tabelle wird das Modell dargestellt, das lediglich die Konstante und noch keinerlei Prädiktoren enthält. Der Regressionskoeffient B gibt hier die logarithmierte Odds Ratio für die Zugehörigkeit zu Gruppe 1 (mind. Abitur) an, wenn keinerlei Informationen über die Merkmalsträger gegeben sind. Die Tabelle Variablen nicht in der Gleichung zeigt die Situation vor Aufnahme der unabhängigen Variablen in das Modell. Für alle Variablen wird die Situation vor Aufnahme der ersten Variable in das Modell angegeben. Berechnet wird jeweils das Chi-Quadrat-Maß zu einer Kreuztabelle aus jeder betrachteten unabhängigen und der abhängigen Variable zum Test der Hypothese, dass Zeilen und Spalten der Tabelle unabhängig von einander sind. Ausgewählt wird dann als erste Variable für das Modell, diejenige unabhängige Variable, mit dem höchsten Chi-Quadrat-Wert, der zugleich signifikant ist. In unserem Beispiel wird als erstes vaterab in die Analyse aufgenommen werden. Im nächsten Schritt werden die Chi-Quadrat-Statistiken erneut berechnet und diejenige Variable in das Modell aufgenommen, die nun den besten Wert aufweist. Diese Algorithmus wird so lange wiederholt, bis entweder alle Variablen in das Modell aufgenommen wurden oder bis keine signifikanten Chi-Quadrat-Statistiken mehr berechnet werden können.

20 20 Sabine Fromm Variablen nicht in der Gleichung Schritt 0 Wert df Sig. Variablen geschw 28,271 1,000 alter_gr 41,363 3,000 alter_gr(1) 29,720 1,000 alter_gr(2),061 1,805 alter_gr(3) 15,145 1,000 vaterab 136,537 4,000 vaterab(1) 1,031 1,310 vaterab(2) 2,946 1,086 vaterab(3) 53,210 1,000 vaterab(4) 42,849 1,000 mutterab 116,623 4,000 mutterab(1) 9,526 1,002 mutterab(2) 11,660 1,001 mutterab(3) 33,751 1,000 mutterab(4) 22,534 1,000 geschl 7,612 1,006 ethgr 10,776 2,005 ethgr(1) 9,491 1,002 ethgr(2) 1,807 1,179 religion 30,722 4,000 religion(1) 6,222 1,013 religion(2) 8,633 1,003 religion(3) 3,628 1,057 religion(4) 5,210 1,022 konsistenz 29,143 2,000 konsistenz(1),017 1,897 konsistenz(2) 27,909 1,000 Gesamtstatistik 227,516 21,000 Weiter geht es dann unter der Überschrift Block 1: Methode = Vorwärts Schrittweise (Konditional) mit Informationen zur Modellgüte Beurteilung der Modellgüte Die Statistiken zur Beurteilung der Modellgüte umfassen den Omnibus-Test der Modellkoeffizienten, die sog. Devianz und Maße zur Beurteilung der im Modell erklärten Varianz: Der Omnibus-Test der Modellkoeffizienten gibt zunächst einen Gesamteindruck von der Güte des Modells: Es zeigt Zahl der Schritte der Modellbildung (= Anzahl der aufgenommenen Variablen) und die Verbesserung der Modellgüte (gemessen als Veränderung von Chi-Quadrat) von Schritt zu Schritt der Variablenaufnahme, sowie die Signifikanz dieser Veränderungen. Der erste Wert in jedem der Schritt x -Felder ab Schritt 2 zeigt die Veränderung von Chi- Quadrat auf dieser Stufe, die beiden anderen den Gesamtwert von Chi-Quadrat auf dieser Stufe. Ist das Testergebnis signifikant, so bedeutet dies, dass alle ausgewählten Prädiktoren Einfluss auf die abhängige Variable haben.

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Datum Vorlesung 9.0.05 Einführung 26.0.05 Beispiele 02..05 Forschungsdesigns & Datenstrukturen 09..05

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation Einführung in die Logistische Regression Fortbildung zur 9.Informationstagung Tumordokumentation Bernd Schicke, Tumorzentrum Berlin FB Bayreuth, 29.März 20 Gliederung Einleitung Schätzen von Maßzahlen

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Logistische Regression

Logistische Regression Grundideen Logistische Regression Exkurs Logistische Regression Auch nachzulesen bei: http://www.psychologie.uniwuerzburg.de/methoden/lehre/skripten/hs_meth_evaluation/hs_evaluation_logistisch eregression.pdf

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion Institut für Soziologie Methoden 2 Regressionsanalyse IV: Transformation und Interaktion Inhalt 1. Zusammenfassung letzte Sitzung 2. Weitere Annahmen und Diagnostik 3. Transformationen zur besseren Interpretierbarkeit

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at Koeffizienten der Logitanalyse Kurt Holm Almo Statistik-System www.almo-statistik.de holm@almo-statistik.de kurt.holm@jku.at 1 Kurt Holm Koeffizienten der Logitanalyse Eine häufig gestellte Frage lautet:

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Einführung in SPSS 11./ 12. April 2006 Andrea Ossig andrea.ossig@web.de Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Monia Mahling monia.mahling@web.de 1 Vor /Nachteile von SPSS +/ intuitiv

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

5 Zusammenhangsmaße, Korrelation und Regression

5 Zusammenhangsmaße, Korrelation und Regression 5 Zusammenhangsmaße, Korrelation und Regression 5.1 Zusammenhangsmaße und Korrelation Aufgabe 5.1 In einem Hauptstudiumsseminar des Lehrstuhls für Wirtschafts- und Sozialstatistik machten die Teilnehmer

Mehr

Analyse von Tabellen und kategorialen Daten

Analyse von Tabellen und kategorialen Daten Hans-Jürgen Andreß Jacques A. Hagenaars Steffen Kühnel Analyse von Tabellen und kategorialen Daten Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz Mit 32 Abbildungen

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Kapitel 9: Verfahren für Nominaldaten

Kapitel 9: Verfahren für Nominaldaten Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test Der eindimensionale χ²-test wird dann herangezogen, wenn die Versuchspersonen einer Population anhand eines Merkmals mit zwei oder mehr

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Klausur Sommersemester 2010

Klausur Sommersemester 2010 Klausur Sommersemester 2010 Lehrstuhl: Wirtschaftspolitik Prüfungsfach: Empirische Wirtschaftsforschung Prüfer: Prof. Dr. K. Kraft Datum: 04.08.2010 Hilfsmittel: Nicht-programmierbarer Taschenrechner Klausurdauer:

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

IBM SPSS Regression 22

IBM SPSS Regression 22 IBM SPSS Regression 22 Hinweis Vor Verwendung dieser Informationen und des darin beschriebenen Produkts sollten die Informationen unter Bemerkungen auf Seite 33 gelesen werden. Produktinformation Diese

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Einführung in die statistische Datenanalyse I

Einführung in die statistische Datenanalyse I Einführung in die statistische Datenanalyse I Inhaltsverzeichnis 1. EINFÜHRUNG IN THEORIEGELEITETES WISSENSCHAFTLICHES ARBEITEN 2 2. KRITIERIEN ZUR AUSWAHL STATISTISCH METHODISCHER VERFAHREN 2 3. UNIVARIATE

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelationsanalysen Kovariation und Kovarianz Korrelation: - Interpretation

Mehr

6.2 Regressionsanalyse

6.2 Regressionsanalyse c-kennzahlensystem (ROCI) 6. Regressionsanalyse Die Regressionsanalyse zählt zu den wichtigsten Analysemethoden des Kommunikationscontrollings und hat ihre tiefen Wurzeln in der Statistik. Im Rahmen des

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Multivariate Analyse: Einführung in das COX-Modell

Multivariate Analyse: Einführung in das COX-Modell Auswertung Multivariate Analyse: Einführung in das COX-Modell Deskriptive Statistik Häufigkeiten, Univariate Statistiken, Explorative Datenanalyse, Kreuztabellen) Induktive Statistik, Vergleich von Mittelwerten

Mehr

Fortgeschrittene Statistik SPSS Einführung

Fortgeschrittene Statistik SPSS Einführung Fortgeschrittene Statistik SPSS Einführung Q U A N T I T A T I V E M E R K M A L E, Q U A L I T A T I V E M E R K M A L E, A U S P R Ä G U N G E N, C O D I E R U N G E N, S K A L E N N I V E A U, D A T

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch

- Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch 1 2 - Eine typische Ausfallrate, wie sie bei vielen technischen Anwendungen zu sehen ist hat die Form einer Badewanne, deshalb nennt man diese Kurve auch Badewannenkurve. -mit der Badewannenkurve lässt

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Master of Science in Pflege

Master of Science in Pflege Master of Science in Pflege Modul: Statistik Einfache und multiple Regressionsanalyse / Logistische Regressionsanalyse November 2012 Prof. Dr. Jürg Schwarz Folie 2 Programm 28. November 2012: Vormittag

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Erfolgsbedingungen der Bewerbung um den Ausbildungsplatz:

Erfolgsbedingungen der Bewerbung um den Ausbildungsplatz: Erfolgsbedingungen der Bewerbung um den Ausbildungsplatz: Analyse einer Bewerberbefragung Michael Tiemann Vorstellung der Magisterarbeit, 2006 Gliederung Problemstellung Erfolgreiche Bewerberinnen und

Mehr

B. Heger / R. Prust: Quantitative Methoden der empirischen Sozialforschung (Master Modul 1.3)

B. Heger / R. Prust: Quantitative Methoden der empirischen Sozialforschung (Master Modul 1.3) B. Heger / R. Prust: Quantitative Methoden der empirischen Sozialforschung (Master Modul 1.3) Übung 1 (mit SPSS-Ausgabe) 1. Erstellen Sie eine einfache Häufigkeitsauszählung der Variable V175 ( des/der

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik Institut für Soziologie Dr. Methoden 2 Einführung, grundlegende PASW-Bedienung, univariate Statistik Programm Wiederholung zentraler Aspekten der Übungen Literatur zur Veranstaltung Erste Schritte mit

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung Berichte aus der Statistik Jens Kahlenberg Storno und Profitabilität in der Privathaftpflichtversicherung Eine Analyse unter Verwendung von univariaten und bivariaten verallgemeinerten linearen Modellen

Mehr

Trendlinien in Diagrammen (Excel 2010)

Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010) Trendlinien in Diagrammen (Excel 2010)... 1 Allgemeines... 2 Informationen über Prognosen und das Anzeigen von Trends in Diagrammen... 3 AUSWÄHLEN DES PASSENDEN TRENDLINIETYPS

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Hypothesentests mit SPSS. Beispiel für einen t-test

Hypothesentests mit SPSS. Beispiel für einen t-test Beispiel für einen t-test Daten: museum-f-v04.sav Hypothese: Als Gründe, in ein Museum zu gehen, geben mehr Frauen als Männer die Erweiterung der Bildung für Kinder an. Dies hängt mit der Geschlechtsrolle

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr