Institut für Soziologie Benjamin Gedon. Methoden 2. Kausalanalyse

Ähnliche Dokumente
Einfache Modelle für Paneldaten. Statistik II

Kategoriale abhängige Variablen:

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Panelregression (und Mehrebenenanwendungen)

Zeitreihen. Statistik II

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. -Adresse. Unterschrift

8. Februar Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

Fallbeispiel 5: Humankapital und Returns to Education. Seite 1

3. Einführung in die Zeitreihenanalyse

Korrelation - Regression. Berghold, IMI

Klausur Sommersemester 2010

Kapitel 3: Interpretationen

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Effekte der Dauer und der Qualität berufspraktischer Vorerfahrungen auf den Studienerfolg beruflich Qualifizierter (BQ)

Eine computergestützte Einführung mit

Interne und externe Modellvalidität

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Statistik Einführung // Lineare Regression 9 p.2/72

Teil II: Einführung in die Statistik

Die binäre Logistische Regression ein vielseitiges und robustes Analyseinstrument sozialwissenschaftlicher Forschung

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Standardab er des. Testwert = % Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere

STUDIERENDENMONITORING

Überhaupt schon einmal Schulden gehabt. Anlass der Schulden

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Kapitel 4: Binäre Regression

Webergänzung zu Kapitel 10

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen

Berufsbegleitende Studiengänge Pädagogik der frühen Kindheit / Bildung und Erziehung im Kindesalter Bedarfserhebung Baden-Württemberg

Fortgeschrittene Statistik Logistische Regression

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. . Studiengang.

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Varianzanalyse (ANOVA: analysis of variance)

Übung Statistik I Statistik mit Stata SS Dokumentation der Datenanalyse, Datentransformationen II und Univariate Statistiken II

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Fallbeispiel: Kreditscoring

Basis (=100%) zusätzlichen Schulabschluss an. Befragungszeitraum:

Lösung zu Kapitel 11: Beispiel 1

Willkommen zur Vorlesung Statistik (Master)

Anmerkung: Die Lösungen enthalten nur einige ausgewählte Antworten; weitere Lösungen sind möglich.

Wie man sieht ist der Luftwiderstand -abgesehen von der Fahrgeschwindigkeit- nur von Werten abhängig, die sich während der Messung nicht ändern.

Gestaltungsempfehlungen

Studiendesign/ Evaluierungsdesign

Vorwissen und Lernerfolg

6. Modelle mit binären abhängigen Variablen

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Koeffizienten der Logitanalyse. Kurt Holm. Almo Statistik-System

Abschlussklausur (60 Minuten), 15. Juli 2014

Kommentierter SPSS-Ausdruck zur logistischen Regression

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Quantitative Methoden der Bildungsforschung

Soziale Ungleichheit und politische Partizipation

Duale Ausbildung oder Vollzeitschule?

Dr. Tilly Lex (DJI) Wege ins Ausbildungs- und. Direkteinstiege, Umwege und. AID:A-Befunde. Aufwachsen in Deutschland

Multivariate Verfahren

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Diversitätsinklusion in der universitären Fernlehre: Studienziele und Studienerfolg. Katharina Stößel & Stefan Stürmer FernUniversität in Hagen

Kritische Lebensereignisse und Gesundheit im Alter

6.1.2 Die Interaktionseffekte von Dummy- und zentrierten metrischen Variablen

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Studienerfolg und -leistung nicht-traditioneller und traditioneller Studierender

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des.

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Log-lineare Analyse I

Einflussfaktoren der Studienfachwahl im Zeitverlauf: Stabil oder variabel?

Diskriminanzanalyse Beispiel

1 Statistische Grundlagen

LAN-Workingpaper Energiepreise im Projekt LAN

Datenanalyse mit Excel. Wintersemester 2013/14

Erfolgsbedingungen der Bewerbung um den Ausbildungsplatz:

3 Zusammenhangsmaße Zusammenhangshypothesen

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke

Varianzanalyse * (1) Varianzanalyse (2)

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Verbessert Bildung den Gesundheitszustand? Ergebnisse für die Bildungsexpansion in West-Deutschland

Alleinerziehend in M-V Ergebnisse der Mütterstudie des Kompetenzzentrums Vereinbarkeit Leben in MV

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Zufriedenheitsforschung

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Erhalt und Weiterentwicklung beruflicher Kompetenzen der Lehrerinnen und Lehrer

Masse und Volumen von Körpern

DSR Daten, Statistik, Risikobewertung AUSWERTUNG GAHS. Intervention + BMI

Die Clusteranalyse Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Transkript:

Institut für Soziologie Methoden 2 Kausalanalyse

Inhalt 1. Kausalanalyse 2. Anwendungsbeispiel 3. Wiederholung 4. Übungsaufgabe # 2

Kausalanalyse Kausalität: Identifizieren von Ursache-Wirkungs-Beziehungen Ursache geht Wirkung zeitlich voraus Es besteht ein innerer Zusammenhang zwischen Ursache und Wirkung Im Experiment wird hierzu die Einflussvariable vom Forscher beeinflusst (kontrolliert) und der Effekt auf die abhängige Variable gemessen. Auf Grund der Komplexität unserer Fragestellungen und aus ethischen Gründen ist dies in der Sozialwissenschaft selten möglich. Alternative: Theoretische Modellierung und darauf aufbauend multivariate Analyse # 3

Kausalanalyse Theoretische Modellierung muss folgende Fragen beantworten (1): Warum soll X auf Y wirken (und nicht umgekehrt)? X? Y Warum beeinflusst die Abiturnote die Bachelornote? Welche Variablen (Z) beeinflussen sowohl X als auch Y? (Konfundierung) X Y Was beeinflusst Abiturnote und Bachelornote? Evtl. die Bildung der Eltern. Z # 4

Kausalanalyse Theoretische Modellierung muss folgende Fragen beantworten (2): Welche Variablen beeinflussen Y werden aber selbst von X beeinflusst? (Intervention) X Y Z Das Vorwissen wird von der Abiturnote beeinflusst, hat aber gleichzeitig Einfluss auf die Bachelornote. # 5

Kausalanalyse Theoretische Modellierung muss folgende Fragen beantworten (3): Ist der Zusammenhang zwischen X und Y für bestimmte Ausprägungen einer Variable (W) anders als für andere Ausprägungen? (Interaktion) Hierfür gibt es unterschiedliche Notationen: X Y X Y W W Die Zeit die seit dem Abitur vergangen ist könnte den Einfluss der Abiturnote auf die Bachelornote abschwächen. # 6

Anwendungsbeispiel 1 Wir interessieren uns für den Zusammenhang zwischen der Abiturund der Bachelornote. Hierfür müssen bei der Analyse die grünen Beziehungen berücksichtigt werden. Zeit seit Abitur Abiturnote Bachelornote Vorwissen Bildung der Eltern Hinweis: Echte Kausalschlüsse sind mit Querschnittsdaten also auch mit den Absolventendaten nicht möglich. # 7

Anwendungsbeispiel 1 Zunächst: Überprüfen, ob überhaupt ein Zusammenhang zwischen AV und UV in den Daten zu finden ist.. pwcorr banote abinote, sig obs banote 1.0000 banote abinote 132 abinote 0.6100 1.0000 0.0000 132 132 Starker Zusammenhang zwischen Abitur- und Bachelornote. Dieser ist höchst signifikant. # 8

Anwendungsbeispiel 1 Grafische Deskription des Zusammenhangs: 1 1 1.5 1.5 2 Note Bachelor 2 2.5 2.5 3 3 1 1.5 2 2.5 3 3.5 Note Abitur 1 1.5 2 2.5 3 3.5 Note Abitur - nach Quartilen # 9

Anwendungsbeispiel 1 Einfachregression zwischen Abitur- und Bachelornote. Abiturnote Bildung der Eltern Bachelornote Abiturnote zentriert Konstante AV: Gesamtnote BA-Studium Modell 1 0,433 (0,000) 1,876 (0,000) Fallzahl 132 R 2 0,372 p-werte in Klammern Dieser Zusammenhang wird aber laut obigem Modell durch die konfundierende Variable Bildung der Eltern beeinflusst (verzerrt). Um den Effekt der Abitur- auf die Bachelornote zu schätzen muss also die Bildung der Eltern kontrolliert werden. # 10

Anwendungsbeispiel 1 Bildung der Eltern: Im Folgenden operationalisiert über Abitur der Mutter. Andere Messungen: Abitur Vater Hochschulabschluss Vater oder Mutter Diese haben auch in Kombination keine anderen Effekte als die Bildung der Mutter. Hinweis: Auf der vorangegangenen Folie wurde (und auf folgenden Folien wird) die zentrierte Abiturnote verwendet. Hierfür wird die durchschnittliche Abiturnote von der individuellen Abiturnote abgezogen. Im vorliegenden Fall konnten so Multikollinearitätsprobleme ausgeräumt werden. Dies ist aber Stoff von fortgeschritteneren Veranstaltungen. Auf die Interpretation der Koeffizenten hat die Zentrierung keine Auswirkung; lediglich die Konstante muss anders interpretiert werden. # 11

Anwendungsbeispiel 1 Bildung der Eltern: Zunächst Korrelation zwischen Abi- und BA-Note für Personen mit bzw. ohne Mutter mit Abitur.. bysort abimut: pwcorr banote abinote, sig obs -> abimut = nein -> abimut = ja banote 1.0000 banote abinote 63 banote 1.0000 banote abinote 69 abinote 0.6092 1.0000 0.0000 63 63 In beiden Gruppen gleiche Zusammenhangsstärke. Der postulierte Effekt liegt folglich nicht vor. abinote 0.6123 1.0000 0.0000 69 69 # 12

Anwendungsbeispiel 1 Regression zwischen Abiturund Bachelornote unter Kontrolle der Bildung der Eltern. outreg2 [modell1 modell2] using tab2, replace label word pvalue noaster Der Effekt der Abiturnote auf die Bachelornote bleibt konstant und höchstsignifikant. Die Bildung der Eltern hat keinen Einfluss auf den Zusammenhang zwischen Abitur- und Bachelornote. In diesem Modell gibt es keinen Zusammenhang zwischen elterlicher Bildung und Bachelornote. Abiturnote zentriert Mutter mind. Abitur? Konstante AV: Gesamtnote BA-Studium Modell 1 Modell 2 0,433 0,442 (0,000) (0,000) 0,0443 (0,403) 1,876 1,854 (0,000) (0,000) Fallzahl 132 132 R 2 0,372 0,376 p-werte in Klammern # 13

Anwendungsbeispiel 1 Zeit seit Abitur Abiturnote Bachelornote Vorwissen Bildung der Eltern Das Vorwissen wurde im Fragebogen leider nicht abgefragt. Daher können wir in den Daten nicht differenzieren welcher Teil des Effekts direkt auf die Bachelornote wirkt und welcher Teil durch das größere Vorwissen vermittelt wird. # 14

Anwendungsbeispiel 1 Zeit zwischen Abiturnote und Bachelorabschluss Ungenaue Messung bekannte Werte: Dauer Erwerbstätigkeit nach Abitur aber vor Studienbeginn Studienbeginn Studienende unbekannte Werte: Arbeitslosigkeit FSJ u.ä. Weltreise, Work + Travel # 15

Anwendungsbeispiel 1 Abiturnote zentriert Mutter mind. Abitur? in Jahren: BA-Studium + Erwerbstätigkeit nach Abitur Abinote * BA-Studium + Erwerbstätigkeit nach Abitur Konstante AV: Gesamtnote BA-Studium Modell 1 Modell 2 Modell 3 0,433 0,442 0,436 (0,000) (0,000) (0,00193) 0,0443 0,0448 (0,403) (0,403) -0,0105 (0,710) 0,00115 (0,974) 1,876 1,854 1,889 (0,000) (0,000) (0,000) Fallzahl 132 132 132 R 2 0,372 0,376 0,377 p-werte in Klammern # 16

Interpretation: Anwendungsbeispiel 1 Effekt der Abiturnote bleibt über alle Modelle hinweg nahezu konstant. Im Modell mit Interaktionsterm ist der Abitureffekt immer noch hoch in den anderen Modellen ist er höchst signifikant. Die elterliche Bildung hat keinen Einfluss auf den Zusammenhang zwischen Abinote und BA-Note. Vermutung: Kinder von Nichtakademikern haben aber schlechtere Chancen einen Uniabschluss zu erreichen. Abiturnote zentriert Mutter mind. Abitur? in Jahren: BA-Studium + Erwerbstätigkeit nach Abitur AV: Gesamtnote BA-Studium Modell 1 Modell 2 Modell 3 0,433 0,442 0,436 (0,000) (0,000) (0,00193) 0,0443 0,0448 (0,403) (0,403) -0,0105 (0,710) # 17

Interpretation: Anwendungsbeispiel 1 AV: Gesamtnote BA-Studium Die Zeit die zwischen Abitur und Bachelorabschluss verstreicht hat keinen Einfluss auf die Richtung oder Stärke Modell des 1 Effekts Modell der 2 Abiturnote Modell 3 auf die Bachelornote. 0,433 0,442 0,436 Abiturnote zentriert (0,000) (0,000) (0,00193) Alle Modelle erklären durch die aufgenommenen Variablen zwischen 37 und 38 % der Varianz der Bachelornote. Die Konstanz 0,0443 dieses Wertes 0,0448 Mutter mind. Abitur? ist (0,403) (0,403) ein weiterer Hinweis für die Abwesenheit der theoretisch postulierten Drittvariablen-Effekte. in Jahren: BA-Studium + Erwerbstätigkeit nach Abitur Abinote * BA-Studium + Erwerbstätigkeit nach Abitur Konstante -0,0105 (0,710) 0,00115 (0,974) 1,876 1,854 1,889 (0,000) (0,000) (0,000) Fallzahl 132 132 132 R 2 0,372 0,376 0,377 p-werte in Klammern # 18

Anwendungsbeispiel 2 Ein weiteres Beispiel aus dem Autodatensatz: Hubraum Verbrauch Gewicht Wir interessieren uns dafür, warum Autos mit größerem Hubraum mehr Benzin verbrauchen. Wir vermuten, dass Autos mit größerem Gewicht zum einen einen größeren Hubraum, zum anderen aber auch einen größeren Verbrauch haben. Wird dadurch aber der ganze Zusammenhang zwischen Hubraum und Verbrauch erklärt? # 19

Anwendungsbeispiel 2 Hubraum Verbrauch. pwcorr lp100km hubraum gewicht100, sig obs lp100km hubraum gewi~100 Gewicht lp100km 1.0000 hubraum 0.7712 1.0000 0.0000 74 74 gewicht100 0.8544 0.8949 1.0000 0.0000 0.0000 74 74 74 74 # 20

Anwendungsbeispiel 2 5 10 15 20 1 3 5 7 Hubraum in Litern Gewicht 1. Quartil Gewicht 3. Quartil Gewicht 2. Quartil Gewicht 4. Quartil Quelle: STATA-Autodatensatz # 21

Interpretation Modell 1: Pro Liter Hubraum nimmt der Verbrauch pro 100 km um 1,5 Liter zu. Dieser Effekt ist höchst signifikant. Durch den Hubraum können 59,5 % der Varianz des Verbrauchs erklärt werden. Anwendungsbeispiel 2 Hubraum in Litern Gewicht in 100 kg Konstante Verbrauch in Litern pro 100 km Automodell 1 Automodell 2 1,543 0,0663 (0,000) (0,811) 0,704 (0,000) 6,818 1,945 (0,000) (0,0393) Fallzahl 74 74 R 2 0,595 0,730 p-werte in Klammern Interpretation Modell 2: Der Effekt des Hubraums wird durch Kontrolle des Gewichts komplett aufgelöst. Es handelte sich also um eine Scheinkorrelation. Pro 100 kg nimmt der Verbrauch um 0,7 Liter höchst signifikant zu. Jetzt werden durch die beiden Variablen 73 % der Varianz des Verbrauchs erklärt. # 22

Wiederholung Regressionsmodell mit metrischen und dichothomen Variablen Source SS df MS Number of obs = 91 F(3, 87) = 1.85 Model 3952.30849 3 1317.43616 Prob > F = 0.1435 Residual 61844.1943 87 710.852808 R-squared = 0.0601 Adj R-squared = 0.0277 Total 65796.5027 90 731.072253 Root MSE = 26.662 ek_std Coef. Std. Err. t P> t [95% Conf. Interval] mon_ausl -.2400585 1.06057-0.23 0.821-2.348056 1.867939 frau -9.079167 6.023129-1.51 0.135-21.05079 2.892453 abinote -9.900503 5.206308-1.90 0.061-20.2486.4475971 _cons 104.9309 13.60798 7.71 0.000 77.88356 131.9782 # 23

Wiederholung Interaktion Dummy * metrisch Source SS df MS Number of obs = 168 F(3, 164) = 29,26 Model 8,01195168 3 2,67065056 Prob > F = 0,0000 Residual 14,9675126 164,091265321 R-squared = 0,3487 Adj R-squared = 0,3367 Total 22,9794643 167,137601583 Root MSE =,3021 v29_1 Coef. Std. Err. t P> t [95% Conf. Interval] gender Frau -,3946252,2238154-1,76 0,080 -,8365563,047306 NoteAbi v2_1,2932869,0765436 3,83 0,000,1421489,4444249 IntNoteFrau inthzb_gen,1660298,0936539 1,77 0,078 -,0188932,3509528 _cons 1,212252,1848855 6,56 0,000,8471895 1,577315 # 24

Dummyvariablen: Wiederholung Niedrig Mittel Hoch Noch Schüler... Kein Abschluss 1 0 0 Hauptschule beendet ohne Abschluss 1 0 0 (Qualifizierender) Hauptschulabschluss 1 0 0 Mittlere Reife 0 1 0 Fachabitur 0 0 1 Abitur 0 0 1 # 25

Übungsaufgabe 1. Sie interessieren sich dafür, wie sich die Bildung der Eltern auf das Erwerbseinkommen auswirkt. Bilden Sie das Erwerbseinkommen als Stundenlohn wie in der letzten Übungsaufgabe. Erstellen Sie aus den Variablen v132_1 bis v132_14 insgesamt 4 Dummyvariablen, die den Wert 1 für folgende Ausprägung annehmen: Vater Abitur Vater Hochschulabschluss oder promoviert Mutter Abitur Mutter Hochschulabschluss oder promoviert Schätzen Sie ein entsprechendes Regressionsmodell und interpretieren Sie die Koeffizienten, die Konstante und die Modellgütemaße. # 26

Übungsaufgabe 2. Sie vermuten, das sich die Bildung der Eltern auch auf die Abiturnote auswirkt. Die Abiturnote wiederum beeinflusst das Einkommen. Bildung der Eltern Erwerbseinkommen Abiturnote Berücksichtigen Sie in obigem Regressionsmodell also zusätzlich die Abiturnote und vergleichen Sie die Modelle anschließend. Welchen Einfluss hat die Abiturnote auf die Beziehung zwischen elterlicher Bildung und Einkommen? Wie ändert sich die Erklärungskraft des Modells durch die Berücksichtigung der Abiturnote? # 27