Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung

Ähnliche Dokumente
Institut für Soziologie Benjamin Gedon. Methoden 2. Kausalanalyse

ANOVA und Transformationen. Statistik II

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

Das Lineare Regressionsmodell

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

Statistischer Rückschluss und Testen von Hypothesen

Determinanten der Fremdenfeindlichkeit

Countdata, Postestimation und Modellvergleich

Empirische Analysen mit dem SOEP

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Mittelwerte, Zusammenhangsmaße, Hypothesentests in Stata

Einfache Modelle für Paneldaten. Statistik II

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Statistische Methoden der Lebensverlaufsforschung. Prof. Dr. Johannes Giesecke Humboldt-Universität zu Berlin Institut für Sozialwissenschaften

Logistische Regression

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik

Methoden II Mittelwertvergleiche

Prognoseintervalle für y 0 gegeben x 0

Mittelwerte, Zusammenhangsmaße, Hypothesentests in Stata

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Kategoriale abhängige Variablen:

Seminar zur Energiewirtschaft:

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik

Wiederholung. Statistik I. Sommersemester 2009

Multiple Regression. Statistik II

Wieviel ist (m)ein Haus wert? - Immobilienbewertung mit Hilfe der Statistik. Axel Werwatz Econ Boot Camp 2012 SFB 649 Ökonomisches Risiko

2. Deskriptive Statistik

Panelregression (und Mehrebenenanwendungen)

Mikro-Ökonometrie, WS 15/16 Musterlösung Aufgabenblatt 3

Abschlussklausur zur Vorlesung Empirische Wirtschaftsforschung

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Zeitreihen. Statistik II. Literatur. Zeitreihen-Daten Modelle Probleme Trends und Saisonalität Fehlerstruktur. 1 Wiederholung.

Logistische Regression

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Statistik II Übung 1: Einfache lineare Regression

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse. Statistik II

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im SS 2012

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013

Kurs Empirische Wirtschaftsforschung

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Ergebnisse VitA und VitVM

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Institut für Soziologie Dipl. Soz. Maximilian Sonnauer. Methoden II. Zusammenhangsmaße für kategoriale und metrische Variablen

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Statistik II Übung 1: Einfache lineare Regression

Streuungsmaße. Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre Varianz (empirische) Varianz (Streuung) s 2 = 1 n

VO Biostatistik im WS 2006/2007

Lineare Modelle in R: Klassische lineare Regression

Regressionsanalysen mit Stata

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Nachschreibklausur im Anschluss an das SS 2009

Teil: lineare Regression

Statistik. Jan Müller

Metrische und kategoriale Merkmale

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Technische Universität München Zentrum Mathematik Sommersemester Juli 2005 Arbeitszeit 60 Minuten

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Kategorielle Zielgrössen

Das lineare Regressionsmodell

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Analyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Klausur Statistik Lösungshinweise

Befehl: Analysieren > Deskriptive Statistiken > Häufigkeiten. Unter: Statistiken: Angabe Kurtosis/ Schiefe/ andere Lagemasse

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Willkommen zur Vorlesung Statistik (Master)

Zeitreihen. Statistik II

Wiederholungsübungen zu den Kapiteln 7 bis 11

Mikro-Ökonometrie: Small Sample Inferenz mit OLS

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

Statistische Methoden in den Umweltwissenschaften

Einführung in die Statistik für Politikwissenschaftler Wintersemester 2011/2012

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Einführung in die sozialwissenschaftliche Statistik

1 Beispiel zur Methode der kleinsten Quadrate

Vorlesung: Statistik II für Wirtschaftswissenschaft

Analyse von Querschnittsdaten. Signifikanztests I Basics

Grundlagen der empirischen Sozialforschung

Ergänzung der Aufgabe "Mindestlöhne" zu einer multiplen Regression

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Einführung in die Statistik

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Auswertung und Lösung

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

Logit-Analyse mit ordinalen und nominalen abhängigen Variablen

Empirische Wirtschaftsforschung in R

Institut für Soziologie Sabine Düval. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

Univariate Kennwerte mit SPSS

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Transkript:

Institut für Soziologie Dipl.-Soz. Methoden 2 Ausblick; Darstellung von Ergebnissen; Wiederholung

Ein (nicht programmierbarer) Taschenrechner kann in der Klausur hilfreich sein. # 2

Programm Ausblick über weitere Analyseverfahren Wiederholung Darstellung von Ergebnissen in der Hausarbeit # 3

Weitere Auswertungsverfahren Lineare Regression: metrische abhängige Variable. Oft nicht zutreffend. Binäre AV: verheiratet - ledig Nominale AV: Wahlentscheidung zwischen Linke Grüne SPD CSU FDP AFD Ordinale AV: höchster erreichter Schulabschluss AV Zähldaten: Anzahl der Fernseher im Haushalt AV auf anderer Ebene als UV: Noten von Schülern auch über Klassen- und Schulmerkmale erklären AV Ereignisdaten: Dauer bis eine Ehe geschieden wird # 4

Weitere Auswertungsverfahren Binäre abhängige Variable logistische Regression abhängige Variable: arbeitslos / nicht arbeitslos; Raucher ja/nein Geschätzt werden soll die Wahrscheinlichkeit ob ein Ereignis eintritt. P 1 0 X # 5

Weitere Auswertungsverfahren Nominale abhängige Variable multinomiale logistische Regression abhängige Variable: Wahlentscheidung zwischen verschiedenen Parteien bspw. Partei A, B, C Entscheidungsmöglichkeit zwischen A und B; A und C; B und C Wie bei Dummykodierung eine Referenzkategorie bspw. A Es wird nun der Einfluss der UV darauf untersucht ob es wahrscheinlicher ist B als A zu wählen und ob es wahrscheinlicher ist C als A zu wählen. Zu jeder UV gibt es also in unserem Beispiel 2 Koeffizienten. Grundlage ist logistisches Regressionsmodell. # 6

Weitere Auswertungsverfahren Abhängige Variable Zähldaten Poissonregression abhängige Variable bspw. Kinderzahl Verteilung der AV bei seltenen Ereignissen sehr schief # 7

Weitere Auswertungsverfahren AV auf anderer Ebene als UV Mehrebenenmodelle abhängige Variable Lernerfolg einzelner Schüler unabhängige Variablen Klassenmerkmale Problem bei linearer Regression: Daten sind nicht unabhängig Standardfehler werden falsch berechnet Signifikanzen sind falsch Mehrebenenmodell berücksichtigt die Datenstruktur # 8

Weitere Auswertungsverfahren AV Ereignisdaten Ereignisdatenanalyse abhängige Variable: Dauer einer Ehe bis zur Scheidung Problem bei linearer Regression: Nicht alle Ehen wurden bis zur Scheidung beobachtet. Ehedauer bis zur Scheidung ist für viele Ehen also unbekannt. Tendenziell ist sie für die Ehen unbekannt (zensiert), die erst nach längerer Zeit geschieden werden. Die Ehedauer bis zur Scheidung wird also verzerrt geschätzt. Ereignisdatenmodelle können mit diesem Problem umgehen # 9

Wiederholung Univariate Deskription Arbeitsstunden real Percentiles Smallest 1% 0 0 5% 0 0 10% 20 0 Obs 113 25% 31 0 Sum of Wgt. 113 Interpretation: arithmetisches Mittel (=Mittelwert): 36 Stunden Median: Zentrum der Verteilung bei 40 Stunden Standardabweichung: Durchschnittliche Abweichung vom Mittelwert: 12 Stunden 50% 40 Mean 35.80973 Largest Std. Dev. 12.25607 75% 42 50 90% 45 50 Variance 150.2112 95% 50 55 Skewness -1.450213 99% 55 60 Kurtosis 4.996826 Schiefe: < 0 linksschiefe Verteilung Kurtosis (Wölbung): > 0 Verteilung spitzer als Normalverteilung Minimum/Maximum: Minimum: 0 Stunden Maximum: 60 Stunden # 10

Kreuztabelle Wiederholung Nebenfach Frau ja/nein Statistik? 0. nein 1. ja Total 0. nein 50 99 149 89.29 88.39 88.69 1. ja 6 13 19 10.71 11.61 11.31 Total 56 112 168 100.00 100.00 100.00 Pearson chi2(1) = 0.0297 Pr = 0.863 # 11

Wiederholung Korrelation einkommen 1.0000 einkom~n arbstd~l arbstdreal 0.4495 1.0000 0.0000 # 12

Mittelwertvergleich Wiederholung Two-sample t test with equal variances Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] männlich 34 2621.941 162.0211 944.7371 2292.307 2951.576 weiblich 67 2338.224 108.4392 887.6132 2121.718 2554.73 combined 101 2433.733 90.79818 912.5104 2253.592 2613.874 diff 283.7173 190.9928-95.25395 662.6885 diff = mean(männlich) - mean(weiblich) t = 1.4855 Ho: diff = 0 degrees of freedom = 99 Ha: diff < 0 Ha: diff!= 0 Ha: diff > 0 Pr(T < t) = 0.9297 Pr( T > t ) = 0.1406 Pr(T > t) = 0.0703 # 13

Regression Wiederholung Source SS df MS Number of obs = 99 F(3, 95) = 12.29 Model 22544121.2 3 7514707.05 Prob > F = 0.0000 Residual 58069450.5 95 611257.373 R-squared = 0.2797 Adj R-squared = 0.2569 Total 80613571.6 98 822587.466 Root MSE = 781.83 einkommen Coef. Std. Err. t P> t [95% Conf. Interval] frau -137.7868 171.1093-0.81 0.423-477.4818 201.9082 nfstat 830.2007 306.697 2.71 0.008 221.3302 1439.071 arbstdreal 35.68307 7.012726 5.09 0.000 21.76105 49.60509 _cons 1189.38 306.0525 3.89 0.000 581.7895 1796.972 # 14

Wiederholung Regression mit quadratischem Effekt Source SS df MS Number of obs = 99 F(4, 94) = 9.47 Model 23153482 4 5788370.51 Prob > F = 0.0000 Residual 57460089.6 94 611277.549 R-squared = 0.2872 Adj R-squared = 0.2569 Total 80613571.6 98 822587.466 Root MSE = 781.84 einkommen Coef. Std. Err. t P> t [95% Conf. Interval] frau -151.8831 171.6936-0.88 0.379-492.7849 189.0186 nfstat 756.1185 315.5496 2.40 0.019 129.5873 1382.65 arbstdreal 11.38279 25.32866 0.45 0.654-38.90785 61.67343 arbstd2.4448372.4455362 1.00 0.321 -.4397854 1.32946 _cons 1446.039 399.6902 3.62 0.000 652.4452 2239.634 # 15

Frau Nebenfach Statistik? Arbeitsstunden real Arbeitsstunden quadriert Konstante Wiederholung Regression mit quadratischem Effekt Einkommen Modell 1 Modell 2 Modell 3-137,8-151,9-151,9 (0,423) (0,379) (0,379) 830,2 756,1 756,1 (0,008) (0,019) (0,019) 35,68 11,38 43,24 (0,000) (0,654) (0,000) 0,445 0,445 (0,321) (0,321) 1,189 1,446 2,424 (0,000) (0,000) (0) Fallzahl 99 99 99 R 2 0,280 0,287 0,287 p-werte in Klammern Modell 3 mit zentrierten Arbeitsstunden # 16

Wiederholung Regression mit Interaktion Dummy * Dummy Source SS df MS Number of obs = 99 F(5, 93) = 8.17 Model 24613098.2 5 4922619.64 Prob > F = 0.0000 Residual 56000473.5 93 602155.629 R-squared = 0.3053 Adj R-squared = 0.2680 Total 80613571.6 98 822587.466 Root MSE = 775.99 einkommen Coef. Std. Err. t P> t [95% Conf. Interval] frau -82.97161 176.0622-0.47 0.639-432.5962 266.653 nfstat 1495.267 568.7485 2.63 0.010 365.8448 2624.688 intfraustat -1079.701 693.4876-1.56 0.123-2456.83 297.4275 c_arbstdreal 46.82076 10.4971 4.46 0.000 25.9756 67.66591 c_arbstd2.6160425.4556671 1.35 0.180 -.2888221 1.520907 _cons 2357.446 152.6179 15.45 0.000 2054.377 2660.515 # 17

Darstellung der Ergebnisse Die folgenden Hinweise sind nicht erschöpfend. Keine Stata-Outputs übernehmen! Alle Werte die interpretiert werden in Tabellen Nur die Maßzahlen, die interpretiert werden in Tabellen Modellvergleiche übersichtlich nebeneinander Tabellen selbsterklärend (Legende, Referenzkategorie in Fußzeile) 18

Organisatorisches Klausur und Tutorientermine Die Klausur findet am 24.7.2017 um 10.00 Uhr ausschließlich im Hörsaal A 240 am Geschwister- Scholl-Platz 1 statt. Tutorien zur Klausurvorbereitung finden am Mittwoch von 16 bis 20 Uhr im Raum 409 in der Konradstraße 6 statt. Ein Taschenrechner kann in der Klausur hilfreich sein. 19