Übung Statistik I Statistik mit Stata SS Zusammenhangsanalyse I

Übung Statistik I Statistik mit Stata SS07 18.06.2007 9. Zusammenhangsanalyse I Andrea Kummerer (M.A.) Oec R. I-53 Sprechstunde: n.v. Andrea.Kummerer@sowi.uni-goettingen.de Statistik mit Stata - 1 -

Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und Streuungsmaße 4. Mittelwertvergleiche, T-Test 5. Übung: T-Test 6. Kreuztabellen 7. Übung: Kreuztabellen Statistik mit Stata - 2 -

1. Zunächst Befehle, die bekannt sein sollten: Update, set memory, input, use, clear, save, exit, pwd, cd, dir, describe, codebook, sort, list, help, search, tabulate oneway, numlabel, mvdecode, mvencode, label, set dp, log using, log close, log off/on, cmdlog using, cmdlog close, cmdlog off/on, do, generate, replace, recode, keep, drop, summarize, tabstat, histogram, graph pie, kdensity, graph box, set scheme, graph export Folien, die die Lösungen der heutigen Übungsaufgaben enthalten sind ab heute auf der MZS-Homepage zu finden. Vorbereitung: 1. profile.do ausführen! Ist Stata up-to-date? 2. Heute Verwendung von allbus_ueb4.dta. Wenn also im eigenen Verzeichnis noch nicht vorhanden aus dem Lehre on jeder Lehre Verzeichnis (V) in das eigene Verzeichnis kopieren. Statistik mit Stata - 3 -

2. Vergleich der Übungsaufgabe von letzter Woche (1) Fragestellung: Wie groß ist im ALLBUS 2006 das durchschnittliche Jahreseinkommen der befragten Personen aus Ostdeutschland, die ihre eigene Wirtschaftslage als mindestens mittel (also nicht als schlecht) bezeichnen? Stelle die Verteilung der Ansichten der ostdeutschen Befragten zu ihrer eigenen derzeitigen wirtschaftlichen Situation auch graphisch dar. Übung (2) Daten: ALLBUS 2006 Welche Daten werden für die Beantwortung der Fragestellung benötigt? Wir brauchen die Variablen: Einkommen (v381), Erhebungsgebiet (v4) und derzeitige Wirtschaftlage des Befragten (v147) (3) Überblick über die Daten verschaffen: codebook v381 v4 v147 Müssen Transformationen am Datensatz durchgeführt werden? Ja, da das Einkommen pro Monat und nicht pro Jahr vorliegt Statistik mit Stata - 4 -

(4) Erstellung einer Do-Datei (ueb06_11b.do), die benötigte Transformationen und u.u. bereits Befehle zur Auswertung enthält. Statistik mit Stata - 5 -

Fortsetzung der Do-Datei: Statistik mit Stata - 6 -

(5) Ausführen der Do-Datei auf dem ausgewählten Datensatz. do W:\Stata\Do-Dateien\ueb06_11b.do (6) Interpretation der Ergebnisse (Beantwortung der Fragestellung) Durchschnittliches Jahreseinkommen im ALLBUS 2006 der befragten Personen aus Ostdeutschland, die ihre eigene Wirtschaftslage als mindestens mittel (also nicht als schlecht) bezeichnen siehe Log-Datei: view "W:\Stata\sessionlg.log" Im ALLBUS 2006 beträgt das durchschnittliche Jahreseinkommen ostdeutscher Befragter, die ihre eigene wirtschaftliche Lage als nicht schlecht einschätzen 12955,40 Euro bei einer Standardabweichung von 7513,17 Euro. Grafik: W:\Stata\v147ost.png Statistik mit Stata - 7 -

W:\Stata\v147ost.png : Statistik mit Stata - 8 -

Lösung der Übungsaufgabe vgl. V:/Stata/ueb06_11 Statistik mit Stata - 9 -

3. Übung: Skalenniveaus, Lage- und Streuungsmaße Gemeinsame schnelle Übung: (1) Welches Skalenniveau haben folgende Variablen: v8, v151, v36, v143, Bildung (in Jahren), v27, v26, v10, v189, v20 (2) Ist bei v36 die Berechnung von Mittelwert und Standardabweichung sinnvoll? Welche Lage- und Streuungsmaße sind sinnvoll bei v143? Ist die Standardabweichung ein sinnvolles Lagemaß bei den Variablen v151 und v27? Übung Lösung Aufgabe (1): v8: nominal, da lediglich Unterscheidung möglich v151: intervall, da meist angenommen wird, dass die Abstände interpretierbar sind (bekanntestes Bsp: Schulnoten) bzw. ordinal, wenn Ausprägungen lediglich als Ränge interpretiert werden Statistik mit Stata - 10 -

v36: nominal, da lediglich Unterscheidung möglich v143: ordinal, da Ränge interpretierbar Bildung (in Jahren): ratio, da Abstände interpretierbar & natürlicher Nullpunkt vorhanden v27: ratio, da Abstände interpretierbar & natürlicher Nullpunkt vorhanden v26: intervall, da Abstände interpretierbar, aber kein natürlicher Nullpunkt vorhanden (der Zeitpunkt Null unserer Zeitrechnung ist willkürlich gewählt) v10: nominal, da lediglich Unterscheidung möglich v189: nominal, da lediglich Unterscheidung möglich v20: ordinal, da Ränge interpretierbar Statistik mit Stata - 11 -

Lösung Aufgabe (2): Bei v36 ist die Berechnung von Mittelwert und Standardabweichung nicht sinnvoll, da die Abstände zwischen den Ausprägungen nicht interpretierbar sind, sondern nur zwischen den Ausprägungen unterschieden werden kann (d.h. nur der Modus ist hier sinnvoll). tab v36 Für Variable v143 sind die Lagemaße Modus und Median sowie die Streuungsmaße Range, Quantile und der Quartilabstand sinnvoll, da ein mehr bzw. weniger des Merkmals interpretierbar ist. tab v143 (Modus) sowie tabstat v143, statistics(count min max r q iqr) Die Standardabweichung ist kein Lage-, sondern ein Streuungsmaß. Bei den Variablen v151 und v27 sind die Lagemaße Modus, Median und arithmetisches Mittel sowie die Streuungsmaße Range, Quantile, Quartilabstand, Varianz und Standardabweichung sinnvoll, Statistik mit Stata - 12 -

da interpretierbar ist, um wie viel mehr bzw. weniger die Merkmale vorliegen. tabstat v151 v27, statistics(count min max r mean q /// iqr var sd) HINWEIS: Im Gegensatz zum Gelernten in der Statistik I Veranstaltung entsprechen sich in Stata das 50%-Quartil und der Median immer. Gelernt in Statistik I: Der Median ist genau dann größer als das 50%-Quartil, wenn die Fallzahl gerade und die Realisierung mit dem Rangplatz (n/2+2) einen größeren Wert aufweist, als die Realisierung mit dem Rangplatz (n/2). Statistik mit Stata - 13 -

4. Mittelwertvergleiche, T-Test Fragestellungen der letzten Übungen: Wie lange arbeiten die im ALLBUS 2006 befragten ostdeutschen Frauen im Durchschnitt pro Monat? Wie groß ist im ALLBUS 2006 das durchschnittliche Jahreseinkommen der befragten Personen aus Ostdeutschland, die ihre eigene Wirtschaftslage als mindestens mittel (also nicht als schlecht) bezeichnen? Beide Fragen bezogen sich nur auf die Stichprobe des ALLBUS 2006, dabei wäre das eigentlich spannende, wie Merkmale in der Grundgesamtheit (z.b. der BRD) verteilt sind. Außerdem wäre die Information interessant, ob sich west- und ostdeutsche Frauen hinsichtlich ihrer durchschnittlichen Arbeitszeit unterscheiden. Bzw. ob Personen die ihre eigene Wirtschaftslage als mind. Mittel bezeichnen im Durchschnitt in West- mehr verdienen als in Ostdeutschland. Statistik mit Stata - 14 -

Zur Beantwortung dieser Fragen: T-Test (Test zum Vergleich von Mittelwerten, d.h. nur für metrische Variablen). Generelles Vorgehen beim statistischen Testen: 1. Formulierung von Null- und Alternativhypothese 2. Auswahl der statistischen Prüfgröße (Teststatistik) 3. Festlegung von Irrtumswahrscheinlichkeit und Ablehnungsbereich 4. Berechnung der Prüfgröße und Entscheidung 5. Überprüfung der Anwendungsvoraussetzungen Beispiel: Unterscheiden sich west- und ostdeutsche Frauen hinsichtlich ihrer durchschnittlichen Arbeitszeit? 1. H1: Es gibt einen Unterschied zwischen der mittleren Arbeitszeit von west- und ostdeutschen Frauen. (µ1 µ2) H0: Es gibt keinen Unterschied zwischen der mittleren Arbeitszeit von west- und ostdeutschen Frauen. (µ1= µ2) Statistik mit Stata - 15 -

2. Auswahl der statistischen Prüfgröße (Teststatistik) Es handelt sich um einen Test auf Mittelwertsunterschiede zwischen zwei Gruppen, die als unabhängige Stichproben aufgefasst werden (Frauen in Westdeutschland und Frauen in Ostdeutschland werden als unabhängige Stichproben aufgefasst). Es wird zudem angenommen, dass die Mittelwerte der Arbeitsstunden aller möglichen Zufallsstichproben normalverteilt sind (Anwendungsvoraussetzung). Zur Entscheidung hinsichtlich des durchzuführenden Tests fragt sich nun noch, ob sich die Varianzen der beiden Stichproben signifikant unterscheiden. Dies kann durch den Levene Test für gleiche Varianzen ermittelt werden: Stata-Befehl: robvar varname [if] [in], by(groupvar) Im Beispiel: robvar v207 if v174==2, by(v4) Arbeitsstunden West- vs. Ostdeutschland Nur Frauen Statistik mit Stata - 16 -

Die Nullhypothese ist hier, dass es keinen Unterschied zwischen den Varianzen der beiden Stichproben gibt. Hinter W0 verbirgt sich die Levene Teststatistik, die hier einen Wert von 33,049 aufweist. Nach Angabe der Freiheitsgrade folgt als Ergebnis des Tests das empirische Signifikanzniveau von 0,000. Statistik mit Stata - 17 -

Dies ist folgender Maßen zu interpretieren: Die Wahrscheinlichkeit, dass die Teststatistik bei gültiger Nullhypothese einen Wert von 33,049 aufweist, oder einen Wert, der noch mehr gegen die Nullhypothese spricht beträgt 0%. Die Nullhypothese, dass hier Varianzgleichheit vorliegt, kann somit verworfen werden. 3. Festlegung von Irrtumswahrscheinlichkeit und Ablehnungsbereich Die Standardeinstellung bei der Durchführung von T-Tests ist in Stata 5%, also Irrtumswahrscheinlichkeit α=5%. Drei Null- und zugehörige Alternativhypothesen möglich: a) H0: µ1 = µ2 anders formuliert: H0: µ1 -µ2 = 0; H1: µ1 -µ2 0 anders formuliert: H1: µ1 -µ2 > 0 a) H0: µ1 -µ2 0; H1: µ1 -µ2 < 0 b) H0: µ1 -µ2 0 ; H1: µ1 -µ2 > 0 Statistik mit Stata - 18 -

Stata gibt als Ergebnis empirische Signifikanzen aus. Diese drücken die Wahrscheinlichkeit aus, dass bei gültiger Nullhypothese ein unten beschriebenes Verhältnis zwischen Wert der Teststatistik und kritischem Wert besteht: Nullhypothese a) H0: µ1 -µ2 = 0 b) H0: µ1 -µ2 0 c) H0: µ1 -µ2 0 Die Nullhypothese kann mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden, wenn Pr ( T > t ) < 0,05 Pr (T < t) < 0,05 Pr (T >t) < 0,05 Wert der Teststatistik Kritischer Wert Statistik mit Stata - 19 -

4. Berechnung d. Prüfgröße/ Entscheidung: Stata-Befehl: ttest Statistik mit Stata - 20 -

Statistik mit Stata - 21 -

In unserem Beispiel: Unterscheiden sich die durchschnittlichen Arbeitszeiten von Frauen aus West- und Ostdeutschland: ttest v207 if v174==2, by(v4) unequal Offensichtlich prüft Stata immer alle drei möglichen Hypothesenpaare. Statistik mit Stata - 22 -

Im Beispiel kann die Nullhypothese, dass es keinen Unterschied hinsichtlich der mittleren Arbeitszeit zwischen Frauen aus West und Ostdeutschland gibt (H0:µ1-µ2=0) verworfen werden. Genauso kann die Nullhypothese verworfen werden, dass der Mittelwert der ersten Stichprobe (westdeutsche Frauen) größer ist als der der zweiten (ostdeutsche Frauen) (H0:µ1-µ2 0). D.h. Mit einer Irrtumswahrscheinlichkeit von 5% arbeiten Frauen in Ostdeutschland pro Woche signifikant länger als Frauen in Westdeutschland. 5. Überprüfung der Anwendungsvoraussetzungen (siehe 2.) Achtung: Im Datensatz allbus_ueb4.dta ist Gewichtung nach West/Ost [iweight=v735] notwendig, wenn repräsentative Aussagen für Gesamtdeutschland getroffen werden sollen! Statistik mit Stata - 23 -

5. Übung: T-Test 1. Verschaffe dir einen Überblick über die Verteilung der Variablen v381, v174 und v4. Verdienen Personen die ihre eigene Wirtschaftslage als mind. mittel bezeichnen im Durchschnitt in West- signifikant mehr als in Ostdeutschland? Für die schnellen: 2. Verschaffe dir einen Überblick über die Verteilung der Variablen v145 und v212. Gibt es zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren einen Unterschied im Hinblick auf ihre Links- Rechts-Selbsteinstufung? Übung Statistik mit Stata - 24 -

Lösung (A1): codebook v381 v174 v4 sum v381 [iweight=v735] (hier Verwendung von sum, da bei tabstat die Option iweights nicht erlaubt ist) tab v174 [iweight=v735] (Modus=2) tab v4 [iweight=v735] (Modus=1) 1. H0: Personen, die ihre eigene Wirtschaftslage als mind. mittel bezeichnen verdienen im Durchschnitt in Westdeutschland genauso viel oder weniger wie in Ostdeutschland. (H0: µ1 -µ2 0) 2. Anwendungsvoraussetzung vgl. Folie 16 robvar v381 if v147<=3, by(v4) zeigt, dass mit einer Irrtumswahrscheinlichkeit von 5% die Varianzen der Stichproben sich auch in der Population unterscheiden. 3. α=5%, da H0: µ1 -µ2 0 kann die Nullhypothese mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden, wenn Pr (T >t) < 0,05 Statistik mit Stata - 25 -

4. Berechnung der Prüfgröße und Entscheidung: ttest v381 if v147<=3, by(v4) unequal Die Nullhypothese, dass Personen, die ihre eigene Wirtschaftslage als mind. mittel bezeichnen im Durchschnitt in Westdeutschland genauso viel oder weniger wie in Ostdeutschland verdienen kann mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden. Auf einem Signifikanzniveau von 5% verdienen Personen, die ihre eigene Wirtschaftslage als mind. mittel bezeichnen im Durchschnitt in Westdeutschland mehr als in Ostdeutschland. Statistik mit Stata - 26 -

Lösung (A2): codebook v145 v212 sum v145 [iweight=v735] tab v212 [iweight=v735] (Modus=2) 1. H0: Es gibt zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren keinen Unterschied im Hinblick auf ihre Links-Rechts- Selbsteinstufung. (H0: µ1 -µ2 = 0) 2. Anwendungsvoraussetzung vgl. Folie 16 robvar v145, by(v212) zeigt, dass mit einer Irrtumswahrscheinlichkeit von 5% die Varianzen der Stichproben sich in der Population nicht unterscheiden. 3. α=5%, da H0: µ1 -µ2 = 0 kann die Nullhypothese mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden, wenn Pr ( T > t ) < 0,05 Statistik mit Stata - 27 -

4. Berechnung der Prüfgröße und Entscheidung: ttest v145, by(v212) Die Nullhypothese, dass es zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren keinen Unterschied im Hinblick auf ihre Links-Rechts- Selbsteinstufung gibt kann mit einer Irrtumswahrscheinlichkeit von 5% nicht verworfen werden. Auf einem Signifikanzniveau von 5% gibt es zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren keinen Unterschied im Hinblick auf ihre Links-Rechts-Selbsteinstufung. Statistik mit Stata - 28 -

6. Kreuztabellen Darstellung des Zusammenhangs zweier kategorialer Variablen: Bivariate Kreuztabelle. Stata-Befehl: tab varname1 varname2 [if] [in] [weight] [,options] Beispiel: Interpretation: 39 Zeilenvariable Personen sind aus Spaltenvariable Ostdeutschland und gehören der Unterschicht an Statistik mit Stata - 29 -

Kreuztabellen geben einen ersten Eindruck über den Zusammenhang zweier kategorialer Variablen. Dies wird bei Betrachtung der prozentualen Verteilung der Fälle deutlicher. Statistik mit Stata - 30 -

Der Befehl tab v14 v4, cell gibt unter der Häufigkeit der Zelle ihre relative Häufigkeit bezogen auf die Gesamtfallzahl (nur gültige Fälle) an. Interpretation: 31,89% aller gültigen Fälle sind Personen aus Ostdeutschland und der Ansicht Abtreibung bei Gesundheitsg. der Frau sollte möglich sein. Statistik mit Stata - 31 -

Der Befehl tab v14 v4, row gibt unter der Häufigkeit der Zelle ihre relative Häufigkeit bezogen auf die Gesamtfallzahl der Zeile an. Interpretation: 33,84% aller Personen, die der Ansicht sind, Abtreibung bei Gesundheitsg. der Frau sollte möglich sein sind aus Ostdeutschland Statistik mit Stata - 32 -

Der Befehl tab v14 v4, col gibt unter der Häufigkeit der Zelle ihre relative Häufigkeit bezogen auf die Gesamtfallzahl der Spalte an. Interpretation: 95,51% aller Personen, die aus Ostdeutschland kommen sind der Ansicht, Abtreibung bei Gesundheitsg. der Frau sollte möglich sein. Statistik mit Stata - 33 -

I.d.R. ist die Zeilenvariable die abhängige, die Spaltenvariable die unabhängige Variable, d.h. hinter dieser Darstellung steht, dass die Variable, die in den Zeilen abgetragen wird von der Variable, die in den Spalten abgetragen wird abhängt. Im Beispiel: Die Einstellung zur Abtreibung bei Gesundheitsgefährdung der Frau hängt vom Erhebungsgebiet ab und nicht: Das Erhebungsgebiet hängt von der Einstellung zur Abtreibung ab! Diese Konvention bedeutet zur Interpretation des Zusammenhangs ist die spaltenweise Prozentuierung sinnvoll. Denn es geht uns um Unterschiede in der Ausprägung der Zeilenvariable zwischen den Spaltenvariablen. Grundsätzlich kann man sich merken: Zeilenweise Prozentuierung bei spaltenweisem Vergleich und spaltenweise Prozentuierung bei zeilenweisem Vergleich. Statistik mit Stata - 34 -

7. Übung: Kreuztabelle Stelle die Variablen Arbeitslosigkeit in den letzten 10 Jahren und Mitgliedschaft in einer Gewerkschaft in einer Kreuztabelle dar. Was vermutest du implizit durch die Wahl von Zeilen- und Spaltenvariable? Prozentuiere entsprechend deiner Vermutung und interpretiere das Ergebnis. Übung Statistik mit Stata - 35 -

Durch die Wahl von Gewerkschaftsmitgliedschaft als Spalten- und Arbeitslosigkeit als Zeilenvariable wird vermutet, dass Arbeitslosigkeit von Gewerkschaftsmitgliedschaft abhängt. Da es also um Unterschiede zwischen den Zeilen geht ist spaltenweise prozentuiert worden: tab v212 v503, col ergibt: Statistik mit Stata - 36 -

Waren 19,85% der Gewerkschaftsmitglieder in den letzten 10 Jahren arbeitslos waren es unter den Nicht- Gewerkschaftsmitgliedern 29,08%. In der Stichprobe des ALLBUS 2006 sind also Personen die einer Gewerkschaft angehören seltener zwischen 1996 und 2006 arbeitslos gewesen als Personen, die keiner Gewerkschaft angehören. Statistik mit Stata - 37 -

Hausaufgaben: 1. Führe jeden Befehl, den die Präsentation enthält mindestens einmal aus. Untersuche die verwendeten Befehle dabei auch auf mögliche Unterbefehle und Optionen. 2. Ergänze deine Befehlstabelle um die heute hinzugekommenen Befehle. Statistik mit Stata - 38 -