Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael Tiemann, Bundesinstitut für Berufsbildung, AB 2.2: Qualifikation, berufliche Integration und Erwerbstätigkeit
Einleitung Bisher: Einführungen ins Thema, den Mikrozensus, Klassifikationen, SPSS (Datenbearbeitung) Heute und die folgenden drei Sitzungen: Statistik Statistische Kennwerte, Mittelwertvergleiche Grundlegendes zu Kreuztabellen Zusammenhangsmaße Drittvariablenkontrolle
Einleitung Statistische Kennwerte Mittelwerte Range Perzentile und Quartile Darstellungen Mittelwertvergleiche Parametrische und nichtparametrische Tests
Einleitung Zunächst: Die Daten sind da! Campus-File MIKROZENSUS 2002 Literatur zu den Campus-Files: Allgemein: Zwick, Markus: CAMPUS-Files Kostenfreie Public Use Files für die Lehre (http://kolloq.destatis.de/2006/zwick.pdf)
Interessante Variablen Einige interessante Variablen (die Liste bitte der eigenen Fragestellung anpassen): EF95 EF128 EF129 EF287 EF289 EF32 EF30 EF52 Erwerbstätigkeit Erwerbsberuf Wirtschaftszweig Schulabschluss Ausbildungsabschluss Geschlecht Alter Staatsangehörigkeit
Statistische Kennwerte - Einführung Mittelwerte: Arithmetisches Mittel Durchschnitt: Summe aller Merkmalsausprägungen / Anzahl Median Der Wert, der die der Größe nach geordneten Messwerte halbiert Modus Der häu figste Wert Weitere Kennzahlen: Varianz Mittlere quadratische Abweichung (Summe der quad. Abweichungen vom Mittelwert dividiert durch n) Standardabweichung Wurzel aus der Varianz Spannweite / Range Spannweite vom kleinsten bis zum größten Wert Perzentile Die Werte, die jeweils einen bestimmten Prozentsatz der Verteilung abschneiden Achtung: Immer das Skalenniveau beachten!
Statistische Kennwerte am Beispiel der Verteilung des Alters Am Beispiel des Alters: Konsistenzprüfung Lagemaße Aufgaben zur Konsistenzprüfung: 1. Stimmen Alter und Geburtsjahr überein? 2. In welchem Alter wurden die jeweiligen höchsten Schulabschlüsse erworben? Ist das in jedem Fall plausibel?
Statistische Kennwerte des Alters - Konsistenzprüfung Musterlösungen zur Konsistenzprüfung: Wie sind die Abweichungen zu interpretieren? Geburtsdatum wurde genauer als über das Jahr erfasst? Erhebung zog sich über den Jahreswechsel? Mit Anonymisierung entfernte Variable EF34: Sind Sie in den Monaten Januar bis April oder Mai bis Dezember geboren?
Statistische Kennwerte des Alters - Konsistenzprüfung Wie sind die Abweichungen zu interpretieren? Über temp. select if Fälle heraussuchen und prüfen, evtl. ausschließen.
Statistische Kennwerte des Alters - Lagemaße Menüführung: Analysieren Deskriptive Statistiken Häufigkeiten oder N Alter als intervallskaliert Statistiken betrachten: ef30 Mittelwert: N 41,78 (Standardabweichung: Gültig 29190 22,494) Fehlend 0 Median: 42,00 Mittelwert Modus: 41,78 41,00 Standardfehler des Mittelwertes,132 Spannw eite Syntax: Median Modus Standardabweichung 42,00 41 22,494 Varianz Schiefe Deskriptive Statistik 505,965,022 MinimuStandardfehler Maximu der Schiefe Standardab m m Mittelwert weichung Varianz,014 Schiefe Kurtosis Kurtosis Standar -,908 Standar Standar Statistik Statistik Statistik Statistik Statistik dfehler Statistik Statistik Statistik dfehler Statistik dfehler Standardfehler der Kurtosis Analysieren ef30 29190 95 0 95 41,78,132 22,494 505,965,029,022,014 -,908,029 Gültige Werte 29190 Spannweite 95 (Listenweise) Deskriptive Statistiken Minimum 0 Maximum Deskriptive Statistiken 95 Perzentile 10 10,00 20 20,00 25 24,00 30 28,00 40 35,00 50 42,00 60 48,00 70 56,00 75 60,00 80 63,00 90 72,00
Statistische Kennwerte des Alters - Lagemaße Alter als ordinalskaliert betrachten: Zunächst: Variable kategorisieren Modus = 12 Median = 7
Statistische Kennwerte des Alters Lagemaße (Darstellung) Für mindestens intervallskalierte Variablen: Boxplot Ein Beispiel aus BIBB/BAuA 2006: Ausreisser Höchster Wert (ohne Ausreisser) Oberes Quartil Median Unteres Quartil Niedrigster Wert (ohne Ausreisser)
Pause Pause
Mittelwertvergleiche Voraussetzungen: Mittelwertvergleiche Normalverteilung der Messwerte Tests auf Normalverteilung Gleichheit der Varianzen in den Gruppen Prüft SPSS bei den Tests Bei zwei unabhängigen Stichproben kommen in Frage: Student-t-Test für intervallskalierte und normalverteilte Variablen Mann-Whitney-Test (oder Kolmogorov-Smirnov-Test) für ordinalskalierte oder nicht normalverteilte Variablen Wichtig: Gewichtung und Hochrechnung ausschalten!
Mittelwertvergleiche Mögliche Fragen: Gibt es Unterschiede im Einkommen zwischen den Wirtschaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)? Gibt es Unterschiede in der wöchentlichen Arbeitszeit von Männern und Frauen?
Mittelwertvergleiche Einkommensunterschiede zwischen WZ Gibt es Unterschiede im Einkommen zwischen den Wirtschaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)? Einkommen ist ordinal erfasst, daher: Mittelwertvergleich mit Mann-Whitney-Test Menüführung: Analysieren Nichtparametrische Tests Zwei unabhängige Stichproben Syntax:
Mittelwertvergleiche Einkommensunterschiede zwischen WZ Gibt es Unterschiede im Einkommen zwischen den Wirtschaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)? Mittelwertvergleich mit Mann-Whitney-Test: Ergebnis Deskriptive Statistiken ef372 ef129 Standardab Perzentile N Mittelwert weichung Minimum Maximum 25. 50. (Median) 75. 25137 29,38 37,382 1 99 5,00 8,00 90,00 11211 56,54 24,000 1 99 35,00 55,00 75,00 Ränge ef372 ef129 52 65 Gesamt Mann-Whitney-U Wilcoxon-W Z N Mittlerer Rang Rangsumme 960 561,36 538902,00 271 809,57 219394,00 1231 Statistik für Test a Asymptotische Signifikanz (2-seitig) a. Gruppenvariable: ef129 ef372 77622,000 538902,000-10,190,000 Es gibt einen signifikanten Unterschied im Einkommen zwischen den Branchen. Mittlere Ränge aber sind nicht aussagekräftig, daher werden die Mediane der Branchen berechnet.
Mittelwertvergleiche Einkommensunterschiede zwischen WZ Gibt es Unterschiede im Einkommen zwischen den Wirtschaftszweigen Einzelhandel (WZ03 52) und Kreditgewerbe (WZ03 65)? Mittelwertvergleich mit Mann-Whitney-Test: Ergebnis Menüführung: Analysieren Berichte Fälle zusammenfassen Syntax: ef129 52 65 N 960 271 Median 6,0 9,0
Mittelwertvergleiche Arbeitszeiten bei Männern und Frauen Gibt es Unterschiede in der Arbeitszeit zwischen Männern und Frauen? 1. Normalverteilung der Messwerte prüfen Menüführung: Analysieren Deskriptive Statistiken Explorative Datenanalyse Syntax:
Mittelwertvergleiche Arbeitszeiten bei Männern und Frauen Gibt es Unterschiede in der Arbeitszeit zwischen Männern und Frauen? 1. Normalverteilung der Messwerte prüfen: Ergebnis (graphisch)
Mittelwertvergleiche Arbeitszeiten bei Männern und Frauen Gibt es Unterschiede in der Arbeitszeit zwischen Männern und Frauen? 1. Normalverteilung der Messwerte prüfen: Ergebnis ef141 Tests auf Normalverteilung ef32 1 2 Kolmogorov-Smirnov a Statistik df Signifikanz,328 6132,000,199 5079,000 a. Signifikanzkorrektur nach Lilliefors ef141 Basiert auf dem Mittelwert Basiert auf dem Median Basierend auf dem Median und mit angepaßten df Basiert auf dem getrimmten Mittel Test auf Homogenität der Varianz Levene- Statistik df1 df2 Signifikanz 889,194 1 11209,000 520,989 1 11209,000 520,989 1 10996,851,000 933,350 1 11209,000 Die Werte sind nicht normalverteilt und die Varianzen nicht homogen. Daher: Mann-Whitney-Test
Mittelwertvergleiche Arbeitszeiten bei Männern und Frauen Gibt es Unterschiede in der Arbeitszeit zwischen Männern und Frauen? 2. Mittelwertvergleich mit Mann-Whitney-Test: Ergebnis Deskriptive Statistiken ef141 ef32 Standardab Perzentile N Mittelwert weichung Minimum Maximum 25. 50. (Median) 75. 11211 36,51 12,750 1 98 35,00 39,00 40,00 25137 1,52,500 1 2 1,00 2,00 2,00 ef141 ef32 1 2 Gesamt Mann-Whitney-U Wilcoxon-W Z Ränge N Mittlerer Rang Rangsumme 6132 6622,52 40609284,50 5079 4378,73 22239581,50 11211 Statistik für Test a Asymptotische Signifikanz (2-seitig) a. Gruppenvariable: ef32 ef141 9338921,500 22239581,500-37,087,000 Es gibt einen signifikanten Unterschied in der Arbeitszeit zwischen Männern und Frauen. Mediane: Zusammenfassung von Fällen ef141 ef32 1 2 Insgesamt N Median 6132 40,00 5079 38,00 11211 39,00
Mittelwertvergleiche Arbeitszeiten bei Männern und Frauen Gibt es Unterschiede in der Arbeitszeit zwischen Männern und Frauen? Frage zum Abschluss und Ausblick auf das nächste Mal: Wie sind eigentlich die Arbeitszeiten verteilt? Und wie verteilen sie sich auf männliche und weibliche Erwerbstätige?