Grundlagen der empirischen Sozialforschung Sitzung 10 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 22. Dezember 2008 1 / 21
Online-Materialien Die Materialien zur Vorlesung finden Sie auf der Homepage http://www.uni-due.de/soziologie/stein_lehre.php Die ganze Vorlesung ist dort auch als Stream verfügbar Es gibt eine Übung von Dawid Bekalarczyk um 14 bis 16 Uhr am Montag in Raum S-E 005 hier in Essen Im Sekretariat von Frau Werner in Raum R12 R06 A30 können CDs bzw. DVDs erstanden werden Meine Materialien finden Sie auf meiner Seite http://www.uni-due.de/soziologie/finsel.php Mail: jan_finsel@uni-due.de 2 / 21
Der Plan für heute I 1 Die Hausaufgabe 2 Struktur des Vorlesungsblockes Datenanalyseverfahren Vorlesungsblock Datenanalyseverfahren - sechs Sitzungen 3 Aufgabe Die Bedeutung von Messniveaus für Lage-, Streuungsmaße, Grafiken und für bivariate Zusammenhangsmaße 4 Maßzahlen zur Beschreibung univariater Verteilungen - Verdichtete Informationen Verdichtete Informationen Arithmetisches Mittel Berechnung von x Median Beispiel: Median Bestimmung des Medians Modus (h) 5 Maßzahlen zur Beschreibung univariater Verteilungen - Streuungsmaße Grafik zur Veranschaulichung 3 / 21
Der Plan für heute II Streuungsmaße: Range und Quartilsabstand Grafik zur Veranschaulichung Streuungsmaße: Varianz und Standardabweichung Berechnung von s 2 und s 6 Selberrechnen Aufgabe: Berechnung von Lösung: Berechnung von 4 / 21
Vorlesungsblock Datenanalyse - sechs Sitzungen Ablauf 1. Einführung, Univariate Verteilungen: Tabellarische Darstellung 2. Univariate Verteilungen: Graphische Darstellung 3. Verdichtete Informationen: Maßzahlen zur Beschreibung univariater Verteilungen 4. Bivariate Analyse der Beziehung zwischen nominalen Variablen 5. Bivariate Analyse der Beziehung zwischen ordinalen Variablen 6. Bivariate Analyse der Beziehung zwischen metrischen Variablen Abweichung vom Online-Material Die Regressionsanalyse fällt raus 5 / 21
Aufgabe Anhand des Fragebogens jeweils zwei Variablen für jedes Messniveau finden und die Entscheidung begründen. Die Frägebögen finden sich ab Seite 267 in: Wolfgang Melzer & Wilfried Schubarth 2006: Gewalt als soziales Problem an Schulen Untersuchungsergebnisse und Präventionsstrategien. Ein ebook im Open Access. Verlag Barbara Budrich, Opladen 6 / 21
Die Bedeutung von Messniveaus für Lage-, Streuungsmaße, Grafiken und für bivariate Zusammenhangsmaße Skalenniveau Nominal Ordinal Metrisch Lagemaße häufigster Wert Median arithmetisches = Modus (h) ( x) Mittel (x) Streuungsmaße Quartile, Varianz (s 2 ), (mittlerer) Standard- Quartilsabstand abweichung (s) (QA) Grafiken Balken-, Kreis- Balken-, Kreis- Histogramm, (Torten-)diagramm (Torten-)diagramm, Polygonzug, Box-plot (box- box-andand-whisker-plot) whisker-plot (Bivariate) χ 2 basierte Maß- Rangkorrelations- Pearsons r Zusammen- zahlen: koeffizient Spear- Produkt-Momenthangsmaße Phi, Cramers V, mans rho r s Korrelations- Kontingenz- koeffizient koeffizient C 7 / 21
Maßzahlen zur Beschreibung univariater Verteilungen Maßzahlen der Maßzahlen der zentralen Tendenz (Mittelwerte) Variabilität (Streuungswerte) 8 / 21
Verdichtete Informationen Lagemaße (Maße der zentralen Tendenz) Eine Maßzahl der zentralen Tendenz (im Benninghaus: Mittelwert) ist der Kennwert, der die gesamte Verteilung am besten repräsentiert Arithmetisches Mittel Median Modus 9 / 21
Arithmetisches Mittel Lagemaße (Maße der zentralen Tendenz) Arithmetisches Mittel x (liest sich x quer) Erfordert metrisches Messniveau x = x 1+x 2 +...+x N N oder einfacher zu rechnen x = Σf i x i N 10 / 21
Berechnung von x x i Häufigkeit f i x i f i 10 2 20 11 550 6050 12 454 5448 13 599 7787 14 604 8456 15 711 10665 16 400 6400 17 84 1428 18 4 72 19 1 19 28 1 28 Gesamt 3410 fi x i = 46373 x = Σf i x i N = 46373 3410 = 13, 6 11 / 21
Median Lagemaße (Maße der zentralen Tendenz) Median x Erfordert metrisches Messniveau x (liest sich x Schlange) Der Median ist der Wert, welcher eine geordnete Reihe in zwei Hälften spaltet. 50 % der Fälle liegen über bzw. unter dem Median. Vorteil: Im Gegensatz zum arithmetischen Mittel wird der Median nicht von Extremwerten beeinflusst. 12 / 21
Beispiel: Anzahl der Kühe pro Bauer in einem Dorf mit 5 Bauern Lagemaße (Maße der zentralen Tendenz) 0 0 0 0 200 x = 0 und x = 40 13 / 21
Berechnung von x Häufigkeitstabelle des Merkmales Alter x i Häufigkeit Kumulierte f i Prozente fi N 100 10 2 0.1 11 550 16.2 12 454 29.5 13 599 47.1 14 604 64.8 x = 14 15 711 85.6 16 400 97.4 17 84 99.8 18 4 99.9 19 1 100.0 28 1 100.0 N = 3410 14 / 21
Modus (h) Lagemaße (Maße der zentralen Tendenz) Der Modus ist der Wert, der in einer Verteilung am häufigsten vorkommt (dichtester Wert) Beispiel: h = 7 5 6 6 7 7 7 8 8 9 10 Beispiel: h = 7,5 aufgrund von benachbarten Häufigkeitsmaxima 5 6 6 7 7 7 8 8 8 9 10 15 / 21
Abbildung: Zwei Verteilungen mit gleicher zentraler Tendenz ( x = ~ x = h = 100 ), aber ungleicher Streuung x = ~ x = h = 100 70 80 100 110 130
Streuungsmaße: Range und Quartilsabstand Die Streuungswerte haben die Aufgabe, die Variabilität des gemessenen Merkmals zu beschreiben Der Range Der Range ist definiert als die Differenz zwischen dem größten und dem kleinsten Messwert einer Verteilung Der Range ist das einfachste Streungsmaß R = x max x min Nachteil: Wird sehr stark durch Extremwerte beeinflusst Der Quartilsabstand und der mittlere Quartilsabstand Quartilsabstand = Q3 - Q1 16 / 21
STREUUNGSWERTE (VARIABILITÄTSMAßE) Die Streuungswerte haben die Aufgabe, die Variabilität des gemessenen Merkmals zu beschreiben. 1. Der Range Der Range ist definiert als die Differenz zwischen dem größten und dem kleinsten Messwert einer Verteilung. R = x max x min 2. Der Quartilsabstand und der mittlere Quartilsabstand Abbildung: Illustration der Quartile und des Quartilsabstandes 50 % 1 4 Q 1 1 4 1 4 Q = ~ 2 x Quartilsabstand Q 3 1 4 Quartilsabstand = Q 3 - Q 1
Streuungsmaße s 2 und s Streuungsmaße Lagemaße geben typische Werte einer Verteilung an Streuungsmaße geben an wie stark vom typischen Wert arithmetisches Mittel abgewichen wird Varianz s 2 Varianz = s 2 = (xi x) 2 fi (x N = i x) 2 N Die Varianz steht für den Gesamtumfang der Abweichungen vom Mittelwert 17 / 21
Streuungsmaße s 2 und s Standardabweichung s Standardabweichung = s = (xi x) 2 Die Standardabweichung bezeichnet die durchschnittliche Abweichung in der originären Maßeinheit Standardabweichung und Varianz erfordern metrisches Messniveau N 18 / 21
Berechnung von s und s 2 x i Häufigkeit x i x (x i x) 2 f i (x i x) 2 f i 10 2-3.6 12.96 25.92 fi (x i x) 2 11 550-2.6 6.76 3718 s 2 = 12 454-1.6 2.56 1162.24 N 13 599-0.6 0.36 215.64 x = 13, 6 14 604 0.4 0.16 96.64 15 711 1.4 1.96 1393.56 s 2 = 10201 3410 16 400 2.4 5.76 2304 17 84 3.4 11.56 971.04 s 2 = 2, 99 18 4 4.4 19.36 77.44 19 1 5.4 29.16 29.16 28 1 14.4 207.36 207.36 s = s 2 = 1, 73 N = 3410 = 10201 19 / 21
Aufgabe: Berechnung von x, x, s und s 2 x i Häufigkeit f i x i fi % x i x (x i x) 2 f i (x i x) 2 f i 10 1 11 323 12 614 13 389 14 681 15 499 16 551 17 38 18 2 N = 3098 = = x =; x = s 2 = Σf i (x i x) 2 N =; s = 20 / 21
Lösung: Berechnung von x, x, s und s 2 x i Häufigkeit f i x i fi % x i x (x i x) 2 f i (x i x) 2 f i 10 1 10 0.03-3.72 13.84 13.84 11 323 3553 10.46-2.72 7.40 2389.68 12 614 7368 30.28-1.72 2.96 1816.46 13 389 5057 42.83-0.72 0.52 201.66 14 681 9534 64.82 0.28 0.08 53.39 15 499 7485 80.92 1.28 1.64 817.56 16 551 8816 98.71 2.28 5.20 2864.32 17 38 646 99.94 3.28 10.76 408.82 18 2 36 100.00 4.28 18.32 36.64 N = 3098 = 42505 = 8602.37 x = 42505 3098 = 13, 72; x = 14 s 2 = Σf i (x i x) 2 N = 8602.37 3098 = 2, 78; s = 1, 67 21 / 21