Deskriptive Statistik 1 Ziele In der deskriptiven (=beschreibenden) Statistik werden Untersuchungsergebnisse übersichtlich dargestellt, durch Kennzahlen charakterisiert und grafisch veranschaulicht. 2 Nominal- und ordinalskalierte Merkmale Darstellung In einer Umfrage unter 100 Schülern einer Schule wurde gefragt, welches Transportmittel hauptsächlich für den Schulweg genutzt wird. Im Mittelpunkt der Aufbereitung steht eine Tabelle mit den absoluten und den relativen Häufigkeiten der Merkmalsausprägungen. Schulweg absolute Häufigkeit relative Häufigkeit zu Fuss 6 0.06 (6%) mit Velo 32 0.32 (32%) mit Bus 28 0.28 (28%) mit Zug 19 0.19 (19%) mit Mofa/Motorrad 14 0.14 (14%) mit Auto 1 0.01 (1%) Summe 100 1.00 (100%) Kennzahlen Modus oder Modalwert: Der am häufigsten auftretende Merkmalswert. In Beispiel oben ist der Modus Velo Es ist auch möglich, dass es mehrere Modi gibt. 1
Einfaches Balkendiagramm (1) Primäres Transportmittel auf dem Schulweg Anzahl 35 30 25 20 15 10 5 0 zu Fuss Velo Bus Zug Mofa Motorrad Auto Einfaches Balkendiagramm (2) Die horizontale Darstellungsweise kann bei wenig Kategorien oder bei langen Kategoriennamen platzsparender sein. Primäres Transportmittel auf dem Schulweg zu Fuss Velo Bus Zug Mofa/Motorrad Auto 0 5 10 15 20 25 30 35 Anzahl Gruppiertes Balkendiagramm Primäres Transportmittel auf dem Schulweg (nach Geschlecht) Anzahl 35 30 25 20 15 10 5 0 männlich weiblich zu Fuss Velo Bus Zug Mofa Motorrad Auto 2
Kreisdiagramm Velo Bus zu Fuss Auto Motorrad Zug Kreisdiagramme eignen sich nicht unbedingt für die Darstellung von Informationen, da wir Längenunterschiede besser erkennen können als Differenzen von Kreissektorflächen. Um Monotonie in der Wahl der Grafiken zu vermeiden, kann es aber sinnvoll sein, manchmal ein Kreisdiagramm zu verwenden. Finger weg von 3D-Darstellungen! Das Verhältnis 1 : 4 in verschiedenen Dimensionen Längen Flächen Volumina 3 Metrisch skalierte Merkmale Beispiel Eine grosse Zahl metrisch skalierter Rohdaten ist intuitiv schlecht zu erfassen. Anzahl Fehler von zwei Schulklassen in einem Diktat: (gepoolt) 1, 1, 3, 3, 4, 4, 5, 5, 6, 6, 7, 8, 8, 8, 8, 8, 9, 9, 9, 10, 10, 11, 12, 12, 12, 12, 13, 14, 14, 15, 16, 17, 18, 21, 21, 22, 24, 25, 28, 28 Um die Verteilungseigenschaften von metrisch skalierten Daten veranschaulichen zu können, werden sie in Intervalle eingeteilt. Dazu einige Faustregeln: Alle Intervalle sollten im Normalfall die gleiche Breite aufweisen. Werte, die auf eine Intervallgrenze fallen, werden in der Regel zum darunterliegenden Intervall gezählt. 3
Maximal 20 Klassen Tabellarische Darstellung Die Häufigkeitsverteilung der Diktatfehler: Intervall absolute Häufigkeit relative Häufigkeit 0 < x 5 8 0.200 (20%) 5 < x 10 13 0.325 (32.5%) 10 < x 15 9 0.225 (22.5%) 15 < x 20 3 0.075 (7.5%) 20 < x 25 5 0.125 (12.5%) 25 < x 30 2 0.050 (5%) Summe 40 1.000 (100%) Das Histogramm Im Gegensatz zum Balkendiagramm hat das Histogramm eine horizontale metrische Skala. Auf der vertikalen Achse können die absoluten oder die relativen Klassenhäufigkeiten eingezeichnet werden. Die Fläche der Balken entspricht der absoluten (relativen) Häufigkeit. absolute Häufigkeit 15 10 5 0 5 10 15 20 25 30 Anzahl Fehler Der Mittelwert x = x 1 + x 2 + + x n n Anzahl Diktatfehler der Klasse A: 8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10 x A = 8 + 9 + 22 +... + 10 20 = 11.65 4
Anzahl Diktatfehler der Klasse B: 8, 4, 21, 5, 10, 9, 12, 12, 6, 14, 17, 8, 14, 21, 9, 12, 6, 15, 13, 18 x B = 8 + 4 + 21 +... + 18 20 = 11.7 Der Median Der Median x teilt die sortierte Werteliste in zwei gleich grosse Hälften. Bei ungeradem Stichprobenumfang: (zum Vergleich: x = 8) 2 2 3 4 29 x = 3 Bei geradem Stichprobenumfang: (zum Vergleich: x = 7.5) 2 2 3 4 5 29 x = 3.5 Der Median ist robust gegenüber Ausreissern, d. h. Werten, die von der Datenmitte stark abweichen. Die Mediane der Beispieldaten Median in Klasse A (x A = 11.65): 1 1 3 3 4 5 7 8 8 8 9 10 11 12 16 22 24 25 28 28 8.5 Median in Klasse B (x B = 11.7): 4 5 6 6 8 8 9 9 10 12 12 12 13 14 14 15 17 18 21 21 12 Deutung(en)? 5
Die Varianz einer Stichprobe Sind x 1, x 2,..., x n die Werte einer Stichprobe und x ihr Mittelwert, so ist die (Stichproben- )Varianz wie folgt definiert: s 2 = (x 1 x) 2 + (x 2 x) 2 + + (x n x) 2 n 1 Durch das Quadrieren der Differenzen werden grosse Abweichungen vom Mittelwert stärker gewichtet als kleine Abweichungen. Die Varianz einer Stichprobe dient dazu, die Varianz der Grundgesamtheit zu schätzen. Der Divsor n 1 (statt n) sorgt dafür, dass die Varianz nicht systematisch zu klein geschätzt wird. Die Varianzen der Beispieldaten Varianz in Klasse A: (x A = 11.65) 8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10 s 2 A = (8 11.65)2 + (9 11.65) 2 +... + (10 11.65) 2 19 = 81.19 Varianz in Klasse B: (x B = 11.7) 8, 9, 3, 21, 16, 12, 8, 4, 10, 7, 11, 6, 9, 13, 21, 6, 8, 14, 8, 5 s 2 B = (8 11.7)2 + (9 11.7) 2 +... + (5 11.7) 2 19 Deutung? = 25.17 Die Standardabweichung einer Stichprobe Die Varianz besteht aus einer Summe von quadrierten Abweichungen. Also ist auch die Masseinheit der Varianz das Quadrat der Masseinheit der zugrunde liegenden Grösse. Beispiel: Die Varianz s 2 einer Stichprobe aus Franken-Beträgen ist eine Grösse mit der Einheit Quadratfranken. Um die Streuung mit der ursprünglichen Masseinheit zu messen, wird die Standardabweichung s als Quadratwurzel der Varianz definiert: s = s 2 Deshalb kann die Standardabweichung als eine Art mittlere Abweichung vom Zentrum der Daten interpretiert werden. 6
Die Standardabweichungen der Beispieldaten Standardabweichung in Klasse A: (x A = 11.65) s A = 81.19 = 9.01 Standardabweichung in Klasse B: (x B = 11.7) s B = 25.17 = 5.02 Der Interquartilsabstand Die Varianz bzw. die mit ihr verwandte Standardabweichung reagieren sensibel auf Ausreisser. Auch bei den Massen für die Streuung gibt es eine Kennzahl, die robust gegenüber Ausreissern ist. Es handelt sich dabei um den Interquartilsabstand (IQR= interquartile range). Der IQR ist definiert als die Differenz zwischen dem dritten und dem ersten Quartil q 0.75 q 0.25. Das erste Quartil q 0.25 ist der Median in der unteren Hälfte der sortierten Daten. Das dritte Quartil q 0.75 ist der Median in der oberen Hälfte der sortierten Daten. Beispiel Diese Begriffe lassen sich gut an einem Beispiel veranschaulichen: 6 7 9 11 11 13 21 q 0.25 = 8 x = 11 q 0.75 = 12 Also gilt: IQR = q 0.75 q 0.25 = 12 8 = 4 Bemerkung: Werte, die kleiner als q 0.25 1.5 IQR oder grösser als q 0.75 + 1.5 IQR sind, werden als Ausreisser bezeichnet. Das Box-and-Whiskers Plot 2 4 6 8 10 12 14 16 18 20 22 x min 1.5 IQR IQR 1.5 IQR q 0.25 x q 0.75 x max 7
Das Box-and-Whiskers Plot der Beispieldaten A B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 4 Übungen Frage 1 Auf einem Fragebogen beantworteten 20 Personen eine Frage wie folgt: immer manchmal nie oft oft nie selten nie manchmal nie oft selten selten oft manchmal immer oft selten manchmal oft Bestimmen Sie den Modus. Frage 3 Bestimmen Sie den Mittelwert, die Varianz und die Standardabweichung für die Werte der (sehr kleinen) Stichprobe: 4, 9, 5 Frage 4 Bestimmen Sie Mittelwert, Varianz und Standardabweichung der folgenden Stichprobe: x 1 = 2 cm, x 2 = 8 cm, x 3 = 1 cm und x 4 = 5 cm Frage 5 Vergleichen Sie die steuerbaren Einkommen von Minidorf und Kleinhausen: [in 10 000 Franken]: Minidorf: 3, 5, 6, 6, 20 Kleinhausen: 5, 6, 8, 9, 12 8
Frage 6 Bestimmen Sie für die folgenden Werte den Median, das erste und dritte Quartil sowie den IQR: 5, 8, 1, 7, 6, 3, 8 9 6. Februar 2015