Deskriptive Statistik

Ähnliche Dokumente
Statistik K urs SS 2004

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Statistik und Wahrscheinlichkeitsrechnung

Einführung in Quantitative Methoden

Weitere Lagemaße: Quantile/Perzentile I

Fachrechnen für Tierpfleger

Bitte am PC mit Windows anmelden!

3. Deskriptive Statistik

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

Statistik I für Betriebswirte Vorlesung 9

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

5 Exkurs: Deskriptive Statistik

Statistik eindimensionaler Größen

Verfahren für metrische Variable

2. Deskriptive Statistik

Mathematik für Biologen

Lage- und Streuungsparameter

Deskriptive Statistik

Einführung in Quantitative Methoden

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

Kreisdiagramm, Tortendiagramm

Deskriptive Statistik

Graphische Darstellung einer univariaten Verteilung:

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

4 Statistische Maßzahlen

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Mathematische Statistik. Zur Notation

Stochastik Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

Kapitel 1 Beschreibende Statistik

Beschreibende Statistik Kenngrößen in der Übersicht (Ac )

4 Statistische Maßzahlen

2 Grundlagen der Statistik

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Grundlagen der empirischen Sozialforschung

Deskriptive Statistik Winfried Zinn

Die folgende Tabelle 1 wurde im Rahmen einer Umfrage unter den Studenten eines Statistikseminars erstellt.

Tutorial: Balken- und Tortendiagramm

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

Deskriptive Statistik & grafische Darstellung

Deskriptive Statistik Erläuterungen

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen.

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Statistik II: Grundlagen und Definitionen der Statistik

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Tutorium Mathematik in der gymnasialen Oberstufe 1. Veranstaltung: Beschreibende Statistik 19. Oktober 2016

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung

Median 2. Modus < Median < Mittelwert. Mittelwert < Median < Modus. 2 Modalwerte oder Modus viel größer bzw. viel kleiner als Mittelwert

Musterlösung zur Übungsklausur Statistik

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

0 Einführung: Was ist Statistik

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8

Kapitel VI - Lage- und Streuungsparameter

Statistik und Wahrscheinlichkeitsrechnung

Ü B U N G S S K R I P T S T A T I S T I K

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

3.5 Beschreibende Statistik. Inhaltsverzeichnis

Statistik Skalen (Gurtner 2004)

10. Medizinische Statistik

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Mathematik für Biologen

Lagemasse und Streuung

Karl Entacher. FH-Salzburg

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

1 Grundlagen statistischer Versuchsauswertung

Empirische Verteilungsfunktion

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

BOXPLOT 1. Begründung. Boxplot A B C

3) Lagemaße: Mittelwert, Median, Modus

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Deskriptive Statistik Auswertung durch Informationsreduktion

Musterlösung zur Übungsklausur Statistik

Die erhobenen Daten (Urliste) werden mithilfe einer Strichliste geordnet. Damit kann die absolute Häufigkeit einfach und schnell erfasst werden.

Mathematik für Biologen

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Sommersemester Marktforschung

Eindimensionale Darstellungen

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Transkript:

Deskriptive Statistik 1 Ziele In der deskriptiven (=beschreibenden) Statistik werden Untersuchungsergebnisse übersichtlich dargestellt, durch Kennzahlen charakterisiert und grafisch veranschaulicht. 2 Nominal- und ordinalskalierte Merkmale Darstellung In einer Umfrage unter 100 Schülern einer Schule wurde gefragt, welches Transportmittel hauptsächlich für den Schulweg genutzt wird. Im Mittelpunkt der Aufbereitung steht eine Tabelle mit den absoluten und den relativen Häufigkeiten der Merkmalsausprägungen. Schulweg absolute Häufigkeit relative Häufigkeit zu Fuss 6 0.06 (6%) mit Velo 32 0.32 (32%) mit Bus 28 0.28 (28%) mit Zug 19 0.19 (19%) mit Mofa/Motorrad 14 0.14 (14%) mit Auto 1 0.01 (1%) Summe 100 1.00 (100%) Kennzahlen Modus oder Modalwert: Der am häufigsten auftretende Merkmalswert. In Beispiel oben ist der Modus Velo Es ist auch möglich, dass es mehrere Modi gibt. 1

Einfaches Balkendiagramm (1) Primäres Transportmittel auf dem Schulweg Anzahl 35 30 25 20 15 10 5 0 zu Fuss Velo Bus Zug Mofa Motorrad Auto Einfaches Balkendiagramm (2) Die horizontale Darstellungsweise kann bei wenig Kategorien oder bei langen Kategoriennamen platzsparender sein. Primäres Transportmittel auf dem Schulweg zu Fuss Velo Bus Zug Mofa/Motorrad Auto 0 5 10 15 20 25 30 35 Anzahl Gruppiertes Balkendiagramm Primäres Transportmittel auf dem Schulweg (nach Geschlecht) Anzahl 35 30 25 20 15 10 5 0 männlich weiblich zu Fuss Velo Bus Zug Mofa Motorrad Auto 2

Kreisdiagramm Velo Bus zu Fuss Auto Motorrad Zug Kreisdiagramme eignen sich nicht unbedingt für die Darstellung von Informationen, da wir Längenunterschiede besser erkennen können als Differenzen von Kreissektorflächen. Um Monotonie in der Wahl der Grafiken zu vermeiden, kann es aber sinnvoll sein, manchmal ein Kreisdiagramm zu verwenden. Finger weg von 3D-Darstellungen! Das Verhältnis 1 : 4 in verschiedenen Dimensionen Längen Flächen Volumina 3 Metrisch skalierte Merkmale Beispiel Eine grosse Zahl metrisch skalierter Rohdaten ist intuitiv schlecht zu erfassen. Anzahl Fehler von zwei Schulklassen in einem Diktat: (gepoolt) 1, 1, 3, 3, 4, 4, 5, 5, 6, 6, 7, 8, 8, 8, 8, 8, 9, 9, 9, 10, 10, 11, 12, 12, 12, 12, 13, 14, 14, 15, 16, 17, 18, 21, 21, 22, 24, 25, 28, 28 Um die Verteilungseigenschaften von metrisch skalierten Daten veranschaulichen zu können, werden sie in Intervalle eingeteilt. Dazu einige Faustregeln: Alle Intervalle sollten im Normalfall die gleiche Breite aufweisen. Werte, die auf eine Intervallgrenze fallen, werden in der Regel zum darunterliegenden Intervall gezählt. 3

Maximal 20 Klassen Tabellarische Darstellung Die Häufigkeitsverteilung der Diktatfehler: Intervall absolute Häufigkeit relative Häufigkeit 0 < x 5 8 0.200 (20%) 5 < x 10 13 0.325 (32.5%) 10 < x 15 9 0.225 (22.5%) 15 < x 20 3 0.075 (7.5%) 20 < x 25 5 0.125 (12.5%) 25 < x 30 2 0.050 (5%) Summe 40 1.000 (100%) Das Histogramm Im Gegensatz zum Balkendiagramm hat das Histogramm eine horizontale metrische Skala. Auf der vertikalen Achse können die absoluten oder die relativen Klassenhäufigkeiten eingezeichnet werden. Die Fläche der Balken entspricht der absoluten (relativen) Häufigkeit. absolute Häufigkeit 15 10 5 0 5 10 15 20 25 30 Anzahl Fehler Der Mittelwert x = x 1 + x 2 + + x n n Anzahl Diktatfehler der Klasse A: 8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10 x A = 8 + 9 + 22 +... + 10 20 = 11.65 4

Anzahl Diktatfehler der Klasse B: 8, 4, 21, 5, 10, 9, 12, 12, 6, 14, 17, 8, 14, 21, 9, 12, 6, 15, 13, 18 x B = 8 + 4 + 21 +... + 18 20 = 11.7 Der Median Der Median x teilt die sortierte Werteliste in zwei gleich grosse Hälften. Bei ungeradem Stichprobenumfang: (zum Vergleich: x = 8) 2 2 3 4 29 x = 3 Bei geradem Stichprobenumfang: (zum Vergleich: x = 7.5) 2 2 3 4 5 29 x = 3.5 Der Median ist robust gegenüber Ausreissern, d. h. Werten, die von der Datenmitte stark abweichen. Die Mediane der Beispieldaten Median in Klasse A (x A = 11.65): 1 1 3 3 4 5 7 8 8 8 9 10 11 12 16 22 24 25 28 28 8.5 Median in Klasse B (x B = 11.7): 4 5 6 6 8 8 9 9 10 12 12 12 13 14 14 15 17 18 21 21 12 Deutung(en)? 5

Die Varianz einer Stichprobe Sind x 1, x 2,..., x n die Werte einer Stichprobe und x ihr Mittelwert, so ist die (Stichproben- )Varianz wie folgt definiert: s 2 = (x 1 x) 2 + (x 2 x) 2 + + (x n x) 2 n 1 Durch das Quadrieren der Differenzen werden grosse Abweichungen vom Mittelwert stärker gewichtet als kleine Abweichungen. Die Varianz einer Stichprobe dient dazu, die Varianz der Grundgesamtheit zu schätzen. Der Divsor n 1 (statt n) sorgt dafür, dass die Varianz nicht systematisch zu klein geschätzt wird. Die Varianzen der Beispieldaten Varianz in Klasse A: (x A = 11.65) 8, 9, 22, 1, 7, 16, 1, 25, 28, 3, 8, 3, 8, 5, 28, 11, 24, 4, 12, 10 s 2 A = (8 11.65)2 + (9 11.65) 2 +... + (10 11.65) 2 19 = 81.19 Varianz in Klasse B: (x B = 11.7) 8, 9, 3, 21, 16, 12, 8, 4, 10, 7, 11, 6, 9, 13, 21, 6, 8, 14, 8, 5 s 2 B = (8 11.7)2 + (9 11.7) 2 +... + (5 11.7) 2 19 Deutung? = 25.17 Die Standardabweichung einer Stichprobe Die Varianz besteht aus einer Summe von quadrierten Abweichungen. Also ist auch die Masseinheit der Varianz das Quadrat der Masseinheit der zugrunde liegenden Grösse. Beispiel: Die Varianz s 2 einer Stichprobe aus Franken-Beträgen ist eine Grösse mit der Einheit Quadratfranken. Um die Streuung mit der ursprünglichen Masseinheit zu messen, wird die Standardabweichung s als Quadratwurzel der Varianz definiert: s = s 2 Deshalb kann die Standardabweichung als eine Art mittlere Abweichung vom Zentrum der Daten interpretiert werden. 6

Die Standardabweichungen der Beispieldaten Standardabweichung in Klasse A: (x A = 11.65) s A = 81.19 = 9.01 Standardabweichung in Klasse B: (x B = 11.7) s B = 25.17 = 5.02 Der Interquartilsabstand Die Varianz bzw. die mit ihr verwandte Standardabweichung reagieren sensibel auf Ausreisser. Auch bei den Massen für die Streuung gibt es eine Kennzahl, die robust gegenüber Ausreissern ist. Es handelt sich dabei um den Interquartilsabstand (IQR= interquartile range). Der IQR ist definiert als die Differenz zwischen dem dritten und dem ersten Quartil q 0.75 q 0.25. Das erste Quartil q 0.25 ist der Median in der unteren Hälfte der sortierten Daten. Das dritte Quartil q 0.75 ist der Median in der oberen Hälfte der sortierten Daten. Beispiel Diese Begriffe lassen sich gut an einem Beispiel veranschaulichen: 6 7 9 11 11 13 21 q 0.25 = 8 x = 11 q 0.75 = 12 Also gilt: IQR = q 0.75 q 0.25 = 12 8 = 4 Bemerkung: Werte, die kleiner als q 0.25 1.5 IQR oder grösser als q 0.75 + 1.5 IQR sind, werden als Ausreisser bezeichnet. Das Box-and-Whiskers Plot 2 4 6 8 10 12 14 16 18 20 22 x min 1.5 IQR IQR 1.5 IQR q 0.25 x q 0.75 x max 7

Das Box-and-Whiskers Plot der Beispieldaten A B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 4 Übungen Frage 1 Auf einem Fragebogen beantworteten 20 Personen eine Frage wie folgt: immer manchmal nie oft oft nie selten nie manchmal nie oft selten selten oft manchmal immer oft selten manchmal oft Bestimmen Sie den Modus. Frage 3 Bestimmen Sie den Mittelwert, die Varianz und die Standardabweichung für die Werte der (sehr kleinen) Stichprobe: 4, 9, 5 Frage 4 Bestimmen Sie Mittelwert, Varianz und Standardabweichung der folgenden Stichprobe: x 1 = 2 cm, x 2 = 8 cm, x 3 = 1 cm und x 4 = 5 cm Frage 5 Vergleichen Sie die steuerbaren Einkommen von Minidorf und Kleinhausen: [in 10 000 Franken]: Minidorf: 3, 5, 6, 6, 20 Kleinhausen: 5, 6, 8, 9, 12 8

Frage 6 Bestimmen Sie für die folgenden Werte den Median, das erste und dritte Quartil sowie den IQR: 5, 8, 1, 7, 6, 3, 8 9 6. Februar 2015