Deskriptive Statistik & grafische Darstellung

Ähnliche Dokumente
Statistik K urs SS 2004

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Lage- und Streuungsparameter

Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

3. Deskriptive Statistik

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Einführung in Quantitative Methoden

Statistik und Wahrscheinlichkeitsrechnung

Mittelwert und Standardabweichung

Bitte am PC mit Windows anmelden!

Statistische Grundlagen I

Kapitel 1: Deskriptive Statistik

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Einführung in die Korrelationsrechnung

Kapitel 1 Beschreibende Statistik

Kapitel 2. Mittelwerte

Verfahren für metrische Variable

Grundlagen der empirischen Sozialforschung

Einführung in Quantitative Methoden

Deskriptive Statistik

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Mathematische und statistische Methoden I

Das arithmetische Mittel. x i = = 8. x = 1 4. und. y i = = 8

Auswertung und Darstellung wissenschaftlicher Daten (1)

Maße der zentralen Tendenz

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Statistik und Wahrscheinlichkeitsrechnung

Prüfen von Unterschiedshypothesen für ordinale Variablen: Mann-Whitney Test und Ko

Fachrechnen für Tierpfleger

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Graphische Darstellung einer univariaten Verteilung:

Kapitel 1: Deskriptive Statistik

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Aufgabe 3 Bei 16 PKWs desselben Typs wurde der Benzinverbrauch pro 100 km gemessen. Dabei ergab sich die folgende Urliste (in Liter pro 100km):

Ü B U N G S S K R I P T S T A T I S T I K

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Stichwortverzeichnis. Symbole

Univ.-Prof. Dr. Georg Wydra

Lösungen. w58r4p Lösungen. w58r4p. Name: Klasse: Datum:

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Statistik I für Betriebswirte Vorlesung 9

5 Exkurs: Deskriptive Statistik

Lagemasse und Streuung

Deskriptive Statistik Erläuterungen

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

3. Lektion: Deskriptive Statistik

Weitere Lagemaße: Quantile/Perzentile I

Statistik eindimensionaler Größen

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Statistik I für Betriebswirte Vorlesung 9

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Empirische Verteilungsfunktion

Übungen mit dem Applet Rangwerte

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung

Streuungsmaße von Stichproben

BOXPLOT 1. Begründung. Boxplot A B C

Beschreibende Statistik Kenngrößen in der Übersicht (Ac )

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

Mathematik für Biologen

Lage- und Streuungsmaße

Univariate explorative Datenanalyse in R

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Sommersemester Marktforschung

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Tabellen und Abbildungen

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

3) Lagemaße: Mittelwert, Median, Modus

Gliederung der Vorlesung

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Statistik II: Grundlagen und Definitionen der Statistik

Statistik I für Humanund Sozialwissenschaften

Anwendung A_0801_Quantile_Minimum_Maximum

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Beide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.

Deskriptive Statistik

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Transkript:

Deskriptive Statistik & grafische Darstellung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 1 / 62

Teil I Deskriptive Statistik S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 2 / 62

Agenda Deskriptive Statistik Verteilung Maße der zentralen Tendenz Definition Modalwert Arithmetisches Mittel Gewichtetes arithmetisches Mittel Median Vergleich Median - Mittelwert Vergleich der Maße der zentralen Tendenz Dispersionsmaße: Maße der Variabilität Definition Übersicht von Dispersionsmaßen Minimum, Maximum, Variationsbreite Quantile S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 3 / 62

Agenda (Forts. 2) Varianz Standardabweichung Zusammenfassung Übung S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 4 / 62

Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik bedeutet beschreibende Statistik. Dient dazu, mit möglichst wenigen Kennwerten möglichst viel Informationen darzustellen. Typische Kennwerte der deskriptiven Statistik sind: Minimum & Maximum, Spannweite (Range). Anzahl der Messwerte / Probanden. Maße der zentralen Tendenz: Arithmetisches Mittel (Mittelwert), Median, Modalwert. Dispersionsmaße (Streuungsmaße, z B. Varianz, Standardabweichung). Abbildungen, z. B. Boxplots, Histogramme, siehe Teil 2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 5 / 62

Deskriptive Statistik Verteilung Verteilung Unter einer Verteilung einer Variablen versteht man eine Beschreibung der Häufigkeiten der einzelnen Messwerte. Beispiel: Wir erheben das Alter in Jahren aller Kursteilnehmer. Wir zählen aus, wie oft jedes Alter vorkommt. Die Häufigkeiten können auf verschiedene Arten dargestellt werden, weshalb es verschiedene Typen einer Verteilung gibt. Dazu in einer folgenden Veranstaltung mehr. Es existieren viele Verteilungen, die in der Statistik und Psychologie dazu genutzt werden, Variablen und Messwerte zu beschreiben und Kennwerte zu bestimmen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 6 / 62

Maße der zentralen Tendenz Definition Maße der zentralen Tendenz Definition Maße der zentralen Tendenz fragen, durch welchen Wert die gesamte Verteilung, d. h. alle Zahlen, am besten repräsentiert wird. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 7 / 62

Maße der zentralen Tendenz Definition Beispieldatensatz Bewerber Alter in Jahren 1 24 2 27 3 25 4 39 5 28 6 25 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 8 / 62

Maße der zentralen Tendenz Modalwert Modalwert Modalwert Der Modalwert, auch Modus genannt, ist der am häufigsten auftretende Wert einer Variablen. Beispiel: Alter der Bewerber = 24, 27, 25, 39, 28, 25. Das Alter 25 kommt zweimal vor, der Modalwert ist damit 25. Der Modus ist nicht notwendigerweise eindeutig bestimmbar. Üblicherweise spricht man nur bei solchen Verteilungen von einem Modalwert, die ein einzelnes Maximum besitzen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 9 / 62

Maße der zentralen Tendenz Arithmetisches Mittel Arithmetisches Mittel Arithmetisches Mittel Das arithmetische Mittel, oder kurz Mittelwert, entspricht der Summe aller Messwerte x dividiert durch die Anzahl n der Messwerte: Mw = x = x 1 + x 2 +... + x n n n i=1 = x i n x hat die Eigenschaft, dass die quadrierten Abweichen (x i x) minimiert sind. (1) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 10 / 62

Maße der zentralen Tendenz Arithmetisches Mittel Rechenbeispiel zum Mittelwert Daten: 24, 27, 25, 39, 28, 25 Anzahl der Messwerte: n = 6, damit: n=6 i=1 x i n = 24 + 27 + 25 + 39 + 28 + 25 6 = 168 6 = 28 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 11 / 62

Maße der zentralen Tendenz Gewichtetes arithmetisches Mittel Gewichtetes arithmetisches Mittel Soll der Mittelwert von verschieden Mittelwerten mit unterschiedlicher Gruppengröße n berechnet werden, muss auf das gewogene arithmetische Mittel oder gewichtete arithmetische Mittel, GAM zugegriffen werden. Hierbei werden die einzelnen Mittelwerte anhand ihrer Stichprobengröße n gewichtet und durch die Summe aller n i dividiert. Gewichtetes arithmetisches Mittel Das gewichtete arithmetische Mittel GAM berechnet sich als GAM = n i=1 x i n i n i=1 n i (2) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 12 / 62

Maße der zentralen Tendenz Gewichtetes arithmetisches Mittel Rechenbeispiel GAM Das mittlere Körpergewicht in kg von 4 Gruppen beträgt: Gruppe 1 2 3 4 Gewicht in kg 78 71 75 72 Gruppengröße n 15 21 12 22 Das GAM berechnet sich damit zu n i=1 GAM = i n i n i=1 n i = 78 15 + 71 21 + 75 12 + 72 22 15 + 21 + 12 + 22 = 5145 70 = 73.5 Das gewichtete arithmetische Mittel für die 4 Gruppen beträgt damit 73.5 kg. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 13 / 62

Maße der zentralen Tendenz Median Median Median Der Median teilt eine sortierte Liste an Werten so, dass rechts und links des Medians jeweils gleich viele Werte liegen. Für eine aufsteigend sortierte Anzahl von n Messwerten gilt: Md = x = { n ungerade: n geradzahlig: Messwert an der Stelle x (n+1)/2 x n/2 +x (n/2)+1 2 (3) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 14 / 62

Maße der zentralen Tendenz Median Rechenbeispiel zum Median unsortierte Daten: 24, 27, 25, 39, 28, 25. sortierte Daten: 24, 25, 25, 27, 28, 39. n = 6 damit finden wir folgende Stellen: Stelle 1: n/2 = 6/2 = 3 Stelle 2: n/2 + 1 = 6/2 + 1 = 4 Damit Mittelwert des 3. und des 4. Messwerts der sortierten Liste berechnen: Md = (25 + 27)/2 = 26. Kommt ein weiterer Bewerber mit Alter 42 hinzu, ergibt sich: n = 7, damit Regel (n + 1)/2 = (7 + 1)/2 = 4, also Messwert an der Stelle 4 der sortierten Liste: x = 27. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 15 / 62

Maße der zentralen Tendenz Vergleich Median - Mittelwert Vergleich Median - Mittelwert Ein theoretisches Beispiel: Daten: 24, 25, 25, 27, 28, 39; Md = 26, Mw = 28. Nun wird der Messreihe hinzugefügt. Der Median lautet damit: Die sortierte Liste hat ein ungerades n = 7, also Md = (n + 1)/2 = 8/2 = 4, damit 4ter Messwert: 27. Hier ist es also egal, wie groß der Messwert ist, der der sortierten Liste hinzugeführt wird. Der Mittelwert berechnet sich nun: 24+25+25+27+28+39+ 7 = 168+ 7 = Der Mittelwert nimmt den Wert Unendlich an! Fazit: Der Mittelwert ist gegenüber dem Median deutlich anfälliger für besonders extreme Messwerte, so genannte Ausreißer. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 16 / 62

Maße der zentralen Tendenz Vergleich der Maße der zentralen Tendenz Vergleich der Maße der zentralen Tendenz Kennwert Vorteile Nachteile Niveau Mittelwert Median Modalwert ist bekannt; Verwendung auch im Alltag (Durchschnitt) durch Extremwerte kaum beeinflussbar ist immer auch ein existierender Wert kann ein nichtexistierender Wert sein; stark durch Extremwerte beeinflussbar nutzt nur Ranginformationen unter Umständen nicht eindeutig bestimmbar (z.b. wenn mehrere Werte gleich häufig auftauchen) nur sinnvoll bei mindestens intervallskalierten, normalverteilten Variablen mind. Ordinalskalen Nominalskalen S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 17 / 62

Dispersionsmaße: Maße der Variabilität Definition Dispersionsmaße: Maße der Variabilität Definition Maße der Streuung (Dispersion) informieren über die Unterschiedlichkeit der Werte. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 18 / 62

Dispersionsmaße: Maße der Variabilität Übersicht von Dispersionsmaßen Übersicht von Dispersionsmaßen Minimum, Maximum Variationsbreite bzw. Range: Differenz zwischen Minimum und Maximum. Interquartilbereiche: Die sortierte Werteliste wird in 4 Bereiche geteilt, die jeweils 25% der Werte enthalten. Varianz: Durchschnittliche quadratische Abweichungen. Standardabweichung: Quadratwurzel aus der Varianz. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 19 / 62

Dispersionsmaße: Maße der Variabilität Minimum, Maximum, Variationsbreite Minimum, Maximum, Variationsbreite unsortierte Messwerte: 24, 25, 39, 19, 27, 28, 29, 25. sortierte Messwerte: 19, 24, 25, 25, 27, 28, 29, 39. Minimum: 19, Maximum: 39. Variationsbreite: 39-19 = 20. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 20 / 62

Dispersionsmaße: Maße der Variabilität Quantile Quantile Ein Quantil ist ein Wert, unter dem ein bestimmter Prozentsatz an Messwerten liegt. Beispiel Median: Dieser entspricht dem 50% Quantil: 50% der Messwerte sind kleiner als der Median, die verbleibenden 50% sind damit größer. Ein verbreitetes Lagemaß sind Interquartilbereiche (oder auch Quartile), die eine sortierte Werteliste in vier gleiche größe Teile unterteilen, also jeweils 25%. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 21 / 62

Dispersionsmaße: Maße der Variabilität Quantile Beispiel: Punkte in Statistikklausur Es liegen die Punkte (0 bis 60) von 30 Studierenden vor. Die Werte in sortierter Reihenfolge: 59 57 56 54 54 47 46 45 44 43 40 40 39 39 36 36 36 35 33 32 32 31 30 30 29 29 29 27 26 25 Sie haben 47 Punkte erreicht. Entspricht Ihre Leistung den der oberen 25%? Zuerst muss der Median bestimmt werden: Mittel zwischen 15ten und 16ten-Wert: (36 + 36)/2 = 36. Äquivalent wird der Median der ersten und zweiten 15 Messwerte bestimmt: 59 57 56 54 54 47 46 45 44 43 40 40 39 39 36 36 36 35 33 32 32 31 30 30 29 29 29 27 26 25 Die Interquartilbereiche sind damit: 0% = 25, 25% = 30, 50% = 36, 75% = 45, 100% = 59 Damit gehören Sie zu den 25% der Besten. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 22 / 62

Dispersionsmaße: Maße der Variabilität Quantile Perzentile Als Perzentile werden 10% Bereiche bezeichnet. Beispiel: Sie vergleichen die durchschnittlichen Punktezahlen von Statistikklausuren über verschiedene Studiengänge in Baden-Württemberg. Sortieren Sie die Punkte aus 20 Fakultäten aufsteigend: 40 40 40 41 41 42 42 42 43 43 43 46 47 47 48 48 54 55 55 56 In welchem Perzentil liegt der Punktewert 48? Dazu wird bestimmt, wieviele Werte kleiner oder gleich 48 sind: 40 40 40 41 41 42 42 42 43 43 43 46 47 47 48 48 54 55 55 56 Damit sind 16 Messerte 48. Prozentsatz 16 von 20 bestimmen: 16 20 = 0.8. Damit liegt der Punktewert 48 im 80% Perzentil, 20% haben mehr Punkte erzielt. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 23 / 62

Dispersionsmaße: Maße der Variabilität Quantile Weitere Quantile Es lassen sich beliebige weitere Quantile berechnen, z. B. in 1% oder 15% Schritten. Die grundlegende Idee der Quantile ist einfach, die Algorithmen aber teilweise sehr komplex (vgl. Hyndman und Fan, 1996). Typischerweise unterschieden sich die Algorithmen darin, wie ein Quantil zwischen zwei Werten approximiert wird. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 24 / 62

Dispersionsmaße: Maße der Variabilität Quantile Weitere Beispiele N = 148, Min - Max: 86.65 und 216.88. Interquartilbereiche: 15% Quantile: 0% 25% 50% 75% 100% 86.65 124.99 144.90 163.34 216.88 0% 15% 30% 45% 60% 75% 90% 86.65 119.76 130.66 141.99 151.81 163.34 181.95 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 25 / 62

Dispersionsmaße: Maße der Variabilität Varianz Varianz Varianz Die Summe der quadrierten Abweichungen aller Messwerte x i vom Mittelwert x dividiert durch die Anzahl der Messwerte - 1 (n 1) bezeichnet man als Varianz s 2 : s 2 = n i=1 (x i x) 2 n 1 = n i=1 x i 2 ( n i=1 x i) 2 n n 1 (4) Der Zähler n i=1 (x i x) 2 bzw. n i=1 x 1 2 ( n i=1 x i) 2 n Quadratsumme oder QS bezeichnet. wird auch als S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 26 / 62

Dispersionsmaße: Maße der Variabilität Varianz Berechnung über s 2 = 1 n 1 n i=1 (x i x) 2 Alter in Jahren von 6 Probanden: 24, 27, 25, 39, 28, 25. Berechnung des Mittelwerts: x Alter = 1 n n i=1 x i = 1 (24 + 27 + 25 + 39 + 28 + 25) 6 = 168 6 = 28 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 27 / 62

Dispersionsmaße: Maße der Variabilität Varianz Berechnung über s 2 = 1 n 1 n i=1 (x i x) 2 (Forts. 2) Konstruktion einer Hilfstabelle: Nr. Alter x i 28 (x i 28) 2 1 24-4 16 2 27-1 1 3 25-3 9 4 39 11 121 5 28 0 0 6 25-3 9 168 0 156 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 28 / 62

Dispersionsmaße: Maße der Variabilität Varianz Berechnung über s 2 = 1 n 1 n i=1 (x i x) 2 (Forts. 3) Damit: s 2 = 1 n 1 = 156 6 1 = 31.2 n (x i x) 2 i=1 Die Varianz des Alters s 2 Alter lautet damit 31.2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 29 / 62

Dispersionsmaße: Maße der Variabilität Berechnung durch 1 n 1 ( n i=1 x i 2 Varianz ( n i=1 x i) 2 n ) Hilfstabelle: Nr. Alter xi 2 1 24 576 2 27 729 3 25 625 4 39 1521 5 28 784 6 25 625 168 4860 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 30 / 62

Dispersionsmaße: Maße der Variabilität Berechnung durch 1 n 1 ( n i=1 x i 2 Varianz ( n i=1 x i) 2 n ) (Forts. 2) Einsetzen: ( n salter 2 = 1 n 1 = 1 6 1 i=1 x 2 i (4860 1682 6 ) ( n i=1 x i) 2 n ) = 1 5 156 = 31.2 Die Varianz beträgt damit 31.2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 31 / 62

Dispersionsmaße: Maße der Variabilität Varianz Eigenschaften der Varianz Die Quadrierung der Abweichungen der Messwerte vom Mittelwert führt zu folgenden Eigenschaften der Varianz: Die Differenzen können sich nicht zu Null aufaddieren. Größere Abweichungen vom Mittelwert werden stärker gewichtet. Die Maßeinheit quadriert sich auch, in unserem Beispiel (Alter in Jahren) 2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 32 / 62

Dispersionsmaße: Maße der Variabilität Varianz Stichproben- und Populationsvarianz Die besprochene Varianz s 2 = 1 n 1 n i=1 (x i x) 2 heißt Stichprobenoder auch korrigierte Varianz. Es gibt auch die Populationsvarianz bzw. unkorrigierte Varianz: s 2 = 1 n n i=1 (x i x) 2, bei der im Nenner die Anzahl an Beobachtungen steht. Es gilt daher Stichprobenvarianz > Populationsvarianz. Die Herleitung der Stichprobenvarianz mit Nenner n 1 ist etwas aufwendig, Interessierte können dies im Bortz und Schuster (2010, S. 530) nachlesen. Statistikprogramme verwenden die Stichprobenvarianz. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 33 / 62

Dispersionsmaße: Maße der Variabilität Standardabweichung Standardabweichung Standardabweichung Die Standardabweichung ist definiert als die Quadratwurzel aus der Varianz: s = n s 2 i=1 = (x i x) 2 n 1 Durch die Ziehung der Wurzel wird die ursprüngliche Maßeinheit wieder erlangt. Die Standardabweichung wird auch als Streuung bezeichnet. Unser Beispiel: s 2 = 31.2, damit ist s = 31.2 = 5.59. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 34 / 62

Zusammenfassung Zusammenfassung Maße der zentralen Tendenz fragen, durch welchen Wert die gesamte Verteilung am besten repräsentiert wird. Dispersionsmaße beschreiben die Unterschiedlichkeit der Messwerte. Typischerweise werden beide Maße gemeinsam angegeben: Mittelwert und Standardabweichung Median und Interquartilbereiche Zusätzlich werden (fast immer) das Minimum und Maximum angegeben. Es gibt weitere Maße der zentralen Tendenz und der Variation. Diese spielen für den Bachelor Psychologie eine untergeordnete Rolle. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 35 / 62

Zusammenfassung Beispiele für eine Stichprobenbeschreibung An der Befragung zum Thema Verärgerung haben 861 Personen teilgenommen. Das Durchschnittsalter beträgt Mw=22 Jahre (Std-Abw=3.05). Die jüngste Person war 19 Jahre alt, die älteste 44 Jahre. Oder: Der Median des Alters lag bei 21 Jahren, die Interquartile liegen bei 20 (25%) und 23 (75%) Jahren. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 36 / 62

Übung Übung Eine befreundete Psychologin erzählt Ihnen, dass sie den Eindruck hat, die Unfallhäufigkeit in einer bestimmten Produktionsstraße des Betriebes, in dem sie arbeitet (Automobilzulieferer), sei irgendwie zu hoch. Die Firma, in der Sie arbeiten, produziert etwas ganz ähnliches und die Anlagen sind durchaus vergleichbar. Sie bieten daher Ihrer Kollegin an, die Unfallzahlen der beiden Produktionsstraßen einmal miteinander zu vergleichen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 37 / 62

Übung Daten zur Übung Produktionsstraße Ihre Kollegin Nr. Unfallhäufigkeit Alter Unfallhäufigkeit Alter 1 8 45 4 44 2 4 54 4 53 3 3 55 14 59 4 9 48 6 58 5 7 57 2 58 6 12 48 9 61 7 2 62 8 59 8 5 51 10 51 9 5 58 11 56 10 0 48 13 54 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 38 / 62

Teil II Grafische Darstellung S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 39 / 62

Grafische Darstellung Häufigkeitstabelle Beispiel Reaktionszeit Histogramme Boxplot Balkendiagramm Kreisdiagramm S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 40 / 62

Grafische Darstellung Grafische Darstellung Die grafische Aufbereitung von Daten ist ein wichtiger Bestandteil der statistischen Analyse: Einen Effekt, denn man nicht sehen kann, gibt es nicht. Die grafische Darstellung erlaubt einen explorativen Einblick in die Daten. Durch Grafiken werden oft komplexe Zusammenhänge erst verständlich. Es gibt eine Vielzahl von grafischen Möglichkeiten, je nach verwendetem Programm. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 41 / 62

Häufigkeitstabelle Häufigkeitstabelle In einer Häufigkeitstabelle wird angegeben, wie oft jeder Messwert vorkommt. Beispiel: Anzahl erreichter Punkte: 12 13 14 15 Häufigkeit (f ): 23 15 11 3 Bei komplexeren Datensätzen (z. B. Gleitkommazahlen, große Variationsbreite) ist eine einfache Häufigkeitstabelle unübersichtlich. In diesem Fall werden Intervalle gebildet werden, in denen die Messwerte einsortiert werden. Für jedes Intervall wird dann gezählt, wieviele Messwerte in diesem Intervall liegen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 42 / 62

Beispiel Reaktionszeit Beispiel Reaktionszeit Durch die folgenden Folien wird uns folgender Datensatz begleiten: Lösen eines Puzzle am Computer, gemessen wurde die Bearbeitungszeit in Sekunden. Messgenauigkeit im Millisekundenbereich. Männer: N = 100, Frauen: N = 100. Deskriptive Kennwerte des Bearbeitungszeit in Sekunden: Mittelwert Streuung Männer 37.32 7.80 Frauen 33.46 7.85 Gesamt 35.39 8.04 Variationsbreite: 55.5-16.5 = 39. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 43 / 62

Beispiel Reaktionszeit Konstruktion von Intervallen Für die Konstruktion von Intervallen gibt es viele Möglichkeiten. Die Intervalle sollten gleich breit sein (Ausnahmen z. B. Logarithmus-verteilte Variablen o. ä.). Faustregel nach Sturges (1926): Für ein Anzahl von n Messwerten werden m Kategorien nach der Beziehung m 1 + 3.32 log 10 n gebildet. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 44 / 62

Beispiel Reaktionszeit Anwendung auf das Beispiel n = 200, damit m 1 + 3.32 log 10 200 8.6. Variationsbreite: 39. Kategorienbreite: 39/8.6 4.5. Damit könnte man eine Intervallbreite von 4.5 Sekunden in Erwägung ziehen. Aber: Es gibt weitere Möglichkeiten, Kategoriengrenzen zu definieren. Dadurch verändert sich natürlich die Häufigkeitstabelle. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 45 / 62

Beispiel Reaktionszeit Resultierende Häufigkeitstabelle Kategorie f f kum % % kum [16.5,21] 6.00 6.00 3.00 3.00 (21,25.5] 20.00 26.00 10.00 13.00 (25.5,30] 26.00 52.00 13.00 26.00 (30,34.5] 41.00 93.00 20.50 46.50 (34.5,39] 38.00 131.00 19.00 65.50 (39,43.5] 33.00 164.00 16.50 82.00 (43.5,48] 27.00 191.00 13.50 95.50 (48,52.5] 7.00 198.00 3.50 99.00 (52.5,57] 2.00 200.00 1.00 100.00 ( = nicht eingeschlossen, [ ] = eingeschlossen, kum = kumuliert S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 46 / 62

Histogramme Histogramm Ein Histogramm ist eine Visualisierung einer Häufigkeitstabelle. Mit einem Histogramm kann man die Verteilung einer Variablen grafisch darstellen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 47 / 62

Histogramme Histogramm Puzzle-Daten Histogramm Frequency 0 10 20 30 40 50 60 70 20 30 40 50 60 Zeit in Sekunden S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 48 / 62

Histogramme Histogramm Puzzle-Daten gruppiert nach Geschlecht 20 30 40 50 25 Frauen Männer 20 Häufigkeit [%] 15 10 5 0 20 30 40 50 Zeit [s] S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 49 / 62

Histogramme Sturges vs. Freedman-Diaconis Histogramm des Alters in Jahren, N = 100 Min/Max: {0, 17} Jahre Histogramm des Alters in Jahren, N = 100 Min/Max: {0, 17} Jahre Absolute Häufigkeit 0 10 20 30 40 Absolute Häufigkeit 0 10 20 30 40 0 5 10 15 Alter in Jahren Methode nach Sturges 0 5 10 15 Alter in Jahren Methode nach Freedman Diaconis S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 50 / 62

Histogramme Verteilungsformen Abbildung aus Bortz und Schuster (2010, S. 42) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 51 / 62

Boxplot Darstellung von zentraler Tendenz & Variation Sollen Maße der zentralen Tendenz und der Variation gleichzeitig angezeigt werden, sind Boxplots eine der besten Alternativen. Boxplots wurden von Tukey im Jahr 1977 erstmals vorgestellt und erlauben die Einsicht in wichtige Verteilungsmerkmale wie Median und Interquartilabstand. In einem Boxplot kann man Ausreißer, also extreme Messwerte, sehr leicht identifizieren. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 52 / 62

Boxplot Kennzahlen im Boxplot 0 1 2 3 4 5 6 7 IQR Ausreisser maximal 1.5 x IQR 75% Quantil Median 25% Quantil maximal 1.5 x IQR IQR: Interquartilabstand S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 53 / 62

Boxplot Boxplot der Bearbeitungszeit Boxplot der Bearbeitungszeiten Bearbeitungszeit in Sekunden 20 30 40 50 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 54 / 62

Boxplot Bearbeitungszeit gruppiert nach Geschlecht Bearbeitungszeit in Sekunden 20 30 40 50 Frauen Männer S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 55 / 62

Balkendiagramm Balkendiagramm In einem Balkendiagramm werden Kennwerte durch Balken repräsentiert. Die Höhe des Balkens gibt Auskunft über die Größe des Kennwerts. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 56 / 62

Balkendiagramm Beispiel Balkendiagramm Mittlere Bearbeitungszeit [s] 0 10 20 30 40 37.32 35.39 33.46 Frauen Männer Gesamt S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 57 / 62

Balkendiagramm Alternative: Liniendiagramm Bearbeitungszeit in Sekunden 0 10 20 30 40 Frauen Männer Gesamt S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 58 / 62

Kreisdiagramm Kreisdiagramm Ein Kreis- oder Tortendiagramm stellt Kennwerte in Anteilen von Kreissegmenten dar. Winkel eines Kreissegments: Winkel = 360 Teilwert Gesamtwert Dies ist die schlechteste Darstellungsform! S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 59 / 62

Kreisdiagramm Berechnung Puzzle-Daten 360 37.32 33.46+37.32 = 189.82 360 33.46 70.78 = 170.18 Tabelle: Variable Mittelwert Winkel Männer 37.32 189.82 Frauen 33.46 170.18 70.78 360 Mit diesen Winkeln kann das Kreisdiagramm gezeichnet werden. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 60 / 62

Kreisdiagramm Kreisdiagramm Puzzle-Daten Mittlere Bearbeitungszeit [s] Frauen Männer S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 61 / 62

Kreisdiagramm Literaturverzeichnis Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Auflage). Berlin: Springer. Hyndman, R. J. & Fan, Y. (1996). Sample quantiles in statistical packages. The American Statistician, 50(4), 361 365 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 62 / 62