Deskriptive Statistik & grafische Darstellung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 1 / 62
Teil I Deskriptive Statistik S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 2 / 62
Agenda Deskriptive Statistik Verteilung Maße der zentralen Tendenz Definition Modalwert Arithmetisches Mittel Gewichtetes arithmetisches Mittel Median Vergleich Median - Mittelwert Vergleich der Maße der zentralen Tendenz Dispersionsmaße: Maße der Variabilität Definition Übersicht von Dispersionsmaßen Minimum, Maximum, Variationsbreite Quantile S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 3 / 62
Agenda (Forts. 2) Varianz Standardabweichung Zusammenfassung Übung S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 4 / 62
Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik bedeutet beschreibende Statistik. Dient dazu, mit möglichst wenigen Kennwerten möglichst viel Informationen darzustellen. Typische Kennwerte der deskriptiven Statistik sind: Minimum & Maximum, Spannweite (Range). Anzahl der Messwerte / Probanden. Maße der zentralen Tendenz: Arithmetisches Mittel (Mittelwert), Median, Modalwert. Dispersionsmaße (Streuungsmaße, z B. Varianz, Standardabweichung). Abbildungen, z. B. Boxplots, Histogramme, siehe Teil 2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 5 / 62
Deskriptive Statistik Verteilung Verteilung Unter einer Verteilung einer Variablen versteht man eine Beschreibung der Häufigkeiten der einzelnen Messwerte. Beispiel: Wir erheben das Alter in Jahren aller Kursteilnehmer. Wir zählen aus, wie oft jedes Alter vorkommt. Die Häufigkeiten können auf verschiedene Arten dargestellt werden, weshalb es verschiedene Typen einer Verteilung gibt. Dazu in einer folgenden Veranstaltung mehr. Es existieren viele Verteilungen, die in der Statistik und Psychologie dazu genutzt werden, Variablen und Messwerte zu beschreiben und Kennwerte zu bestimmen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 6 / 62
Maße der zentralen Tendenz Definition Maße der zentralen Tendenz Definition Maße der zentralen Tendenz fragen, durch welchen Wert die gesamte Verteilung, d. h. alle Zahlen, am besten repräsentiert wird. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 7 / 62
Maße der zentralen Tendenz Definition Beispieldatensatz Bewerber Alter in Jahren 1 24 2 27 3 25 4 39 5 28 6 25 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 8 / 62
Maße der zentralen Tendenz Modalwert Modalwert Modalwert Der Modalwert, auch Modus genannt, ist der am häufigsten auftretende Wert einer Variablen. Beispiel: Alter der Bewerber = 24, 27, 25, 39, 28, 25. Das Alter 25 kommt zweimal vor, der Modalwert ist damit 25. Der Modus ist nicht notwendigerweise eindeutig bestimmbar. Üblicherweise spricht man nur bei solchen Verteilungen von einem Modalwert, die ein einzelnes Maximum besitzen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 9 / 62
Maße der zentralen Tendenz Arithmetisches Mittel Arithmetisches Mittel Arithmetisches Mittel Das arithmetische Mittel, oder kurz Mittelwert, entspricht der Summe aller Messwerte x dividiert durch die Anzahl n der Messwerte: Mw = x = x 1 + x 2 +... + x n n n i=1 = x i n x hat die Eigenschaft, dass die quadrierten Abweichen (x i x) minimiert sind. (1) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 10 / 62
Maße der zentralen Tendenz Arithmetisches Mittel Rechenbeispiel zum Mittelwert Daten: 24, 27, 25, 39, 28, 25 Anzahl der Messwerte: n = 6, damit: n=6 i=1 x i n = 24 + 27 + 25 + 39 + 28 + 25 6 = 168 6 = 28 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 11 / 62
Maße der zentralen Tendenz Gewichtetes arithmetisches Mittel Gewichtetes arithmetisches Mittel Soll der Mittelwert von verschieden Mittelwerten mit unterschiedlicher Gruppengröße n berechnet werden, muss auf das gewogene arithmetische Mittel oder gewichtete arithmetische Mittel, GAM zugegriffen werden. Hierbei werden die einzelnen Mittelwerte anhand ihrer Stichprobengröße n gewichtet und durch die Summe aller n i dividiert. Gewichtetes arithmetisches Mittel Das gewichtete arithmetische Mittel GAM berechnet sich als GAM = n i=1 x i n i n i=1 n i (2) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 12 / 62
Maße der zentralen Tendenz Gewichtetes arithmetisches Mittel Rechenbeispiel GAM Das mittlere Körpergewicht in kg von 4 Gruppen beträgt: Gruppe 1 2 3 4 Gewicht in kg 78 71 75 72 Gruppengröße n 15 21 12 22 Das GAM berechnet sich damit zu n i=1 GAM = i n i n i=1 n i = 78 15 + 71 21 + 75 12 + 72 22 15 + 21 + 12 + 22 = 5145 70 = 73.5 Das gewichtete arithmetische Mittel für die 4 Gruppen beträgt damit 73.5 kg. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 13 / 62
Maße der zentralen Tendenz Median Median Median Der Median teilt eine sortierte Liste an Werten so, dass rechts und links des Medians jeweils gleich viele Werte liegen. Für eine aufsteigend sortierte Anzahl von n Messwerten gilt: Md = x = { n ungerade: n geradzahlig: Messwert an der Stelle x (n+1)/2 x n/2 +x (n/2)+1 2 (3) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 14 / 62
Maße der zentralen Tendenz Median Rechenbeispiel zum Median unsortierte Daten: 24, 27, 25, 39, 28, 25. sortierte Daten: 24, 25, 25, 27, 28, 39. n = 6 damit finden wir folgende Stellen: Stelle 1: n/2 = 6/2 = 3 Stelle 2: n/2 + 1 = 6/2 + 1 = 4 Damit Mittelwert des 3. und des 4. Messwerts der sortierten Liste berechnen: Md = (25 + 27)/2 = 26. Kommt ein weiterer Bewerber mit Alter 42 hinzu, ergibt sich: n = 7, damit Regel (n + 1)/2 = (7 + 1)/2 = 4, also Messwert an der Stelle 4 der sortierten Liste: x = 27. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 15 / 62
Maße der zentralen Tendenz Vergleich Median - Mittelwert Vergleich Median - Mittelwert Ein theoretisches Beispiel: Daten: 24, 25, 25, 27, 28, 39; Md = 26, Mw = 28. Nun wird der Messreihe hinzugefügt. Der Median lautet damit: Die sortierte Liste hat ein ungerades n = 7, also Md = (n + 1)/2 = 8/2 = 4, damit 4ter Messwert: 27. Hier ist es also egal, wie groß der Messwert ist, der der sortierten Liste hinzugeführt wird. Der Mittelwert berechnet sich nun: 24+25+25+27+28+39+ 7 = 168+ 7 = Der Mittelwert nimmt den Wert Unendlich an! Fazit: Der Mittelwert ist gegenüber dem Median deutlich anfälliger für besonders extreme Messwerte, so genannte Ausreißer. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 16 / 62
Maße der zentralen Tendenz Vergleich der Maße der zentralen Tendenz Vergleich der Maße der zentralen Tendenz Kennwert Vorteile Nachteile Niveau Mittelwert Median Modalwert ist bekannt; Verwendung auch im Alltag (Durchschnitt) durch Extremwerte kaum beeinflussbar ist immer auch ein existierender Wert kann ein nichtexistierender Wert sein; stark durch Extremwerte beeinflussbar nutzt nur Ranginformationen unter Umständen nicht eindeutig bestimmbar (z.b. wenn mehrere Werte gleich häufig auftauchen) nur sinnvoll bei mindestens intervallskalierten, normalverteilten Variablen mind. Ordinalskalen Nominalskalen S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 17 / 62
Dispersionsmaße: Maße der Variabilität Definition Dispersionsmaße: Maße der Variabilität Definition Maße der Streuung (Dispersion) informieren über die Unterschiedlichkeit der Werte. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 18 / 62
Dispersionsmaße: Maße der Variabilität Übersicht von Dispersionsmaßen Übersicht von Dispersionsmaßen Minimum, Maximum Variationsbreite bzw. Range: Differenz zwischen Minimum und Maximum. Interquartilbereiche: Die sortierte Werteliste wird in 4 Bereiche geteilt, die jeweils 25% der Werte enthalten. Varianz: Durchschnittliche quadratische Abweichungen. Standardabweichung: Quadratwurzel aus der Varianz. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 19 / 62
Dispersionsmaße: Maße der Variabilität Minimum, Maximum, Variationsbreite Minimum, Maximum, Variationsbreite unsortierte Messwerte: 24, 25, 39, 19, 27, 28, 29, 25. sortierte Messwerte: 19, 24, 25, 25, 27, 28, 29, 39. Minimum: 19, Maximum: 39. Variationsbreite: 39-19 = 20. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 20 / 62
Dispersionsmaße: Maße der Variabilität Quantile Quantile Ein Quantil ist ein Wert, unter dem ein bestimmter Prozentsatz an Messwerten liegt. Beispiel Median: Dieser entspricht dem 50% Quantil: 50% der Messwerte sind kleiner als der Median, die verbleibenden 50% sind damit größer. Ein verbreitetes Lagemaß sind Interquartilbereiche (oder auch Quartile), die eine sortierte Werteliste in vier gleiche größe Teile unterteilen, also jeweils 25%. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 21 / 62
Dispersionsmaße: Maße der Variabilität Quantile Beispiel: Punkte in Statistikklausur Es liegen die Punkte (0 bis 60) von 30 Studierenden vor. Die Werte in sortierter Reihenfolge: 59 57 56 54 54 47 46 45 44 43 40 40 39 39 36 36 36 35 33 32 32 31 30 30 29 29 29 27 26 25 Sie haben 47 Punkte erreicht. Entspricht Ihre Leistung den der oberen 25%? Zuerst muss der Median bestimmt werden: Mittel zwischen 15ten und 16ten-Wert: (36 + 36)/2 = 36. Äquivalent wird der Median der ersten und zweiten 15 Messwerte bestimmt: 59 57 56 54 54 47 46 45 44 43 40 40 39 39 36 36 36 35 33 32 32 31 30 30 29 29 29 27 26 25 Die Interquartilbereiche sind damit: 0% = 25, 25% = 30, 50% = 36, 75% = 45, 100% = 59 Damit gehören Sie zu den 25% der Besten. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 22 / 62
Dispersionsmaße: Maße der Variabilität Quantile Perzentile Als Perzentile werden 10% Bereiche bezeichnet. Beispiel: Sie vergleichen die durchschnittlichen Punktezahlen von Statistikklausuren über verschiedene Studiengänge in Baden-Württemberg. Sortieren Sie die Punkte aus 20 Fakultäten aufsteigend: 40 40 40 41 41 42 42 42 43 43 43 46 47 47 48 48 54 55 55 56 In welchem Perzentil liegt der Punktewert 48? Dazu wird bestimmt, wieviele Werte kleiner oder gleich 48 sind: 40 40 40 41 41 42 42 42 43 43 43 46 47 47 48 48 54 55 55 56 Damit sind 16 Messerte 48. Prozentsatz 16 von 20 bestimmen: 16 20 = 0.8. Damit liegt der Punktewert 48 im 80% Perzentil, 20% haben mehr Punkte erzielt. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 23 / 62
Dispersionsmaße: Maße der Variabilität Quantile Weitere Quantile Es lassen sich beliebige weitere Quantile berechnen, z. B. in 1% oder 15% Schritten. Die grundlegende Idee der Quantile ist einfach, die Algorithmen aber teilweise sehr komplex (vgl. Hyndman und Fan, 1996). Typischerweise unterschieden sich die Algorithmen darin, wie ein Quantil zwischen zwei Werten approximiert wird. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 24 / 62
Dispersionsmaße: Maße der Variabilität Quantile Weitere Beispiele N = 148, Min - Max: 86.65 und 216.88. Interquartilbereiche: 15% Quantile: 0% 25% 50% 75% 100% 86.65 124.99 144.90 163.34 216.88 0% 15% 30% 45% 60% 75% 90% 86.65 119.76 130.66 141.99 151.81 163.34 181.95 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 25 / 62
Dispersionsmaße: Maße der Variabilität Varianz Varianz Varianz Die Summe der quadrierten Abweichungen aller Messwerte x i vom Mittelwert x dividiert durch die Anzahl der Messwerte - 1 (n 1) bezeichnet man als Varianz s 2 : s 2 = n i=1 (x i x) 2 n 1 = n i=1 x i 2 ( n i=1 x i) 2 n n 1 (4) Der Zähler n i=1 (x i x) 2 bzw. n i=1 x 1 2 ( n i=1 x i) 2 n Quadratsumme oder QS bezeichnet. wird auch als S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 26 / 62
Dispersionsmaße: Maße der Variabilität Varianz Berechnung über s 2 = 1 n 1 n i=1 (x i x) 2 Alter in Jahren von 6 Probanden: 24, 27, 25, 39, 28, 25. Berechnung des Mittelwerts: x Alter = 1 n n i=1 x i = 1 (24 + 27 + 25 + 39 + 28 + 25) 6 = 168 6 = 28 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 27 / 62
Dispersionsmaße: Maße der Variabilität Varianz Berechnung über s 2 = 1 n 1 n i=1 (x i x) 2 (Forts. 2) Konstruktion einer Hilfstabelle: Nr. Alter x i 28 (x i 28) 2 1 24-4 16 2 27-1 1 3 25-3 9 4 39 11 121 5 28 0 0 6 25-3 9 168 0 156 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 28 / 62
Dispersionsmaße: Maße der Variabilität Varianz Berechnung über s 2 = 1 n 1 n i=1 (x i x) 2 (Forts. 3) Damit: s 2 = 1 n 1 = 156 6 1 = 31.2 n (x i x) 2 i=1 Die Varianz des Alters s 2 Alter lautet damit 31.2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 29 / 62
Dispersionsmaße: Maße der Variabilität Berechnung durch 1 n 1 ( n i=1 x i 2 Varianz ( n i=1 x i) 2 n ) Hilfstabelle: Nr. Alter xi 2 1 24 576 2 27 729 3 25 625 4 39 1521 5 28 784 6 25 625 168 4860 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 30 / 62
Dispersionsmaße: Maße der Variabilität Berechnung durch 1 n 1 ( n i=1 x i 2 Varianz ( n i=1 x i) 2 n ) (Forts. 2) Einsetzen: ( n salter 2 = 1 n 1 = 1 6 1 i=1 x 2 i (4860 1682 6 ) ( n i=1 x i) 2 n ) = 1 5 156 = 31.2 Die Varianz beträgt damit 31.2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 31 / 62
Dispersionsmaße: Maße der Variabilität Varianz Eigenschaften der Varianz Die Quadrierung der Abweichungen der Messwerte vom Mittelwert führt zu folgenden Eigenschaften der Varianz: Die Differenzen können sich nicht zu Null aufaddieren. Größere Abweichungen vom Mittelwert werden stärker gewichtet. Die Maßeinheit quadriert sich auch, in unserem Beispiel (Alter in Jahren) 2. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 32 / 62
Dispersionsmaße: Maße der Variabilität Varianz Stichproben- und Populationsvarianz Die besprochene Varianz s 2 = 1 n 1 n i=1 (x i x) 2 heißt Stichprobenoder auch korrigierte Varianz. Es gibt auch die Populationsvarianz bzw. unkorrigierte Varianz: s 2 = 1 n n i=1 (x i x) 2, bei der im Nenner die Anzahl an Beobachtungen steht. Es gilt daher Stichprobenvarianz > Populationsvarianz. Die Herleitung der Stichprobenvarianz mit Nenner n 1 ist etwas aufwendig, Interessierte können dies im Bortz und Schuster (2010, S. 530) nachlesen. Statistikprogramme verwenden die Stichprobenvarianz. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 33 / 62
Dispersionsmaße: Maße der Variabilität Standardabweichung Standardabweichung Standardabweichung Die Standardabweichung ist definiert als die Quadratwurzel aus der Varianz: s = n s 2 i=1 = (x i x) 2 n 1 Durch die Ziehung der Wurzel wird die ursprüngliche Maßeinheit wieder erlangt. Die Standardabweichung wird auch als Streuung bezeichnet. Unser Beispiel: s 2 = 31.2, damit ist s = 31.2 = 5.59. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 34 / 62
Zusammenfassung Zusammenfassung Maße der zentralen Tendenz fragen, durch welchen Wert die gesamte Verteilung am besten repräsentiert wird. Dispersionsmaße beschreiben die Unterschiedlichkeit der Messwerte. Typischerweise werden beide Maße gemeinsam angegeben: Mittelwert und Standardabweichung Median und Interquartilbereiche Zusätzlich werden (fast immer) das Minimum und Maximum angegeben. Es gibt weitere Maße der zentralen Tendenz und der Variation. Diese spielen für den Bachelor Psychologie eine untergeordnete Rolle. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 35 / 62
Zusammenfassung Beispiele für eine Stichprobenbeschreibung An der Befragung zum Thema Verärgerung haben 861 Personen teilgenommen. Das Durchschnittsalter beträgt Mw=22 Jahre (Std-Abw=3.05). Die jüngste Person war 19 Jahre alt, die älteste 44 Jahre. Oder: Der Median des Alters lag bei 21 Jahren, die Interquartile liegen bei 20 (25%) und 23 (75%) Jahren. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 36 / 62
Übung Übung Eine befreundete Psychologin erzählt Ihnen, dass sie den Eindruck hat, die Unfallhäufigkeit in einer bestimmten Produktionsstraße des Betriebes, in dem sie arbeitet (Automobilzulieferer), sei irgendwie zu hoch. Die Firma, in der Sie arbeiten, produziert etwas ganz ähnliches und die Anlagen sind durchaus vergleichbar. Sie bieten daher Ihrer Kollegin an, die Unfallzahlen der beiden Produktionsstraßen einmal miteinander zu vergleichen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 37 / 62
Übung Daten zur Übung Produktionsstraße Ihre Kollegin Nr. Unfallhäufigkeit Alter Unfallhäufigkeit Alter 1 8 45 4 44 2 4 54 4 53 3 3 55 14 59 4 9 48 6 58 5 7 57 2 58 6 12 48 9 61 7 2 62 8 59 8 5 51 10 51 9 5 58 11 56 10 0 48 13 54 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 38 / 62
Teil II Grafische Darstellung S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 39 / 62
Grafische Darstellung Häufigkeitstabelle Beispiel Reaktionszeit Histogramme Boxplot Balkendiagramm Kreisdiagramm S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 40 / 62
Grafische Darstellung Grafische Darstellung Die grafische Aufbereitung von Daten ist ein wichtiger Bestandteil der statistischen Analyse: Einen Effekt, denn man nicht sehen kann, gibt es nicht. Die grafische Darstellung erlaubt einen explorativen Einblick in die Daten. Durch Grafiken werden oft komplexe Zusammenhänge erst verständlich. Es gibt eine Vielzahl von grafischen Möglichkeiten, je nach verwendetem Programm. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 41 / 62
Häufigkeitstabelle Häufigkeitstabelle In einer Häufigkeitstabelle wird angegeben, wie oft jeder Messwert vorkommt. Beispiel: Anzahl erreichter Punkte: 12 13 14 15 Häufigkeit (f ): 23 15 11 3 Bei komplexeren Datensätzen (z. B. Gleitkommazahlen, große Variationsbreite) ist eine einfache Häufigkeitstabelle unübersichtlich. In diesem Fall werden Intervalle gebildet werden, in denen die Messwerte einsortiert werden. Für jedes Intervall wird dann gezählt, wieviele Messwerte in diesem Intervall liegen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 42 / 62
Beispiel Reaktionszeit Beispiel Reaktionszeit Durch die folgenden Folien wird uns folgender Datensatz begleiten: Lösen eines Puzzle am Computer, gemessen wurde die Bearbeitungszeit in Sekunden. Messgenauigkeit im Millisekundenbereich. Männer: N = 100, Frauen: N = 100. Deskriptive Kennwerte des Bearbeitungszeit in Sekunden: Mittelwert Streuung Männer 37.32 7.80 Frauen 33.46 7.85 Gesamt 35.39 8.04 Variationsbreite: 55.5-16.5 = 39. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 43 / 62
Beispiel Reaktionszeit Konstruktion von Intervallen Für die Konstruktion von Intervallen gibt es viele Möglichkeiten. Die Intervalle sollten gleich breit sein (Ausnahmen z. B. Logarithmus-verteilte Variablen o. ä.). Faustregel nach Sturges (1926): Für ein Anzahl von n Messwerten werden m Kategorien nach der Beziehung m 1 + 3.32 log 10 n gebildet. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 44 / 62
Beispiel Reaktionszeit Anwendung auf das Beispiel n = 200, damit m 1 + 3.32 log 10 200 8.6. Variationsbreite: 39. Kategorienbreite: 39/8.6 4.5. Damit könnte man eine Intervallbreite von 4.5 Sekunden in Erwägung ziehen. Aber: Es gibt weitere Möglichkeiten, Kategoriengrenzen zu definieren. Dadurch verändert sich natürlich die Häufigkeitstabelle. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 45 / 62
Beispiel Reaktionszeit Resultierende Häufigkeitstabelle Kategorie f f kum % % kum [16.5,21] 6.00 6.00 3.00 3.00 (21,25.5] 20.00 26.00 10.00 13.00 (25.5,30] 26.00 52.00 13.00 26.00 (30,34.5] 41.00 93.00 20.50 46.50 (34.5,39] 38.00 131.00 19.00 65.50 (39,43.5] 33.00 164.00 16.50 82.00 (43.5,48] 27.00 191.00 13.50 95.50 (48,52.5] 7.00 198.00 3.50 99.00 (52.5,57] 2.00 200.00 1.00 100.00 ( = nicht eingeschlossen, [ ] = eingeschlossen, kum = kumuliert S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 46 / 62
Histogramme Histogramm Ein Histogramm ist eine Visualisierung einer Häufigkeitstabelle. Mit einem Histogramm kann man die Verteilung einer Variablen grafisch darstellen. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 47 / 62
Histogramme Histogramm Puzzle-Daten Histogramm Frequency 0 10 20 30 40 50 60 70 20 30 40 50 60 Zeit in Sekunden S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 48 / 62
Histogramme Histogramm Puzzle-Daten gruppiert nach Geschlecht 20 30 40 50 25 Frauen Männer 20 Häufigkeit [%] 15 10 5 0 20 30 40 50 Zeit [s] S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 49 / 62
Histogramme Sturges vs. Freedman-Diaconis Histogramm des Alters in Jahren, N = 100 Min/Max: {0, 17} Jahre Histogramm des Alters in Jahren, N = 100 Min/Max: {0, 17} Jahre Absolute Häufigkeit 0 10 20 30 40 Absolute Häufigkeit 0 10 20 30 40 0 5 10 15 Alter in Jahren Methode nach Sturges 0 5 10 15 Alter in Jahren Methode nach Freedman Diaconis S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 50 / 62
Histogramme Verteilungsformen Abbildung aus Bortz und Schuster (2010, S. 42) S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 51 / 62
Boxplot Darstellung von zentraler Tendenz & Variation Sollen Maße der zentralen Tendenz und der Variation gleichzeitig angezeigt werden, sind Boxplots eine der besten Alternativen. Boxplots wurden von Tukey im Jahr 1977 erstmals vorgestellt und erlauben die Einsicht in wichtige Verteilungsmerkmale wie Median und Interquartilabstand. In einem Boxplot kann man Ausreißer, also extreme Messwerte, sehr leicht identifizieren. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 52 / 62
Boxplot Kennzahlen im Boxplot 0 1 2 3 4 5 6 7 IQR Ausreisser maximal 1.5 x IQR 75% Quantil Median 25% Quantil maximal 1.5 x IQR IQR: Interquartilabstand S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 53 / 62
Boxplot Boxplot der Bearbeitungszeit Boxplot der Bearbeitungszeiten Bearbeitungszeit in Sekunden 20 30 40 50 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 54 / 62
Boxplot Bearbeitungszeit gruppiert nach Geschlecht Bearbeitungszeit in Sekunden 20 30 40 50 Frauen Männer S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 55 / 62
Balkendiagramm Balkendiagramm In einem Balkendiagramm werden Kennwerte durch Balken repräsentiert. Die Höhe des Balkens gibt Auskunft über die Größe des Kennwerts. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 56 / 62
Balkendiagramm Beispiel Balkendiagramm Mittlere Bearbeitungszeit [s] 0 10 20 30 40 37.32 35.39 33.46 Frauen Männer Gesamt S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 57 / 62
Balkendiagramm Alternative: Liniendiagramm Bearbeitungszeit in Sekunden 0 10 20 30 40 Frauen Männer Gesamt S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 58 / 62
Kreisdiagramm Kreisdiagramm Ein Kreis- oder Tortendiagramm stellt Kennwerte in Anteilen von Kreissegmenten dar. Winkel eines Kreissegments: Winkel = 360 Teilwert Gesamtwert Dies ist die schlechteste Darstellungsform! S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 59 / 62
Kreisdiagramm Berechnung Puzzle-Daten 360 37.32 33.46+37.32 = 189.82 360 33.46 70.78 = 170.18 Tabelle: Variable Mittelwert Winkel Männer 37.32 189.82 Frauen 33.46 170.18 70.78 360 Mit diesen Winkeln kann das Kreisdiagramm gezeichnet werden. S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 60 / 62
Kreisdiagramm Kreisdiagramm Puzzle-Daten Mittlere Bearbeitungszeit [s] Frauen Männer S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 61 / 62
Kreisdiagramm Literaturverzeichnis Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Auflage). Berlin: Springer. Hyndman, R. J. & Fan, Y. (1996). Sample quantiles in statistical packages. The American Statistician, 50(4), 361 365 S. Garbade (SRH Heidelberg) Deskriptive Statistik Statistik 1 62 / 62