4. Kumulierte Häufigkeiten und Quantile

Ähnliche Dokumente
4. Kumulierte Häufigkeiten und Quantile

Verteilungsfunktion und dquantile

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile

Empirische Verteilungsfunktion

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 6, 2012

Kreisdiagramm, Tortendiagramm

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Deskriptive Statistik

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Statistik I für Betriebswirte Vorlesung 9

2 Häufigkeitsverteilungen

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Wahrscheinlichkeits - rechnung und Statistik

Bestimmen von Quantilen

Kapitel 1 Beschreibende Statistik

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Statistik I für Betriebswirte Vorlesung 9

3. Deskriptive Statistik

Kapitel 2. Häufigkeitsverteilungen

Willkommen zur Vorlesung Statistik

Statistik und Wahrscheinlichkeitsrechnung

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Mathematische und statistische Methoden II

Grafische Darstellung von Häufigkeitsverteilungen (1)

2. Deskriptive Statistik

Deskriptive Statistik Aufgaben und Lösungen

GRUPPE B Prüfung aus Statistik 1 für SoziologInnen

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Statistik und Wahrscheinlichkeitsrechnung

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Kapitel IV - Häufigkeitsverteilungen

WISTA WIRTSCHAFTSSTATISTIK

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Einführung in Quantitative Methoden

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Statistik I für Betriebswirte Vorlesung 10

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Graphische Darstellung einer univariaten Verteilung:

Weitere Lagemaße: Quantile/Perzentile I

Diskrete Zufallsvariablen (Forts.) I

Diskrete Zufallsvariablen (Forts.) I

Mathematik für Biologen

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2012/13

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

4. Auswertung eindimensionaler Daten

Beispiel 4 (Einige weitere Aufgaben)

Prüfung aus Statistik 1 für SoziologInnen

N

(a) Richtig, die Varianz ist eine Summe quadratischer Größen.

Fachrechnen für Tierpfleger

Lage- und Streuungsmaße

3 Häufigkeitsverteilungen

Musterlösung zur Übungsklausur Statistik

Standardnormalverteilung

Kapitel VII - Konzentration von Merkmalswerten

Beschreibende Statistik Eindimensionale Daten

Tabellarische und graphie Darstellung von univariaten Daten

Verteilungen und ihre Darstellungen

Mathematische und statistische Methoden I

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen.

Mittelwert Median Stabw StabwN 1. Quartil 3. Quartil 27,22 % 26,06 % 8,07 % 8,03 % 22,12 % 31,25 %

3 Häufigkeitsverteilungen

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

1 Beschreibende Statistik

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Kapitel 2. Mittelwerte

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Einführung in Quantitative Methoden

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011.

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

5. Spezielle stetige Verteilungen

Bivariate explorative Datenanalyse in R

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2017/18. Dr.

5 Exkurs: Deskriptive Statistik

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2018/19

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Beschreibung von Daten

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Studiengang Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2010

Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen

Beide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.

Kapitel VI - Lage- und Streuungsparameter

4 Konzentrations- und Armutsmessung

Musterlösung zur Übungsklausur Statistik

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Transkript:

4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit von Intervallen. Typische Fragestellung: Wie groß ist der Anteil aller Merkmalsträger mit einem Merkmalswert größer (bzw. kleiner) als ein bestimmter Wert x? Hierzu summiert man die Häufigkeitstabelle schrittweise auf. Hinweis: Sinnvolle Kumulation erfordert, dass das Merkmal zumindest ordinal skaliert ist! Statistik für SoziologInnen 1 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 2 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten (klassierte Daten) Bereich n i h i N i H i Kumulierte Häufigkeiten (klassierte Daten) Bereich ni hi Ni Hi Statistik für SoziologInnen 3 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 4 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Die absoluten kumulierten relativen Häufigkeiten geben an, wie viele Beobachtungen einen bestimmten Wert x nicht übertreffen. N(X x) z.b. 56 Studenten sind kleiner gleich 175 cm Die entsprechenden relativen kumulierten Häufigkeiten bezeichnen wir mit H(X x)=n(x x)/n z.b. 76% der Studenten sind kleiner gleich 180 cm Sie geben uns den Anteil der Beobachtungen mit einem Wert kleiner gleich x an. Die empirische Verteilungsfunktion F(x) ist definiert durch F(x)= H(X x) Kumulierte Häufigkeiten (Einzeldaten) rel. kumul. Rel. rel. kumul. Rel. Größe Häufigkeit Häufigkeit Häufigkeit Größe Häufigkeit Häufigkeit Häufigkeit 150 0 0,00 0,00 176 4 0,04 177 5 0,05 0,65 151 0 0,00 0,00 178 3 0,03 0,68 152 0 0,00 0,00 179 3 0,03 0,71 153 1 0,01 0,01 180 5 0,05 0,76 154 1 0,01 0,02 181 1 0,01 0,77 155 1 0,01 0,03 182 4 0,04 0,81 156 0 0,00 0,03 183 2 0,02 0,83 157 1 0,01 0,04 184 2 0,02 0,85 158 0 0,00 0,04 185 2 0,02 0,87 159 0 0,00 0,04 186 2 0,02 0,89 160 3 0,03 0,07 187 4 0,04 0,93 161 1 0,01 0,08 188 3 0,03 0,96 162 2 0,02 0,10 189 0 0,00 0,96 163 1 0,01 0,11 190 1 0,01 0,97 164 3 0,03 0,14 191 0 0,00 0,97 165 3 0,03 0,17 192 0 0,00 0,97 166 4 0,04 0,21 193 0 0,00 0,97 167 3 0,03 0,24 194 0 0,00 0,97 168 2 0,02 0,26 195 1 0,01 0,98 169 2 0,02 0,28 196 1 0,01 0,99 170 5 0,05 0,33 197 1 0,01 1,00 171 3 0,03 0,36 198 0 0,00 1,00 172 4 0,04 0,40 199 0 0,00 1,00 173 7 0,07 0,47 200 0 0,00 1,00 174 5 0,05 0,52 175 4 0,04 0,56 Kumulierte relative Häufigkeiten ~ Empirische Verteilungsfunktion Statistik für SoziologInnen 5 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 6 4. Kumulierte Häufigkeiten und Quantile 1

Empirische Verteilungsfunktion Empirische Verteilungsfunktion (Leseprobe) 1,00 0,80 0.6 0.8 1.0 0,40 0,20 0,00 Graphische Darstellung ~ Treppenfunktion 150 155 160 165 170 175 180 185 190 195 200 0.0 0.2 0.4 60% < 176 150 160 170 180 190 200 Statistik für SoziologInnen 7 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 8 4. Kumulierte Häufigkeiten und Quantile Eigenschaften der empirischen Verteilungsfunktion Treppenfunktion Bei jedem beobachteten Wert findet sich ein vertikaler Anstieg Die Höhe des Anstiegs beim Wert x i ist n(x=x i )/n = h(x i ) gleich der relativen Häufigkeit dieses Wertes Hohe Sprünge ~ häufiger Wert Steiler Verlauf ~ hohe Wertedichte Unterschiedliche Sprunghöhen 1,00 0,80 0,40 0,20 h(x=174)=0.05 h(x=163)=0.0 1 0,00 150 155 160 165 170 175 180 185 190 195 200 Statistik für SoziologInnen 9 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 10 4. Kumulierte Häufigkeiten und Quantile Eigenschaften der emp. Verteilungsfunktion Treppenfunktion Bei jedem beobachteten Wert findet sich ein vertikaler Anstieg Die Höhe des Anstiegs beim Wert x i ist n(x=x i )/n = h(x i ) Hohe Sprünge ~ häufiger Wert Steiler Verlauf ~ hohe Wertedichte Treten in einem Wertebereich keine Werte auf, so verläuft die empirische Verteilungsfunktion in diesem Bereich horizontal 0.0 0.2 0.4 0.6 0.8 1.0 Empirische Verteilungsfunktion keine Werte 158 bzw. 159 150 160 170 180 190 200 Statistik für SoziologInnen 11 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 12 4. Kumulierte Häufigkeiten und Quantile kg 2

Eigenschaften der emp. Verteilungsfunktion Treppenfunktion Bei jedem beobachteten Wert findet sich ein vertikaler Anstieg Die Höhe des Anstiegs beim Wert x i ist n(x=x i )/n = h(x i ) Hohe Sprünge ~ häufiger Wert Steiler Verlauf ~ hohe Wertedichte Treten in einem Wertebereich keine Werte auf, so verläuft die emp. Verteilungsfunktion in diesem Bereich horizontal Die emp. Verteilungsfunktion ist monoton steigend Die Funktionswerte liegen zwischen 0 und 1 Kumulierte Häufigkeiten (klassierte Daten) Bereich n i h i N i H i Statistik für SoziologInnen 13 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 14 4. Kumulierte Häufigkeiten und Quantile Verteilungsfunktion bei klassierten Daten 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 H(175)=0,56 H(170)=0,33 Klassenobergrenze 150 160 170 180 190 200 210 Statistik für SoziologInnen 15 4. Kumulierte Häufigkeiten und Quantile Verteilungsfunktion bei klassierten Daten Bei klassierten Daten können exakte Werte nur an den oberen Klassengrenzen bestimmt werden Ein näherungsweise Bestimmung der Werte der Verteilungsfunktion kann unter der Annahme der Gleichverteilung innerhalb der Klassen, mittels linearer Interpolation erfolgen In der Graphik bedeutet dies, dass wir die Punkte durch Geradenstücke zu einer durchgezogenen Linie verbinden Die Steigung dieser Geradenstücke entspricht der Dichte in der Klasse Statistik für SoziologInnen 16 4. Kumulierte Häufigkeiten und Quantile Summenkurve 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 H(175)=0,56 H(170)=0,33 Verteilungsfunktion bei klassierten Daten (Beispiel) Aus der Tabelle könne wir folgende Informationen ablesen 56% der Studenten sind kleiner gleich 175 cm 33% der Studenten sind kleiner gleich 170 cm Frage: Wieviel % der Studenten sind kleiner gleich 172 cm? Exakte Antwort aus klassierten Daten nicht mehr möglich Näherungsweise Lösung: Lineare Interpolation 0,1 0 150 160 170 180 190 200 210 Statistik für SoziologInnen 17 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 18 4. Kumulierte Häufigkeiten und Quantile 3

Interpolation Anwendung des Strahlensatzes Funktionswerte der Summenkurve an der Stelle x: F(x)=+y y : (-) = (x- ) : (o i - ) h i = - x x b i = (o i - ) Statistik für SoziologInnen 19 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 20 4. Kumulierte Häufigkeiten und Quantile Anwendung des Strahlensatzes y : (-) = (x- ) : (o i - ) y : h i = (x- ) : b i F(x) = + (x- )/ b i *h i x h i = - Beispiel F(x) = + (x- )/ b i *h i F(172) = 0,33 + 2/5*0,23 = 0,33+0,092=0,422 =0,33 x=172 =0,56 h i = - =0,23 b i = (o i - ) b i = (o i - ) =5 =170 o i =175 Statistik für SoziologInnen 21 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 22 4. Kumulierte Häufigkeiten und Quantile Empirische Verteilungsfunktion bei diskreten Merkmalen Beispiel: "Produktives Denken" i x i h i H(X x i ) 1 0 0,00 0,00 2 1 0,00 0,00 3 2 0,00 0,00 4 3 0,06 0,06 5 4 0,10 0,16 6 5 0,32 0,48 7 6 0,24 0,72 8 7 0,23 0,94 9 8 0,05 0,99 10 9 0,01 1,00 Gesamt 1 Empirische Verteilungsfunktion "Produktives Denken" 1,000 0,800 0 0,400 0,200 Beachte: Bei diskreten Merkmalen ist eine Interpolation nicht zulässig! 72% aller Testteilnehmer haben einen Wert kleiner gleich 7 erzielt 0,000 0 2 4 6 8 10 Hier gibt nur die Treppenkurve ein korrektes Bild der Verteilung Statistik für SoziologInnen 23 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 24 4. Kumulierte Häufigkeiten und Quantile 4

Empirische Quantile Ausgehend von einem Anteilswert p (y-achse) wird der zugehörige Wert bestimmt, für den F(x) zum erstenmal größer als oder zumindest gleich groß wie p ist. Das bedeutet ein p-quantil ist jener möglichst kleine Merkmalswert für den gerade noch gilt, dass p-prozent der Beobachtungen kleiner gleich als eben dieser Merkmalswert sind. 0 < p < 1 Datensatz: x 1,..., x n Das Empirische p-quantil x p ist der kleinste Wert x für den F(x) p gilt. Seien x (1),... x (n) die geordneten Werte: x p =x (k),, wobei k wie folgt gegeben ist: (k-1)/n < p k/n Beispiele zu empirischen Quantilen Gesucht ist ein Wert, so dass 95% der Studenten kleiner gleich diesem Wert sind Datensatz Körpergröße n=100 x 0,95 =? (k-1)/n < p k/n (k-1) < np k (k-1) < 95 k ==> k=95 x 0,95 = 188 Datensatz produktives Denken n=120 x 0, 50 =? (k-1) < 60 k ==> k=60 x 0,50 = 7 Statistik für SoziologInnen 25 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 26 4. Kumulierte Häufigkeiten und Quantile Bestimmung des Quantils 1,00 Wichtige Quantile Einige wichtige Quantile, die häufig kommuniziert werden tragen einen eigenen Namen: 0,80 Terzile x 0,33 x 0,66 F(X=188)=0,96 Quartile x 0,25 x 0,5 x 0,75 Dezile x 0,1... x 0,9 0,40 0,20 0,00 150 155 160 165 170 175 180 185 190 195 200 Statistik für SoziologInnen 27 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 28 4. Kumulierte Häufigkeiten und Quantile Empirische Quantile Beispiel: Körpergröße (Originalwerte) 1.Quartil = x 0.25 2.Quartil = x 0.50 Empirische Quantile bei klassierten Daten Bei klassierten Daten ergibt sich das p-quantil durch Interpolation Ausgangspunkt ist jene Klasse, in der die kumulierten Häufigkeiten den p-wert übersteigen 3.Quartil 3Quat = x 075 0.75 Five Numbers Summary Min. 1st Qu. 2nd Qu. 3rd Qu. Max. 153 168 174 180 197 x (1) x (25) x (50) x (75) x (100) Statistik für SoziologInnen 29 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 30 4. Kumulierte Häufigkeiten und Quantile 5

Bestimmung des 0,5 Quantils Bereich n i h i N i H i Empirische Quantile bei klassierten Daten y : b i = (p-) : h i x p = + (p-)/ h i *b i p y b i = (o i - ) h i = - Statistik für SoziologInnen 31 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 32 4. Kumulierte Häufigkeiten und Quantile Empirische Quantile bei klassierten Daten y : 5= (0,5-0,33): 0,23 =0,56 X 0,5 = 170 + 0,17/0,23*5=173,7 h i = - =0,23 p=0 0,5 =0,33 y b i = (175-170) =5 170 175 Box-Plots Basierend auf den 5 zusammenfassenden Werten einer Verteilung: Minimum, 1.Quartil, 2.Quartil, 3.Quartil und Maximum lassen sich instruktive Graphiken zur Darstellung einer Verteilung entwickeln, die insbesondere zum Vergleich mehrerer Gruppen gut geeignet sind. Häufig werden die horizontal begrenzenden Linien nicht bis zum Minimum und Maximum der Daten gezogen. Die Balkenlänge wird mit der 1,5-fachen Boxhöhe begrenzt und extreme Datenwerte werden extra markiert. Statistik für SoziologInnen 33 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 34 4. Kumulierte Häufigkeiten und Quantile Boxplot Maximum Boxplot Maximum bzw. Obergrenze Oberes Quartil Mittleres Quartil maximal 1,5-fache Boxlänge 75% Quantil Median 25% Quantil Unteres Quartil Minimum Minimum bzw. Untergrenze Statistik für SoziologInnen 35 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 36 4. Kumulierte Häufigkeiten und Quantile 6

Beispiel einer rechtsschiefen Verteilung Beispiel einer linksschiefen Verteilung 0 10 20 30 0 1 2 3 0 20 40 0 10 20 30 4 5 6 7 0 20 40 40 50 60 4 5 6 60 80 100 40 50 60 8 9 10 60 80 100 0 1 2 3 4 5 6 0 1 2 3 4 5 6 4 5 6 7 8 9 10 4 5 6 7 8 9 10 x.r x.l Statistik für SoziologInnen 37 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 38 4. Kumulierte Häufigkeiten und Quantile Vergleich zweier Verteilungen Vergleich zweier Verteilungen Insbesondere beim Vergleich von Verteilungen ist der Boxplot oft übersichtlicher als das Histogramm Statistik für SoziologInnen 39 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 40 4. Kumulierte Häufigkeiten und Quantile Body Mass Index (BMI) distributions - SABOR participants African-American Caucasian, Non-Hispanic Body Mass Index (BMI) distributions SABOR participants Fre equency 0 50 100 150 0 50 100 150 Hispanic Other 20 30 40 50 60 20 30 40 50 60 BMI Graphs by RaceEthDesc Histogramm BMI 30 40 50 60 20 African-American Caucasian, Non-Hispanic Hispanic Box-Plots Other Statistik für SoziologInnen 41 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 42 4. Kumulierte Häufigkeiten und Quantile 7