Verteilungsfunktion und Quantile

Ähnliche Dokumente
Verteilungsfunktion und Quantile

Verteilungsfunktion und dquantile

Verteilungsfunktion und Quantile

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile

Kreisdiagramm, Tortendiagramm

Statistik I für Betriebswirte Vorlesung 9

Empirische Verteilungsfunktion

Kapitel 2. Häufigkeitsverteilungen

2 Häufigkeitsverteilungen

Deskriptive Statistik

Wahrscheinlichkeits - rechnung und Statistik

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

3 Häufigkeitsverteilungen

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Einführung in Quantitative Methoden

2. Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

Grafische Darstellung von Häufigkeitsverteilungen (1)

Willkommen zur Vorlesung Statistik

3 Häufigkeitsverteilungen

Statistik und Wahrscheinlichkeitsrechnung

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

WISTA WIRTSCHAFTSSTATISTIK

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Willkommen zur Vorlesung Statistik

Mathematik für Biologen

3. Deskriptive Statistik

Eindimensionale Darstellungen

Bestimmen von Quantilen

1 Beschreibende Statistik

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Kapitel VII - Konzentration von Merkmalswerten

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Standardnormalverteilung

5 Exkurs: Deskriptive Statistik

Graphische Darstellung einer univariaten Verteilung:

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten

1 Beschreibende Statistik

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten. Univ.Prof. Dr.

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

Univariate explorative Datenanalyse in R

Deskriptive Statistik

WISTA WIRTSCHAFTSSTATISTIK

Beschreibung von Daten

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten. Univ.Prof. Dr.

Verteilungen und ihre Darstellungen

Kapitel 1 Beschreibende Statistik

Fachrechnen für Tierpfleger

N

4. Auswertung eindimensionaler Daten

Bivariate explorative Datenanalyse in R

5. Spezielle stetige Verteilungen

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Statistik und Wahrscheinlichkeitsrechnung

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Binomialverteilung Vertrauensbereich für den Anteil

Box-Plots. Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.rechnung. Beschreibende Statistik 174 / 258

Mathematische und statistische Methoden I

GRUPPE B Prüfung aus Statistik 1 für SoziologInnen

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2012/13

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

4 Statistische Maßzahlen

Die Familie der χ 2 (n)-verteilungen

Statistik und Wahrscheinlichkeitsrechnung

Kapitel 1 Beschreibende Statistik

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Übung 1 im Fach "Biometrie / Q1"

Statistik I für Betriebswirte Vorlesung 2

Deskriptive Statistik Erläuterungen

Zentraler Grenzwertsatz

Deskriptive Statistik Aufgaben und Lösungen

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Muster einer Fachabschlußklausur (90 Min.)

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Statistik Skalen (Gurtner 2004)

4 Statistische Maßzahlen

Statistik eindimensionaler Größen

Deskriptive Statistik 1 behaftet.

STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme. 1 Kurze Wiederholung. Warum nur zwei grafische Darstellungsformen?

Deskriptive Statistik Auswertung durch Informationsreduktion

I. Zahlen, Rechenregeln & Kombinatorik

1 Verteilungen metrischer Daten

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Skript 6 Häufigkeiten und Deskriptive Statistiken einer Variablen

Transkript:

Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec

Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal skaliert sein! Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit des Vorkommens von Intervallen. Typische Fragestellung: Wie groß ist der Anteil aller Merkmalsträger mit einem Merkmalswert größer (bzw. kleiner) als ein bestimmter Wert x? Zur einfachen Beantwortung summiert man die Häufigkeitstabelle schrittweise auf. 2 Statistik 1 - Verteilungsfunktion und Quantile

Kumulierte Häufigkeiten bei diskreten Merkmalen Beispiel: "Produktives Denken" i x i n i N i h i h i in % H i H i in % 1 0 0 0 0,00 0,00% 0,00 0,00% 2 1 0 0 0,00 0,00% 0,00 0,00% 3 2 0 0 0,00 0,00% 0,00 0,00% 4 3 7 7 0,06 5,83% 0,06 5,83% 5 4 12 19 0,10 10,00% 0,16 15,83% 6 5 38 57 0,32 31,67% 0,48 47,50% 7 6 29 86 0,24 24,17% 0,72 71,67% 8 7 27 113 0,23 22,50% 0,94 94,17% 9 8 6 119 0,05 5,00% 0,99 99,17% 10 9 1 120 0,01 0,83% 1,00 100,00% Gesamt 120 1,00 100,00% 3 Statistik 1 - Verteilungsfunktion und Quantile

Kumulierte Häufigkeiten Die absoluten kumulierten Häufigkeiten geben die Anzahl der Beobachtungen an, die einen bestimmten Wert x nicht übertreffen. N(X x) z.b. 19 Personen haben einen Score-Wert kleiner gleich 4 Die entsprechenden relativen kumulierten Häufigkeiten bezeichnen wir mit H(X x) = N(X x)/n z.b. 15,8% der Personen haben einen Score-Wert kleiner gleich 4 Sie geben uns den Anteil der Beobachtungen mit einem Wert kleiner gleich x an. Die empirische Verteilungsfunktion F(x) ist definiert durch F(x) = H(X x) 4 Statistik 1 - Verteilungsfunktion und Quantile

Empirische Verteilungsfunktion F(x) 72% aller Testteilnehmer haben einen Wert kleiner gleich 6 erzielt 5 Statistik 1 - Verteilungsfunktion und Quantile

Interpolation macht keinen Sinn Beachte: Bei diskreten Merkmalen ist eine lineare Interpolation nicht zulässig! 6 Statistik 1 - Verteilungsfunktion und Quantile

Falls ein Linienzug gewünscht wird, gibt nur eine Treppenkurve ein korrektes Bild der Verteilung 7 Statistik 1 - Verteilungsfunktion und Quantile

Kumulierte Häufigkeiten (Einzeldaten) Größe Häufigkeit rel. Häufigkeit kumul. Rel. Häufigkeit Größe Häufigkeit rel. Häufigkeit kumul. Rel. Häufigkeit 150 0 0,00 0,00 151 0 0,00 0,00 152 0 0,00 0,00 153 1 0,01 0,01 154 1 0,01 0,02 155 1 0,01 0,03 156 0 0,00 0,03 157 1 0,01 0,04 158 0 0,00 0,04 159 0 0,00 0,04 160 3 0,03 0,07 161 1 0,01 0,08 162 2 0,02 0,10 163 1 0,01 0,11 164 3 0,03 0,14 165 3 0,03 0,17 166 4 0,04 0,21 167 3 0,03 0,24 168 2 0,02 0,26 169 2 0,02 0,28 170 5 0,05 0,33 171 3 0,03 0,36 172 4 0,04 0,40 173 7 0,07 0,47 174 5 0,05 0,52 175 4 0,04 0,56 176 4 0,04 0,60 177 5 0,05 0,65 178 3 0,03 0,68 179 3 0,03 0,71 180 5 0,05 0,76 181 1 0,01 0,77 182 4 0,04 0,81 183 2 0,02 0,83 184 2 0,02 0,85 185 2 0,02 0,87 186 2 0,02 0,89 187 4 0,04 0,93 188 3 0,03 0,96 189 0 0,00 0,96 190 1 0,01 0,97 191 0 0,00 0,97 192 0 0,00 0,97 193 0 0,00 0,97 194 0 0,00 0,97 195 1 0,01 0,98 196 1 0,01 0,99 197 1 0,01 1,00 198 0 0,00 1,00 199 0 0,00 1,00 200 0 0,00 1,00 Kumulierte relative Häufigkeiten ~ Empirische Verteilungsfunktion 8 Statistik 1 - Verteilungsfunktion und Quantile

Empirische Verteilungsfunktion 1,00 0,80 0,60 0,40 0,20 Graphische Darstellung ~ Treppenfunktion 0,00 150 155 160 165 170 175 180 185 190 195 200 9 Statistik 1 - Verteilungsfunktion und Quantile

Empirische Verteilungsfunktion (Leseprobe) 0.0 0.2 0.4 0.6 0.8 1.0 60% der Studenten sind 6 0 % < 1 7 6 kleiner gleich 176 cm 1 5 0 1 6 0 1 7 0 1 8 0 1 9 0 2 0 0 10 Statistik 1 - Verteilungsfunktion und Quantile

Eigenschaften der empirischen Verteilungsfunktion Treppenfunktion Bei jedem beobachteten Wert findet sich ein vertikaler Anstieg Die Höhe des Anstiegs beim Wert x i ist n(x=x i )/n = h(x i ) gleich der relativen Häufigkeit dieses Wertes Hohe Sprünge ~ häufiger Wert Steiler Verlauf ~ hohe Wertedichte Treten in einem Wertebereich keine Werte auf, so verläuft die empirische Verteilungsfunktion in diesem Bereich horizontal 11 Statistik 1 - Verteilungsfunktion und Quantile

Unterschiedliche Sprunghöhen 1,00 0,80 0,60 0,40 h(x=174)=0.05 0,20 h(x=163)=0.0 1 0,00 150 155 160 165 170 175 180 185 190 195 200 12 Statistik 1 - Verteilungsfunktion und Quantile

Konstante Bereiche ~ keine Werte E m p i r i s c h e V e r t 0.0 0.2 0.4 0.6 0.8 1.0 k e i n e W e r t e 1 1 5 0 1 6 0 1 7 0 1 8 0 1 9 0 2 0 0 k g 13 Statistik 1 - Verteilungsfunktion und Quantile

Eigenschaften der emp. Verteilungsfunktion Treppenfunktion Bei jedem beobachteten Wert findet sich ein vertikaler Anstieg Die Höhe des Anstiegs beim Wert x i ist n(x=x i )/n = h(x i ) Hohe Sprünge ~ häufiger Wert Steiler Verlauf ~ hohe Wertedichte Treten in einem Wertebereich keine Werte auf, so verläuft die emp. Verteilungsfunktion in diesem Bereich horizontal Die emp. Verteilungsfunktion ist monoton steigend Die Funktionswerte liegen zwischen 0 und 1 14 Statistik 1 - Verteilungsfunktion und Quantile

Kumulierte Häufigkeiten (klassierte Daten) Bereich n i h i N i H i 150+ bis 155 3 0,03 3 0,03 155+ bis 160 4 0,04 7 0,07 160+ bis 165 10 0,10 17 0,17 165+ bis 170 16 0,16 33 0,33 170+ bis 175 23 0,23 56 0,56 175+ bis 180 20 0,20 76 0,76 180+ bis 185 11 0,11 87 0,87 185+ bis 190 10 0,10 97 0,97 190+ bis 195 1 0,01 98 0,98 195+ bis 200 2 0,02 100 1 Gesamt 100 1 15 Statistik 1 - Verteilungsfunktion und Quantile

Verteilungsfunktion bei klassierten Daten 1 0,9 0,8 0,7 Beachte: Bei klassierten Merkmalen ist eine Interpolation als Approximation an die Treppenfunktion zulässig! 0,6 0,5 0,4 H(175)=0,56 0,3 0,2 0,1 H(170)=0,33 Klassenobergrenzen 0 150 160 170 180 190 200 210 16 Statistik 1 - Verteilungsfunktion und Quantile

Verteilungsfunktion bei klassierten Daten Bei klassierten Daten können exakte Werte nur an den oberen Klassengrenzen bestimmt werden Ein näherungsweise Bestimmung der Werte der Verteilungsfunktion kann unter der Annahme der Gleichverteilung innerhalb der Klassen, mittels linearer Interpolation erfolgen In der Graphik bedeutet dies, dass wir die Punkte durch Geradenstücke zu einer durchgezogenen Linie verbinden Die Steigung dieser Geradenstücke entspricht der Dichte innerhalb der Klasse Man nennt diese Approximation der empirischen Verteilungsfunktion bei klassierten Daten auch die Summenkurve 17 Statistik 1 - Verteilungsfunktion und Quantile

Summenkurve 1 0,9 0,8 0,7 0,6 0,5 0,4 H(175)=0,56 0,3 0,2 H(170)=0,33 0,1 0 150 160 170 180 190 200 210 18 Statistik 1 - Verteilungsfunktion und Quantile

Verteilungsfunktion bei klassierten Daten (Beispiel) Aus der Tabelle könne wir folgende Informationen ablesen 56% der Studenten sind kleiner gleich 175 cm 33% der Studenten sind kleiner gleich 170 cm Frage: Wieviel % der Studenten sind kleiner gleich 172 cm? Exakte Antwort aus klassierten Daten nicht mehr möglich Näherungsweise Lösung: Lineare Interpolation 19 Statistik 1 - Verteilungsfunktion und Quantile

Summenkurve 1 0,9 0,8 0,7 0,6 0,5 0,4??? H(175)=0,56 0,3 0,2 0,1 H(170)=0,33 0 150 160 170 180 190 200 210 172 20 Statistik 1 - Verteilungsfunktion und Quantile

Interpolation Gesucht ist der Funktionswert der Summenkurve an der Stelle x: F(x)=F(u i )+y F(o i ) F(u i ) x y=? F(u i ) u i o i 21 Statistik 1 - Verteilungsfunktion und Quantile

Strahlensatz in Worten Das kurze vertikale Stück verhält sich zum langen vertikalen Stück genauso wie das kurze horizontale Stück zum langen horizontalen Stück a/b = c/d b c a d 22 Statistik 1 - Verteilungsfunktion und Quantile

Anwendung des Strahlensatzes y : {F(o i )-F(u i )} = (x-u i ) : (o i -u i ) y : h i = (x-u i ) : b i F(x) =F(u i ) + (x-u i )/ b i *h i y=? x F(o i ) h i = F(o i )-F(u i ) F(u i ) b i = (o i -u i ) u i o i 23 Statistik 1 - Verteilungsfunktion und Quantile

Im Beispiel F(x) =F(u i ) + (x-u i )/ b i *h i F(172) = 0,33 + 2/5*0,23 = 0,33+0,092=0,422 F(u i )=0,33 y=? x=172 F(o i )=0,56 h i = F(o i ) - F(u i )=0,23 b i = (o i -u i ) =5 u i =170 o i =175 24 Statistik 1 - Verteilungsfunktion und Quantile

Summary Die Interpolation auf der Basis der Summenkurve (klassierte Daten) hat ergeben, dass 42,2% der Studenten kleiner gleich 1,72m sind. Auf Basis der Einzeldaten (siehe Folie 8) ergab sich jedoch ein Wert von 40%. Die Abweichung begründet sich aus dem Informationsverlust, der sich durch die Klassierung ergeben hat. Solche Interpolationstechniken sind für die Analyse von Sekundärdaten bedeutsam. Beachte aber dabei immer, die implizite Unschärfe. 25 Statistik 1 - Verteilungsfunktion und Quantile

Konzept der Quantile Das Teilen eines geordneten Datensatz in q gleich große Teilmengen ist die Motivation für Quantile Die Quantile markieren die Grenzen zwischen aufeinanderfolgende Teilmengen Quartiles of a Distribution 0.00 0.05 0.10 0.15 0.20 q(25%)=103,5 q(50%)=136,8 q(75%)=182,4 3rd Quartile (Upper Quartile) 2nd Quartile (Median) 1st Quartile (Lower Quartile) 26 50 100 150 200 250 300 350 Statistik 1 - Verteilungsfunktion und Quantile

Wichtige Quantile Unscharf formuliert ist ein Quantil zu einem bestimmten Prozentsatz α, jener Wert für den gilt, dass α% der Beobachtungen kleiner sind. Einige wichtige Quantile, die häufig kommuniziert werden tragen einen eigenen Namen: Terzile x 0,33 x 0,66 Quartile x 0,25 x 0,5 x 0,75 Dezile x 0,1... x 0,9 Perzentile x 0,01, x 0,02... x 0,99 27 Statistik 1 - Verteilungsfunktion und Quantile

Berechnung von Quantilen Es gibt 2 Konzepte um Quantile zu bestimmen Empirische Quantile es wird ein real beobachteter Wert angegeben α-quantile die Berechnung des Quantils erfolgt mittels Interpolation 28 Statistik 1 - Verteilungsfunktion und Quantile

Empirisches Quantil Ausgehend von einem Anteilswert p (y-achse) wird der zugehörige Wert aus der Stichprobe bestimmt, für den F(x) zum ersten mal größer als oder zumindest gleich groß wie p ist. Das bedeutet ein empirisches p-quantil ist jener möglichst kleine Merkmalswert für den gerade noch gilt, dass p-prozent der Beobachtungen kleiner gleich als eben dieser Merkmalswert sind. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Merke: Empirisches Quantile sind immer nur real beobachtete Werte. 0,1 0 150 160 170 180 190 200 210 29 Statistik 1 - Verteilungsfunktion und Quantile

Definition: Empirisches Quantil 0 < p < 1 Datensatz: x 1,..., x n Das Empirische p-quantil x p ist dann der kleinste beobachtete Wert x für den gilt: F(x) p Seien x (1),... x (n) die geordneten Werte: x p =x (k), ist dann der k-te Wert in der geordneten Stichprobe, wobei k wie folgt bestimmt wird: (k-1)/n < p k/n bzw. (k-1) < np k 30 Statistik 1 - Verteilungsfunktion und Quantile

Mini-Beispiel zu empirischen Quantilen Stichprobe: 3, 6, 2, 8, 7, 5, 9, 4 n=8 Geordnete Stichprobe: 2,3,4,5,6,7,8,9 Wir wollen das as Empirische p-quantil für p=0,25 bestimmen x 0,25 =? (k-1)/n < p k/n bzw. (k-1) < np k (k-1)/8 < 0,25 k/8 bzw. (k-1) < 2 k k=2 x 0,25 = x (2) = 3 x 0,75 =? (k-1)/8 < 0,75 k/8 bzw. (k-1) < 6 k k=6 x 0,75 = x (6) = 7 31 Statistik 1 - Verteilungsfunktion und Quantile

Weitere Beispiele zu empirischen Quantilen Gesucht ist ein Wert, so dass 95% der Studenten kleiner gleich diesem Wert sind Datensatz Körpergröße n=100 p=0,95 x 0,95 =? (k-1)/n < p k/n (k-1) < np k (k-1) < 95 k ==> k=95 x 0,95 = 188 Datensatz produktives Denken n=120 x 0,50 =? p=0,5 (k-1) < 120*0,5 k ==> k=60 x 0,50 = 7 32 Statistik 1 - Verteilungsfunktion und Quantile

α-quantile Wenn wir uns nicht auf reale Beobachtungen beschränken, sondern auch Interpolationen zwischen beobachteten Werten zulassen, kommen wir zu den sog. α-quantilen Seien x (1),, x (n) die geordneten Beobachtungen einer Urliste, so ist das α-quantil wie folgt definiert: x α x( k ) k = n α = 1 ( x( k) + x( k+ 1) ) k = n α 2 Kleinste ganze Zahl größer gleich Falls n.α eine ganze Zahl ist 33 Statistik 1 - Verteilungsfunktion und Quantile

α-quantile α-quantile sind so definiert, dass n.α Beobachtungswerte kleiner und n.(1-α) Beobachtungswerte größer als das jeweilige α-quantil sind. Falls n.α eine ganze Zahl ist, würde im Prinzip jeder beliebige Wert zwischen x (n.α) und x (n.α+1) die obige Bedingung erfüllen. Die von uns angegebene Formel nimmt einfach die Mitte zwischen x (n.α) und x (n.α+1) Beachte: Unterschiedliche Softwaresysteme verwenden leicht unterschiedliche Definitionen von α-quantilen, was insbesondere bei kleinen Stichproben deutliche Unterschiede ausmachen kann 34 Statistik 1 - Verteilungsfunktion und Quantile

Beispiel α-quantile Urliste: x 1, x 2, x 3, x 4,, x 10 8, 5, 7, 14, 27 12, 24, 17, 3, 21 Geordnete Urliste: x (1), x (2), x (3), x (4),, x (10) 3, 5, 7, 8, 12, 14, 17, 21, 24, 27 1.Quartil; 25%-Quantil; Q(25%) α=0,25 n*α=2.5 Index=3 Q(25%)=7 x (1) x (2) x (3) x (4) x (5) x (6) x (7) x (8) x (9) x (10) 3 5 7 8 12 14 17 21 24 27 35 Statistik 1 - Verteilungsfunktion und Quantile

Beispiel α-quantile Urliste: x 1, x 2, x 3, x 4,, x 10 8, 5, 7, 14, 27 12, 24, 17, 3, 21 Geordnete Urliste: x (1), x (2), x (3), x (4),, x (10) 3, 5, 7, 8, 12, 14, 17, 21, 24, 27 3.Dezil; 30%-Quantil; Q(30%) α=0,30 n*α = 3 Index=3 oder 4 Unsere Formel: Q(30%)=(7+8)/2=7.5 x (1) x (2) x (3) x (4) x (5) x (6) x (7) x (8) x (9) x (10) 3 5 7 8 12 14 17 21 24 27 Excel-Funktion Quantil liefert 7,7 SPSS-Funktion Frequencies liefert 7,3 36 Statistik 1 - Verteilungsfunktion und Quantile

Anwendung von Quantilen in Einkommensstatistik Vertikale und intra-industrielle Lohn- und Gehaltsstreuung in Österreich 1995-2000 M. Mesch, Materialien zur Wirtschaft, 2004 AK 37 Statistik 1 - Verteilungsfunktion und Quantile

Anwendung von Dezilen Quelle: Statistik Austria 38 Statistik 1 - Verteilungsfunktion und Quantile

Quantile bei klassierten Daten Bei klassierten Daten ergibt sich das p-quantil durch Interpolation Ausgangspunkt ist jene Klasse, in der die kumulierten Häufigkeiten den p-wert übersteigen Zur Berechnung verwenden wir wie zuvor den Strahlensatz, allerding sind wir nun an der Bestimmung des kurzen horizontalen Stücks interessiert. Zunächst muss immer die relevante Klasse gefunden werden 39 Statistik 1 - Verteilungsfunktion und Quantile

Bestimmung des 0,5 Quantils Bereich n i h i N i H i 150+ bis 155 3 0,03 3 0,03 155+ bis 160 4 0,04 7 0,07 160+ bis 165 10 0,10 17 0,17 165+ bis 170 16 0,16 33 0,33 170+ bis 175 23 0,23 56 0,56 175+ bis 180 20 0,20 76 0,76 180+ bis 185 11 0,11 87 0,87 185+ bis 190 10 0,10 97 0,97 190+ bis 195 1 0,01 98 0,98 195+ bis 200 2 0,02 100 1 Gesamt 100 1 Wo überschreiten die kumulierten Häufigkeiten den vorgegebenen Prozentwert? 40 Statistik 1 - Verteilungsfunktion und Quantile

Quantile bei klassierten Daten y : b i = (p-f(u i )) : h i F(o i ) x p = u i + (p-f(u i ))/ h i *b i p y h i = F(o i )-F(u i ) F(u i ) b i = (o i -u i ) u i o i 41 Statistik 1 - Verteilungsfunktion und Quantile

Quantile bei klassierten Daten y : 5= (0,5-0,33): 0,23 F(o i )=0,56 X 0,5 = 170 + 0,17/0,23*5=173,7 p=0,5 h i = F(o i )-F(u i ) =0,23 F(u i )=0,33 y b i = (175-170) =5 170 175 42 Statistik 1 - Verteilungsfunktion und Quantile

Übungsbeispiel (siehe auch XLS) Disponibles Einkommen m i Anzahl hi Hi [300-500) 400 20 0,40 0,40 [500-700) 600 15 0,30 0,70 [700-1.000) 850 10 0,20 0,90 [1.000-2.000) 1500 5 0,10 1 50 Median 566,67 =500+(700-500)*(0,5-0,4)/0,3 Percentage(Einkommen <= 800) 76,7% =0,70+0,20*1/3 Percentage (Einkommen > 800) 23,3% =0,1+0,2*2/3 43 Statistik 1 - Verteilungsfunktion und Quantile

Quantile Beispiel: Körpergröße (Originalwerte) 0.Quartil = x 0 ~ Minimum 1.Quartil = x 0.25 2.Quartil = x 0.50 3.Quartil = x 0.75 4.Quartil = x 1.00 ~ Maximum Five Number Summary Min. 1st Qu. 2nd Qu. 3rd Qu. Max. 153 168 174 180 197 x (1) x (25) x (50) x (75) x (100) 44 Statistik 1 - Verteilungsfunktion und Quantile

Box-Plots Basierend auf den 5 zusammenfassenden Werten einer Verteilung: Minimum, 1.Quartil, 2.Quartil, 3.Quartil und Maximum lassen sich instruktive Graphiken zur Darstellung einer Verteilung entwickeln, die insbesondere zum Vergleich mehrerer Gruppen gut geeignet sind. Häufig werden die horizontal begrenzenden Linien nicht bis zum Minimum und Maximum der Daten gezogen. Die Balkenlänge wird mit der 1,5-fachen Boxhöhe begrenzt und extreme Datenwerte werden extra markiert. 45 Statistik 1 - Verteilungsfunktion und Quantile

Boxplot (Tukey: Exploratory Data Analysis) 46 Statistik 1 - Verteilungsfunktion und Quantile

Boxplot (Box-Whisker-Plot) Maximum bzw. Obergrenze maximal 1,5-fache Boxlänge Punkte ober- bzw. unterhalb der Whiskergrenzen bezeichnet man als Ausreißer (outlier) und stellt sie explizit dar 75% Quantil Median 25% Quantil Minimum bzw. Untergrenze 47 Statistik 1 - Verteilungsfunktion und Quantile

Zur Interpretation von Boxplots 48 Statistik 1 - Verteilungsfunktion und Quantile

Beispiel einer rechtsschiefen Verteilung 0 10 20 30 40 50 60 0 1 2 3 4 5 6 0 20 40 60 80 100 0 1 2 3 4 5 6 0 1 2 3 4 5 6 x. r 49 Statistik 1 - Verteilungsfunktion und Quantile

Beispiel einer linksschiefen Verteilung 0 10 20 30 40 50 60 4 5 6 7 8 9 10 0 20 40 60 80 100 4 5 6 7 8 9 1 0 4 5 6 7 8 9 1 0 x. l 50 Statistik 1 - Verteilungsfunktion und Quantile

Vergleich von Verteilungen g g g Density 0.000 0.002 0.004 0.006 0.008 0.010 0.012 Density 0.000 0.005 0.010 0.015 0.020 Density 0.000 0.002 0.004 0.006 0.008 100 200 300 400 0 50 100 150 200 100 200 300 400 500 51 Statistik 1 - Verteilungsfunktion und Quantile

Vergleich von Verteilungen 0 100 200 300 400 52 Statistik 1 - Verteilungsfunktion und Quantile

Vorteil von Boxplots Boxplots geben im Vergleich zum Histogramm zwar nur ein gröberes Bild von der Verteilung, aber sie sind viel besser zum Vergleich der Verteilung verschiedener Gruppen geeignet. 53 Statistik 1 - Verteilungsfunktion und Quantile

Pisa Studie 2000 Darstellung von E. Neuwirth 54 Statistik 1 - Verteilungsfunktion und Quantile

Notched Boxplot Kerbe gibt Hinweis auf Relevanz der Unterschiede zwischen den Medianen 55 Statistik 1 - Verteilungsfunktion und Quantile

Variable Width Boxplot Breite der Boxes proportional zur Wurzel aus der Zahl der Beobachtungen 56 Statistik 1 - Verteilungsfunktion und Quantile

4 alternative Darstellungen eines Datensatzes Histogram Boxplot Frequency 0 50 100 150 200 30 40 50 60 70 80 20 30 40 50 60 70 80 Kernel Estimate Distribution Funct 0.00 0.01 0.02 0.03 0.0 0.2 0.4 0.6 0.8 1.0 20 40 60 80 100 20.0 32.6 45.2 57.8 70.4 83.0 57 Statistik 1 - Verteilungsfunktion und Quantile

4 alternative Darstellungen eines Datensatzes Histogram Boxplot Frequency 0 50 100 200 0 100 200 300 400 0 100 200 300 400 500 Kernel Estimate Distribution Funct 0.000 0.002 0.004 0.006 0.0 0.2 0.4 0.6 0.8 1.0-100 0 100 300 500-13.0 86.2 284.6 483.0 58 Statistik 1 - Verteilungsfunktion und Quantile

Kombination von Darstellungsvarianten Die kombinierte unterschiedlicher Darstellungstypen ist durchaus empfehlenswert, um die Form der Verteilung besser zu verstehen bzw. zu kommunizieren 59 Statistik 1 - Verteilungsfunktion und Quantile