2 Häufigkeitsverteilungen

Ähnliche Dokumente
Kapitel 2. Häufigkeitsverteilungen

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

Kreisdiagramm, Tortendiagramm

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen

Graphische Darstellung einer univariaten Verteilung:

Willkommen zur Vorlesung Statistik

WISTA WIRTSCHAFTSSTATISTIK

4. Kumulierte Häufigkeiten und Quantile

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012

Wahrscheinlichkeits - rechnung und Statistik

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

4. Kumulierte Häufigkeiten und Quantile

Verteilungsfunktion und dquantile

Verteilungen und ihre Darstellungen

Verteilungsfunktion und Quantile

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

Statistik I für Betriebswirte Vorlesung 9

Verteilungsfunktion und Quantile

Einführung in Quantitative Methoden

Mathematik für Biologen

Deskriptive Statistik

Statistik I für Studierende der Soziologie

Verteilungsfunktion und Quantile

3 Lage- und Streuungsmaße

Mathematische und statistische Methoden I

Empirische Verteilungsfunktion

Der Mittelwert (arithmetisches Mittel)

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Beschreibung von Daten

Tutorial: Balken- und Tortendiagramm

Grafische Darstellung von Häufigkeitsverteilungen (1)

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

3 Lage- und Streuungsmaße

Deskriptive Statistik

Voraussetzung für statistische Auswertung: jeder Fall besitzt in bezug auf jedes Merkmal genau eine Ausprägung

Kapitel 1 Beschreibende Statistik

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Forschungsstatistik I

Deskriptive Statistik 1 behaftet.

2. Deskriptive Statistik

Deskriptive Statistik Erläuterungen

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

9. Kapitel: Grafische Darstellung quantitativer Informationen

1 Verteilungen und ihre Darstellung

Das harmonische Mittel

Fachrechnen für Tierpfleger

Mathematische und statistische Methoden I

Mathematik für Biologen

Deskriptive Statistik Auswertung durch Informationsreduktion

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Statistik I (17) 79. Untersuchen Sie die Daten aus Tabelle 1.

f j = ( 2) = 5.5.

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

3. Deskriptive Statistik

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Kapitel VIII - Mehrdimensionale Merkmale

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

WISTA WIRTSCHAFTSSTATISTIK

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Demokurs. Modul Grundlagen der Wirtschaftsmathematik Grundlagen der Statistik

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

5 Assoziationsmessung in Kontingenztafeln

Anwendung A_0801_Quantile_Minimum_Maximum

4 Statistische Maßzahlen

Musterlösung zur Übungsklausur Statistik

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Felix Klug SS Tutorium Deskriptive Statistik

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Statistik I im Sommersemester 2006

Statistik und Wahrscheinlichkeitsrechnung

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Statistik Skalen (Gurtner 2004)

Statistik eindimensionaler Größen

Mathematische Statistik. Zur Notation

Median 2. Modus < Median < Mittelwert. Mittelwert < Median < Modus. 2 Modalwerte oder Modus viel größer bzw. viel kleiner als Mittelwert

Statistik für Technische Assistenten in der Medizin

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten. Univ.Prof. Dr.

3. Merkmale und Daten

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2012/13

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Lösungen zur deskriptiven Statistik

Statistik I für Humanund Sozialwissenschaften

2 Merkmalsausprägungen, Skalen, Häufigkeiten, Klassierung

1 Verteilungen metrischer Daten

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

4 Statistische Maßzahlen

Univariate explorative Datenanalyse in R

Stichwortverzeichnis. Symbole

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Transkript:

2 Häufigkeitsverteilungen

Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation An n Einheiten ω 1,,ω n sei das Merkmal X beobachtet worden x 1 = X(ω 1 ),,x n = X(ω n ) Also x i = X(ω i ), dh x i ist der Wert der i-ten Einheit Bezeichnungen: x 1,,x n : Urliste oder Rohdaten n : Stichprobenumfang Die verschiedenen Merkmalsausprägungen werden mit a 1,,a k bezeichnet 2 Häufigkeitsverteilungen 50

Bemerkungen: Werden mehr Beobachtungen erhoben, so ändert sich n, aber ia k nicht Meist bezeichnet a 1,,a k die beobachteten verschiedenen Merkmalsausprägungen, manchmal aber auch die prinzipiell möglichen Merkmalsausprägungen Für mindestens ordinalskalierte Merkmale seien die Ausprägungen geordnet, dh a 1 < a 2 < < a k 2 Häufigkeitsverteilungen 51

Beispiel: Häufigkeitsverteilung der Schichtzugehörigkeit einer Gesamtheit Ω von acht Personen Ω = {ω 1,,ω 8 } 2 Häufigkeitsverteilungen 52

Tabelle: 2 Häufigkeitsverteilungen 53

21 Häufigkeiten 21 Häufigkeiten Absolute Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j = 1,,k, bezeichnen h j und h(a j ) die absolute Häufigkeit der Ausprägung a j, dh die Anzahl der x i aus x 1,,x n mit x i = a j Formal: h j := h(a j ) := {ω Ω X(ω) = a j } M bezeichnet die Mächtigkeit der Menge M := bedeutet wird definiert als h 1,h 2,,h k (als Ganzes) nennt man die absolute Häufigkeitsverteilung Es gilt k h j = n j=1 2 Häufigkeitsverteilungen 54

Erste Darstellung von Häufigkeiten anhand einer Strichliste 21 Häufigkeiten 2 Häufigkeitsverteilungen 55

21 Häufigkeiten Relative Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j = 1,,k, bezeichnen f j und f(a j ) die relative Häufigkeit der Ausprägung a j, also f j := f(a j ) := h j n f 1,f 2,,f k nennt man die relative Häufigkeitsverteilung Es gilt k f j = 1 j=1 2 Häufigkeitsverteilungen 56

Häufigkeitstabelle: 21 Häufigkeiten Allgemeine Form: Im Beispiel: j a j h j f j 1 a 1 h 1 f 1 2 a 2 h 2 f 2 3 a 3 h 3 f 3 k a k h k f k n 1 2 Häufigkeitsverteilungen 57

Gruppierte Häufigkeitsverteilungen 21 Häufigkeiten Insbesondere bei stetigen oder quasi-stetigen Merkmalen ist es häufig zweckmäßig, die Merkmalsausprägungen zu klassieren / zu gruppieren gruppierte Häufigkeitsverteilung Die gruppierte Häufigkeitsverteilung enthält nur die Häufigkeiten der Ausprägungen in den einzelnen Gruppen, die einzelnen a i entsprechen in diesem Fall Intervallen Festlegung der Klassen nicht überlappend Überdeckung aller Datenwerte Achtung: Die Gruppierung bedeutet einen Informationsverlust 2 Häufigkeitsverteilungen 58

Beispiel Mietspiegel: Merkmal = Nettomieten 21 Häufigkeiten Urliste für n=26 Wohnungen, bereits der Größe nach geordnet: 127 172 194 217 226 228 238 248 272 337 347 349 349 373 375 378 383 394 426 443 466 467 533 539 560 676 Klasse j h j f j 100 < 200 200 < 300 300 < 400 400 < 500 500 < 600 600 < 700 2 Häufigkeitsverteilungen 59

22 Grafische Darstellung 22 Grafische Darstellung Stabdiagramm: Trage über a 1,,a k jeweils einen zur x-achse senkrecht stehenden Stab mit Höhe h 1,,h k (oder f 1,,f k ) ab Horizontal: Ausprägungen der Variablen (a 1,a 2,,a k ) Vertikal: absolute / relative Häufigkeiten (h 1,,h k bzw f 1,,f k ) Vorausgesetztes Skalenniveau: mindestens Nominalskala 2 Häufigkeitsverteilungen 60

22 Grafische Darstellung Säulendiagramm: Ersetze die Stäbe durch Rechtecke (Säulen) gleicher Breite 2 Häufigkeitsverteilungen 61

Balkendiagramm: Säulendiagramm mit vertauschten Achsen 22 Grafische Darstellung 2 Häufigkeitsverteilungen 62

Streifendiagramm: gestapeltes Säulendiagramm 22 Grafische Darstellung 2 Häufigkeitsverteilungen 63

22 Grafische Darstellung Kreisdiagramm ( Tortendiagramm ) Der Kreis wird in Sektoren unterteilt, denen jeweils eine Ausprägung (oder Klasse) zugeordnet wird Der jeweilige Winkel ist proportional zur Häufigkeit Damit ist die Fläche proportional zur Häufigkeit: Prinzip der Flächentreue Die Länge des Kreisbogens ist proportional zum Winkel und damit auch zur Häufigkeit Achtung: Für Stab-, Säulen- und Balkendiagramm gilt das Prinzip der Längentreue, dh die Länge der Stäbe / Säulen / Balken ist proportional zur Häufigkeit 2 Häufigkeitsverteilungen 64

Berechnung 22 Grafische Darstellung Winkel des Kreissektors j = relative Häufigkeit 360 Häufigkeit Winkel f 1 = 1 8 f 2 = 360 8 = 45 f 3 = 2 Häufigkeitsverteilungen 65

Beispiel: Münchner Mietspiegel 22 Grafische Darstellung Normale Lage Gute Lage Beste Lage (5,10] (5,10] (5,10] (0,5] (0,5] (15,25] (15,25] (0,5] (15,25] (10,15] (10,15] (10,15] 2 Häufigkeitsverteilungen 66

Bemerkungen: 22 Grafische Darstellung Stab- / Balken- / Säulen- / Streifendiagramme können auch gut zum zeitlichen Vergleich von Häufigkeitsverteilungen eingesetzt werden Für ordinalskalierte Merkmale lässt sich mit Stab- / Balken- / Säulen- / Streifendiagrammen auch die Ordnung der Kategorien darstellen Tortendiagramme in 3D Abbildungen vermitteln oft verzerrten Eindruck Alle bisherigen Grafiken sind nur sinnvoll für kleine Kategorienzahlen k Klasseneinteilungen bei großem k sind oft problematisch Viele Klassen: Diagramm wird unübersichtlich Wenige Klassen: starker Informationsverlust und eventuell starke Abhängigkeit von der konkreten Wahl der Klassen 2 Häufigkeitsverteilungen 67

Stamm-Blatt-Diagramm 22 Grafische Darstellung Semigrafisches Verfahren in Analogie zu Strichlisten, gut geeignet für mittelgroßes k Erklärung anhand des Mietspiegelbeispiels; Nettomieten: 127 172 194 217 226 228 238 248 272 337 347 349 349 373 375 378 383 394 426 443 466 467 533 539 560 676 Grundidee: 1 Gib einen groben Eindruck von dem Bereich, in dem Ausprägungen liegen (Stamm) 2 Veranschauliche Häufigkeiten in Klassen und bewahre zugleich Wissen über die detaillierte Lage der Ausprägungen (von jedem Punkt auf dem Stamm abzweigende Blätter) Stamm: führende Ziffern Blatt: nächste Ziffer (evtl gerundet) 2 Häufigkeitsverteilungen 68

22 Grafische Darstellung Vorgehen: 1 Suche den kleinsten und größten Wert der Urliste und zerlege den Wertebereich in Intervalle der Breite 10 q (dh die Intervallgrenzen sind ganzzahlige Vielfache von 10 oder 100 oder 1000 ), wobei q geeignet zu wählen ist (Nettomieten: q = 2) 2 Runde die Daten auf die führenden q Stellen 130 170 190 220 230 230 240 250 270 340 350 350 350 370 380 380 380 390 430 440 470 470 530 540 560 680 3 Bestimme den Stamm aus den jeweils führenden Ziffern 4 Bestimme die Blätter aus der jeweils zweiten Ziffer: 3 7 9 2 3 3 4 5 7 4 5 5 5 7 8 8 8 9 3 4 7 7 3 4 6 8 5 Trage für jeden Wert des Stamms die zugehörigen Blätter rechts von einer vertikalen Linie der Größe nach geordnet ab 2 Häufigkeitsverteilungen 69

Stamm-Blatt-Diagramm für den Mietspiegel: 22 Grafische Darstellung 127 172 194 217 226 228 238 248 272 337 347 349 349 373 375 378 383 394 426 443 466 467 533 539 560 676 2 Häufigkeitsverteilungen 70

Vorteile: 22 Grafische Darstellung Einfache Gruppierung ohne viel Informationsverlust: die Darstellung enthält bis auf Rundungen alle Werte der Urliste Ermöglicht guten Einblick in die Datenstruktur für explorative Analysen, zb auch Erkennen von Ausreißern Nachteile: Wird bei großen Datensätzen schnell unübersichtlich Lässt sich oft nicht mehr gut auf Papier präsentieren 2 Häufigkeitsverteilungen 71

23 Histogramm 23 Histogramm Zur Motivation: Die Häufigkeit einer Klasse und damit die Höhe im Säulendiagramm hängt stark von der Klassenbreite ab Durch Zusammenfassen von Klassen erhält man ein ganz anderes Bild Nummer Klasse Anzahl 1 0-10 10 2 10-20 20 3 20-30 30 4 30-50 20 5 50-100 20 2 Häufigkeitsverteilungen 72

23 Histogramm Ziel: Sinnvolle Häufigkeitsdarstellung für metrische Merkmale (ohne manuelle Kategorisierung) Gegeben: Urliste x 1,,x n eines (mindestens) intervallskalierten Merkmals Wähle c 0 min i=1,,n (x i ) und c k max i=1,,n (x i ) Bilde Klasseneinteilung [c 0,c 1 ),[c 1,c 2 ),,[c k 1,c k ] Für jede Klasse [c j 1,c j ), j = 1,,k sei d j = c j c j 1 die Breite des j-ten Intervalls und h j bzw f j die absolute bzw relative Häufigkeit in der j-ten Klasse Zeichne über jedem Intervall ein Rechteck der Breite d j so, dass die Fläche proportional zu f j und h j ist 2 Häufigkeitsverteilungen 73

Achtung: Das Histogramm ist flächentreu, nicht längentreu! 23 Histogramm Es gilt Fläche = Breite Höhe und damit Höhe = Fläche / Breite Also ist die Höhe der Rechtecke proportional zu f j d j bzw h j d j (und nicht zu f j bzw h j ) 2 Häufigkeitsverteilungen 74

Beispiel: Punkteverteilung in der Klausur 23 Histogramm h j d j h j /d j Klassen Hfgkt Breite Höhe [0, 355) 53 355 149 [355, 485) 78 [485, 645) 91 [645, 795) 96 [795, 90] 65 383 2 Häufigkeitsverteilungen 75

23 Histogramm 6 78 91 96 65 149{ 53 355 485 645 795 90 2 Häufigkeitsverteilungen 76

Vorteile des Histogramms: 23 Histogramm Information der metrischen Skala (Differenzen) voll ausgenutzt etwas weniger empfindlich gegenüber Klasseneinteilung, da sich Häufigkeiten in der Fläche widerspiegeln Klasseneinteilung: Faustregel: k = n oder k = 2n Wenn mögliche natürliche Klasseneinteilung nutzen (zb: Notenstufen) Möglichst gleich große Klassenbreiten wählen 2 Häufigkeitsverteilungen 77

23 Histogramm Die Ordinatenbezeichnung Häufigkeiten ist in vielen Softwarepaketen standard, aber eigentlich sehr irreführend! 2 Häufigkeitsverteilungen 78

Beispiel: Arbeitsbelastung neben dem Studium 23 Histogramm 2 Häufigkeitsverteilungen 79

23 Histogramm Ein Wert bildet eine inhaltliche Kategorie für sich, zb der Wert 0 bei Arbeitsbelastung neben Studium: die natürliche Breite des zugehörigen Intervalls ist gleich 0 und damit die Höhe gleich unendlich beliebige Peaks produzierbar, die alle anderen Ausprägungen optisch verschwinden lassen Mögliche Lösung: Wert aus dem Histogramm nehmen und auf zwei Grafiken aufteilen: Arbeit ja/nein, Verteilung der Arbeitsstunden bei den Arbeitenden (Vorsicht bei der Interpretation!) Implizite Rundung auf Jubiläumszahlen (attractive numbers, Heaping) zb 5, 10, 20 ; 1 2 Jahr, 1 Jahr ; 16, 18, 25, 30 Monate Zur Vermeidung von Artefakten: Jubiläumszahlen nicht als Intervallgrenzen verwenden! 2 Häufigkeitsverteilungen 80

Typen von Häufigkeitsverteilungen 23 Histogramm Histogramme eignen sich gut zur Beurteilung der Form von Häufigkeitsverteilungen 2 Häufigkeitsverteilungen 81

Unimodale und multimodale Verteilungen Modus= Gipfel einer Verteilung 23 Histogramm Unimodal Multimodal Multimodal 00 01 02 03 04 05 06 00 01 02 03 04 05 06 00 01 02 03 04 05 06 4 2 0 2 4 4 2 0 2 4 4 2 0 2 4 2 Häufigkeitsverteilungen 82

Symmetrie und Schiefe 23 Histogramm symmetrisch: Rechte und linke Hälfte der Verteilung sind annähernd zueinander spiegelbildlich linkssteil (rechtsschief): Verteilung fällt nach links deutlich steiler und nach rechts langsamer ab rechtssteil (linksschief): Verteilung fällt nach rechts deutlich steiler und nach links langsamer ab 1 2 3 4 5 6 7 8 9 (linkssteil) 1 2 3 4 5 6 7 8 9 (symmetrisch) 1 2 3 4 5 6 7 8 9 (rechtssteil) 2 Häufigkeitsverteilungen 83

Andere typische Verteilungsformen: 23 Histogramm U-förmig, J-förmig Histogram of x Histogram of x Frequency 0 20 40 60 80 100 Frequency 0 20 40 60 80 100 120 140 00 02 04 06 08 10 x 00 02 04 06 08 10 x 2 Häufigkeitsverteilungen 84

24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Oft sind kumulierte Häufigkeiten von Interesse, also eine Antwort auf die Frage Wieviel Prozent der Daten über-/unterschreiten einen bestimmten Wert? Wieviel Prozent der Studenten arbeiten bis zu 8 Stunden pro Woche neben dem Studium? Wieviel Prozent der Studenten arbeiten mehr als 8 Stunden pro Woche neben dem Studium? Wieviel Prozent der Studenten haben mindestens 355 Punkte, also die Klausur bestanden? Voraussetzung: Mindestens ordinalskaliertes Merkmal 2 Häufigkeitsverteilungen 85

24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Gegeben sei die Urliste x 1,,x n eines (mindestens) ordinalskalierten Merkmals mit der Häufigkeitsverteilung h 1,,h k bzw f 1,,f k Dann heißt H(x) := Anzahl der Werte x i mit x i x = h(a j ) = j:a j x j:a j x absolute kumulierte Häufigkeitsverteilung und h j F(x) := Anteil der Werte x i mit x i x = H(x)/n = f(a j ) = 1 n j:a j x j:a j x h(a j ) relative kumulierte Häufigkeitsverteilung bzw empirische Verteilungsfunktion 2 Häufigkeitsverteilungen 86

Die Schreibweise H(x) := j:a j x h(a j ) ist eine Abkürzung für 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion H(x) := j J x h(a j ) mit J x := {j a j x}, dh für jedes x wird die Summe über alle j mit der Eigenschaft betrachtet, dass die zugehörigen Werte a j kleiner gleich x sind (analog für F(x)) Beispiel: Klausurnoten (zur Vereinfachung a j = j) Note: a j h(a j ) H(a j ) f(a j ) F(a j ) a 1 = 1 65 65 017 017 a 2 = 2 96 161 025 042 a 3 = 3 91 024 a 4 = 4 78 020 a 5 = 5 53 014 383 100 2 Häufigkeitsverteilungen 87

24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion 350 } h 5 300 250 } h 4 200 } h 3 150 100 } h 2 50 } h 1 Bemerkungen: 1 2 3 4 5 F(x) sieht genauso aus! Einfach Maßstab auf der y-achse durch 383 teilen! 2 Häufigkeitsverteilungen 88

24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Man kann aus H(x) und F(x) die Häufigkeitsverteilungen h 1,,h k und f 1,,f k reproduzieren, zb ist h(a j ) = H(a j ) H(a j 1 ) die Häufigkeit von a j, beide Darstellungen enthalten also die volle Information über die Häufigkeitsverteilung Bei rein ordinalen Merkmalen ist die Skaleneinteilung auf der Abszisse (x-achse) völlig willkürlich Bei intervallskalierten Merkmalen ist diese Willkürlichkeit nicht mehr vorhanden kumulierte Häufigkeitsverteilungen werden fast nur bei intervallskalierten Merkmalen betrachtet 2 Häufigkeitsverteilungen 89

24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Empirische Verteilungsfunktion wenn alle Beobachtungen verschieden sind: F(x) 1 2 n 1 n 1 n x (1) x (2) 1 n Die empirische Verteilungsfunktion ist eine Treppenfunktion mit Sprüngen an den Stellen x 1,,x n Die Höhe aller Sprünge ist 1/n 2 Häufigkeitsverteilungen 90

Empirische Verteilungsfunktion bei gegebenen Häufigkeiten: 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion F(x) 1 f 1 + f 2 f 1 f 1 f 2 a 1 a 2 f 1 + f 2 Die empirische Verteilungsfunktion ist eine Treppenfunktion mit Sprüngen an den Stellen a 1 < < a k Die Höhe des Sprunges an der Stelle a i ist f i 2 Häufigkeitsverteilungen 91

Kumulierte Häufigkeiten bei gruppierten Merkmalen Beispiel: Punkteverteilung in den Klassen Klassen Häufigkeiten kumuliert [0, 355) 53 53 [355, 485) 78 131 [485, 645) 91 [645, 795) 96 [795, 90) 65 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion 2 Häufigkeitsverteilungen 92

Kumulierte Häufigkeiten bei gruppierten Merkmalen 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Werte der kumulierten Häufigkeitsverteilungen an den zu den Intervallgrenzen gehörenden Punkten sind klar Wie definiert man H(x) und F(x) zwischen diesen Punkten, was also ist zb H(40)? H ist nicht mehr notwendigerweise konstant zwischen den Klassengrenzen: 40 ist eine Ausprägung, die in den unklassierten Daten vorkam Dass 40 ein möglicher Wert ist, soll auch in der Grafik zum Ausdruck kommen H(40) ist aber aus den klassierten Daten nicht mehr rekonstruierbar Eigentlich weiß man nur, dass H(40) einen Wert in dem entsprechenden Rechteck annehmen kann lineare Interpolation : der unbekannte Verlauf zwischen zwei Punkten wird durch eine Gerade durch diese Punkte angenähert 2 Häufigkeitsverteilungen 93

24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion 400 300 200 100 35,5 48,5 64,5 79,5 90 Die Steigungen der Gradenstücke sind (im Allgemeinen) unterschiedlich! 2 Häufigkeitsverteilungen 94

Allgemeine Formulierung: 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion k Klassen [c 0,c 1 ),,[c j 1,c j ),,[c k 1,c k ] h j Häufigkeit in j-ter Klasse Verwende bei einem x aus der Klasse [c j 1,c j ) als Approximation für H(x) den aus der linearen Interpolation gewonnenen Punkt Geradengleichung: H(x) H(c j 1 ) + h j (c j c j 1 ) (x c j 1 ) H(40) 2 Häufigkeitsverteilungen 95