3 Häufigkeitsverteilungen

Transkript

1 3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal oder ordinalskaliertes Merkmal mit k Ausprägungen A 1, A 2,..., A k. Beispiel: X = Blutgruppe mit den k = 4 Ausprägungen A 1 = 0 A 2 = A A 3 = B A 4 = AB StatBio 50

2 An n Untersuchungseinheiten, diese seien von 1 bis n durchnummeriert, wurden die Merkmalsausprägungen x 1,..., x n beobachtetet. Absolute Häufigkeit (frequency): Anzahl der Untersuchungseinheiten, die Ausprägung A j besitzen, formal h j = Anzahl der Daten x i mit x i = A j j = 1,..., k (der Buchstabe j ist hier ein sogenannter Laufindex, der zwischen 1 und k variiert). Es gilt h h k = k j=1 h j = n Relative Häufigkeit (relative frequency): r j = h j /n, j = 1,..., k StatBio 51

3 Es gilt 0 r j 1 und k j=1 r j = k j=1 h j n = 1 n k j=1 h j = n n = 1 Angabe relativer Häufigkeiten in Prozent (Bezeichnung %): Prozentuale Häufigkeiten (percentage): p j = 100 r j j = 1,..., k Es gilt 0 p j 100 und k p j = k 100 r j = 100 ( k r j ) = 100 j=1 j=1 j=1 }{{} =1 StatBio 52

4 Definition: Die Zusammenstellung der Merkmalsausprägungen mit den dazugehörigen (absoluten, relativen oder prozentualen) Häufigkeiten heißt Häufigkeitsverteilung (frequency distribution) des betreffenden Merkmals. Bemerkung: Da die Häufigkeitsverteilung auf Daten basiert, nennt man sie auch empirische Verteilung. Eine Häufigkeitsverteilung lässt sich übersichtlich in einer Häufigkeitstabelle (frequency table) darstellen: StatBio 53

5 Tabelle 3 1 Häufigkeitstabelle Ausprägung absolute relative prozentuale Häufigkeit Häufigkeit Häufigkeit A 1 h 1 r 1 p 1 % A 2. h 2. r 2. p 2 %. A k h k r k p r % Summe n 1 100% Aus einer Häufigkeitsverteilung lassen sich erste Einsichten in die Struktur der Daten gewinnen. Zum Beispiel lassen sich die folgenden Fragen beantworten: Wie groß ist der Stellenwert einer einzelnen Merkmalsausprägung (Frage nach der Gewichtigkeit einer Ausprägung)? Welche Ausprägung besitzt den höchsten Stellenwert, trat also am häufigsten auf? StatBio 54

6 Wie stark unterscheiden sich einzelne Ausprägungen im Hinblick auf ihre zugehörigen Häufigkeiten? Bei ordinalen Daten können wir noch zusätzlich fragen: Treten kleine Ausprägungswerte in etwa so häufig auf wie große Ausprägungswerte? Treten die häufigsten Werte in der,,mitte, also bei den mittleren Ausprägungswerten auf? Beispiel 3.1: An 69 Personen wurde die Blutgruppe festgestellt. Es ergab sich die folgende Häufigkeitsverteilung: Tabelle 3 2 Häufigkeitsverteilung des Merkmals Blutgruppe Blutgruppe A j h j r j A 1 = A 2 = A A 3 = B A 4 = AB Summe 69 1 StatBio 55

7 Graphische Darstellungen: Säulendiagramm,Stabdiagramm (bar chart): Zeigt absolute bzw. relative Häufigkeiten als Funktion der Merkmalsausprägungen; Abszisse: Ausprägungen, Ordinate: Häufigkeiten. Darstellungsmittel ist die Höhe der Säule, d.h. die Höhe repräsentiert die (absolute oder relative) Häufigkeit. Abbildung 3 1 Säulendiagramm zu Tabelle 3 2 StatBio 56

8 Kreisdiagramm,Tortendiagramm (pie chart): Zeigt Kreissektoren als Funktion der Merkmalsausprägungen; besonders geeignet für nominale Daten Winkel, der einen Kreisausschnitt einer Kategorie festlegt, ist proportional zur relativen Häufigkeit: r j = Winkel des Kreissektors für A j in Grad 360 also = α j 360 α j = r j 360, j = 1,..., k Es gilt dann α i α j = r i r j = h i h j für 1 i, j k StatBio 57

9 Fortsetzung von Bsp. 3.1: (Blutgruppen Daten aus Tabelle 3 2) Gruppe 0 A B AB α j Abbildung 3 2 Kreisdiagramm zu Tabelle 3 2 StatBio 58

10 3.2 Klassierung von Daten Sind bei einem Merkmal unendlich viele Ausprägungen möglich, so ist die Anfertigung einer Häufigkeitsverteilung kaum zu empfehlen (auch unter Berücksichtigung einer vorgegebenen Messgenauigkeit). Es entstehen bei der Angabe aller Häufigkeiten sehr viele Nullen, hervorgerufen durch nicht beobachtete Merkmalswerte. Idee: Einteilung aller (reellen) Stichprobenwerte x 1,..., x n in sogenannte Klassen. Bezüglich der Klassenbildung gibt es zwar keine allgemein gültigen, strengen Regeln, aber einige Grundsätze, die es zu beachten gilt: Regel 1: Die Klassengrenzen sollten einfache Zahlenwerte sein. Regel 2: Klassen dürfen sich nicht überschneiden. StatBio 59

11 Regel 3: Die Klassen müssen alle Beobachtungen erfassen. Regel 4: Die Klassenbreiten sind konstant zu wählen. Regel 5: Die Anzahl der Klassen ist geeignet zu wählen. Die Klassen müssen so gewählt werden (Regel 2), dass die Zuordnung einer Beobachtung zu einer Klasse eindeutig ist. Dazu muss geklärt sein, welcher Klasse eine Beobachtung zugeordnet wird, die auf eine Klassengrenze fällt. Die Eindeutigkeit der Zuordnung wird dadurch erreicht, dass man die Klassen als halboffene Intervalle festlegt (z. B. links offen und rechts abgeschlossen). Die Klassenanzahl richtet sich nach dem Stichprobenumfang. Als Anhaltspunkt dient die Regel k n. Einige Zahlenwerte: StatBio 60

12 n n mögliche Wahl von k , ,7, ,9,10,11 Bei k Klassen (c 0, c 1 ], (c 1, c 2 ],..., (c k 1, c k ] sind die Zahlen c 0,..., c k sind so gewählt, dass c 0 < c 1 <... < c k gilt. Per Definition gehört eine Beobachtung x i zur Klasse (c j 1, c j ], falls c j 1 < x i c j gilt. Man spricht von Klassierung (grouped data) auch von Klassenbildung bzw. Gruppierung der Daten. StatBio 61

13 Damit Regel 3 erfüllt ist, muss die unterste Klassengrenze kleiner sein als die kleinste Beobachtung: c 0 < x (1). Oder man wählt als untere Intervallgrenze die kleinste Beobachtung, also c 0 = x (1), wobei dann diese Intervallgrenze zur Klasse gehören muss. Die oberste Klassengrenze c k muss mindestens so groß sein wie die größte Beobachtung: c k x (n). Unter der absoluten Häufigkeit bezüglich der Klasse (c j 1, c j ] versteht man die Anzahl der Beobachtungen, die zur Klasse (c j 1, c j ] gehören, formal h j = Anzahl der x i mit c j 1 < x i c j j = 1,..., k. Für die absoluten Klassenhäufigkeiten gilt aufgrund der Regeln 2 und 3 k j=1 h j = n StatBio 62

14 Die relative Häufigkeit bezüglich der Klasse (c j 1, c j ] ist r j = h j n, j = 1,..., k Für die relativen Klassenhäufigkeiten gilt k r j = 1 n k h j = 1 j=1 j=1 Diese Häufigkeiten geben also an, wie sich die Stichprobenwerte auf die einzelnen Klassen verteilen. Bei Klassierung der Daten geht man davon aus, dass sich alle Beobachtungswerte einer Klasse (c j 1, c j ] gleichmäßig über die Klasse verteilen (Gleichverteilung innerhalb der Klasse), so dass die Klassenmitte c j 1 + c j 2 StatBio 63

15 Repräsentant dieser Klasse ist. Fortsetzung von Bsp. 2.1: Plasma Daten Tabelle 3 3 Häufigkeitsverteilung der Plasma Daten aus Tabelle 2 5 Klasse h j r j [3.20,3.40] (3.40,3.60] (3.60,3.80] (3.80,4.00] (4.00,4.20] (4.20,4.40] 0 0 (4.40,4.60 ] Histogramm Die graphische Darstellung der (absoluten oder relativen) Klassenhäufigkeiten erfolgt durch ein Histogramm (histogram). StatBio 64

16 Dieses zeigt (absolute oder relative) Klassenhäufigkeiten als Funktion der Klassen. Über den Klassen werden Rechtecke (Balken) abgetragen, wobei die Höhen der Rechtecke die (absoluten oder relativen) Klassenhäufigkeiten wiedergeben. (Die Höhe als Darstellungsmittel ist nur erlaubt, wenn Regel 4 erfüllt ist!!!) Abbildung 3 3 Histogramm zu Tabelle 3 3 StatBio 65

17 Vorsicht bei ungleichen Klassenbreiten! Das Darstellungsmittel ist dann die Fläche des Rechtecks, d.h. die Fläche (nicht die Höhe!) entspricht der Häufigkeit (sonst kann es zu Fehlinterpretationen kommen!). Als Höhe des Rechtecks wählt man die Häufigkeit, dividiert durch die Klassenbreite, also h j c j c j 1 bzw. r j c j c j 1, j = 1,..., k Die Fläche F j des Rechtecks (Höhe Breite) über der Klasse (c j 1, c j ] ist dann h j bzw. r j. StatBio 66

18 3.3 Verteilungsverläufe Gleichverteilung (uniform distribution) Alle Merkmalsausprägungen treten (annähernd) gleich häufig auf. Abbildung 3 4 Beispiel für eine Gleichverteilung StatBio 67

19 Linksschiefe Verteilung (negatively skewed) Verteilungsfläche fällt nach links langsamer ab als nach rechts; Linksschiefe=Rechtssteilheit. Abbildung 3 5 Beispiel für eine linksschiefe Verteilung StatBio 68

20 Rechtsschiefe Verteilung (positively skewed) Verteilungsfläche fällt nach rechts langsamer ab als nach links (kommt in der Praxis häufiger vor); Rechtsschiefe=Linkssteilheit. Abbildung 3 6 Beispiel für eine rechtsschiefe Verteilung StatBio 69

21 Symmetrische Verteilung Weder rechts noch linksschief; es gibt eine Symmetrieachse, sodass sich die rechte Verteilungsfläche spiegelbildlich zur linken Verteilungsfläche verhält. Abbildung 3 7 Beispiel für eine symmetrische Verteilung mit angepasster Normalverteilung StatBio 70

22 Multimodale Verteilung unimodal=eingipflig bimodal=zweigipflig multimodal=mehrgipflig Die Verteilungen in den Abbildungen 3 5, 3 6 und 3 7 sind unimodal. Abbildung 3 8 Beispiel für eine bimodale Verteilung Bemerkung: Multimodalität deutet auf eine geschichtete Stichprobe (stratified sample) hin. StatBio 71

23 Beachte: Bei relativen Häufigkeiten gilt stets Gesamtfläche der Balken = 1 bzw. bei Angaben in Prozent Gesamtfläche der Balken = 100 Referenzverteilungen Keine empirische Verteilung; Referenzverteilungen sind theoretische Verteilungen, deren Verlaufsformen durch mathematische Funktionen beschrieben werden. Wichtige Beispiele: StatBio 72

24 Normalverteilung (Gaußsche Glockenkurve): ϕ(x) = c e x2 /2 Abbildung 3 9 Die Dichte ϕ Diese Verteilung ist unimodal und symmetrisch um die y Achse: ϕ(x) = ϕ( x). Die Konstante c wird so gewählt, dass ϕ(x) dx = 1 gilt. Lösung: c = 1 2π StatBio 73

25 Chi Quadrat Verteilung f n (x) = { 0, x 0 c n e x/2 x n/2 1, x > 0 n N. Dabei wird die Konstante c n so gewählt, dass f n (x) dx = 1 gilt. Die Funktion f n heißt Dichte der χ 2 Verteilung mit n Freiheitsgraden. Abbildung 3 10 Die Dichten f 4 (links) und f 8 Diese Verteilungen sind unimodal und rechtsschief. StatBio 74