3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal oder ordinalskaliertes Merkmal mit k Ausprägungen A 1, A 2,..., A k. Beispiel: X = Berufsstatus, k = 5: A 1 = selbstständig A 2 = angestellt A 3 = Arbeiter A 4 = arbeitslos A 5 = Beamter An n Untersuchungseinheiten, diese seien von 1 StatSoz 50
bis n durchnummeriert, wurden die Merkmalsausprägungen x 1,..., x n beobachtetet. Absolute Häufigkeit (frequency): Anzahl der Untersuchungseinheiten, die Ausprägung A j besitzen, formal h j = Anzahl der Daten x i mit x i = A j j = 1,..., k (der Buchstabe j ist hier ein sogenannter Laufindex, der zwischen 1 und k variiert). Es gilt h 1 +... + h k = k j=1 h j = n Relative Häufigkeit (relative frequency): r j = h j /n, j = 1,..., k StatSoz 51
Es gilt 0 r j 1 und k j=1 r j = k j=1 h j n = 1 n k j=1 h j = n n = 1 Angabe relativer Häufigkeiten in Prozent (Bezeichnung %): Prozentuale Häufigkeiten (percentage): p j = 100 r j j = 1,..., k Es gilt 0 p j 100 und k p j = k 100 r j = 100 ( k r j ) = 100 j=1 j=1 j=1 }{{} =1 StatSoz 52
Definition: Die Zusammenstellung der Merkmalsausprägungen mit den dazugehörigen (absoluten, relativen oder prozentualen) Häufigkeiten heißt Häufigkeitsverteilung (frequency distribution) des betreffenden Merkmals. Bemerkung: Da die Häufigkeitsverteilung auf Daten basiert, nennt man sie auch empirische Verteilung. StatSoz 53
Eine Häufigkeitsverteilung lässt sich übersichtlich in einer Häufigkeitstabelle (frequency table) darstellen: Tabelle 3 1 Häufigkeitstabelle Ausprägung absolute relative prozentuale Häufigkeit Häufigkeit Häufigkeit A 1 h 1 r 1 p 1 % A 2. h 2. r 2. p 2 %. A k h k r k p r % Summe n 1 100% Aus einer Häufigkeitsverteilung lassen sich erste Einsichten in die Struktur der Daten gewinnen. Zum Beispiel lassen sich die folgenden Fragen beantworten: StatSoz 54
Wie groß ist der Stellenwert einer einzelnen Merkmalsausprägung (Frage nach der Gewichtigkeit einer Ausprägung)? Welche Ausprägung besitzt den höchsten Stellenwert, trat also am häufigsten auf? Wie stark unterscheiden sich einzelne Ausprägungen im Hinblick auf ihre zugehörigen Häufigkeiten? Bei ordinalen Daten können wir noch zusätzlich fragen: Treten kleine Ausprägungswerte in etwa so häufig auf wie große Ausprägungswerte? Treten die häufigsten Werte in der,,mitte, also bei den mittleren Ausprägungswerten auf? StatSoz 55
Beispiel: Eine Gemeinde besitze hinsichtlich des Merkmals Berufsstatus die folgende Häufigkeitsverteilung: Tabelle 3 2 Häufigkeitsverteilung des Merkmals Berufsstatus Ausprägung h j r j (gerundet) A 1 selbstständig 2 0.012 A 2 angestellt 12 0.073 A 3 Arbeiter 114 0.695 A 4 arbeitslos 30 0.183 A 5 Beamter 6 0.037 Summe 164 1 Graphische Darstellungen: Säulendiagramm,Stabdiagramm (bar chart): Zeigt absolute bzw. relative Häufigkeiten als Funktion der Merkmalsausprägungen; Abszisse: Ausprägungen, Ordinate: Häufigkeiten. StatSoz 56
Darstellungsmittel ist die Höhe der Säule, d.h. die Höhe repräsentiert die (absolute oder relative) Häufigkeit. Abbildung 3 1 Säulendiagramm zu Tabelle 3 2 Kreisdiagramm,Tortendiagramm (pie chart): Zeigt Kreissektoren als Funktion der Merkmalsausprägungen; besonders geeignet für nominale Daten. StatSoz 57
Winkel, der einen Kreisausschnitt einer Kategorie festlegt, ist proportional zur relativen Häufigkeit: r j = Winkel des Kreissektors für A j in Grad 360 also = α j 360 α j = r j 360, j = 1,..., k Es gilt dann α i α j = r i r j = h i h j für 1 i, j k StatSoz 58
Beispiel: Berufsstatus Daten aus Tabelle 3 2: j 1 2 3 4 5 α j 4.32 26.28 250.20 65.88 13.32 Abbildung 3 2 Kreisdiagramm zu Tabelle 3 2 StatSoz 59
3.2 Klassierung von Daten Sind bei einem Merkmal unendlich viele Ausprägungen möglich, so ist die Anfertigung einer Häufigkeitsverteilung kaum zu empfehlen (auch unter Berücksichtigung einer vorgegebenen Messgenauigkeit). Es entstehen bei der Angabe aller Häufigkeiten sehr viele Nullen, hervorgerufen durch nicht beobachtete Merkmalswerte. Beispiel 3.1 Man möchte etwas über das Pendlerverhalten einer Gemeinde wissen. Dazu wurden 30 Autopendler nach ihrer Fahrzeit (in Minuten) von der Wohnung zur Arbeitsstätte befragt. Die Daten der von 1 bis 30 durchnummerierten Individueen sind in der folgenden Tabelle zusammengefasst: StatSoz 60
Tabelle 3 3 Pendler Daten Individuum Nr. Fahrzeit Individuum Nr. Fahrzeit 1 5 16 42 2 12 17 31 3 14 18 31 4 21 19 26 5 22 20 24 6 36 21 11 7 21 22 19 8 6 23 9 9 77 24 44 10 12 25 21 11 21 26 17 12 16 27 26 13 10 28 21 14 5 29 24 15 11 30 23 geordnet: 5 5 6 9 10 11 11 12 12 14 16 17 19 21 21 21 21 21 22 23 24 24 26 26 31 31 36 42 44 77 Die Merkmalsausprägungen 1, 2, 3, 4, 7, 8, 13, 15, 18, 20, 25 usw. wurden nicht beobachtet. StatSoz 61
Idee : Einteilung aller (reellen) Stichprobenwerte x 1,..., x n in sogenannte Klassen. Bezüglich der Klassenbildung gibt es zwar keine allgemein gültigen, strengen Regeln, aber einige Grundsätze, die es zu beachten gilt: Regel 1: Die Klassengrenzen sollten einfache Zahlenwerte sein. Regel 2: Klassen dürfen sich nicht überschneiden. Regel 3: Die Klassen müssen alle Beobachtungen erfassen. Regel 4: Die Klassenbreiten sind konstant zu wählen. Regel 5: Die Anzahl der Klassen ist geeignet zu wählen. StatSoz 62
Die Klassen müssen so gewählt werden (Regel 2), dass die Zuordnung einer Beobachtung zu einer Klasse eindeutig ist. Dazu muss geklärt sein, welcher Klasse eine Beobachtung zugeordnet wird, die auf eine Klassengrenze fällt. Die Eindeutigkeit der Zuordnung wird dadurch erreicht, dass man die Klassen als halboffene Intervalle festlegt (z. B. links abgeschlossen und rechts offen). Die Klassenanzahl richtet sich nach dem Stichprobenumfang. Als Anhaltspunkt dient die Regel k n. Einige Zahlenwerte: n n mögliche Wahl von k 30 5.48 5,6 50 7.07 6,7,8 100 10 8,9,10,11 Bei k Klassen [c 0, c 1 ), [c 1, c 2 ),..., [c k 1, c k ) StatSoz 63
sind die Zahlen c 0,..., c k so gewählt, dass c 0 < c 1 <... < c k gilt. Per Definition gehört eine Beobachtung x i zur Klasse [c j 1, c j ), falls c j 1 x i < c j gilt. Man spricht von Klassierung (grouped data) auch von Klassenbildung bzw. Gruppierung der Daten. Damit Regel 3 erfüllt ist, muss die oberste Klassengrenze größer sein als die größte Beobachtung c k > x (n). Oder man wählt als oberste Intervallgrenze die größte Beobachtung, also c k = x (n), wobei dann diese Intervallgrenze zur Klasse gehören muss. Die unterste Klassengrenze c 0 muss mindestens so klein wie die kleinste Beobachtung, c 0 x (1) sein. StatSoz 64
Unter der absoluten Häufigkeit bezüglich der Klasse [c j 1, c j ) versteht man die Anzahl der Beobachtungen, die zur Klasse [c j 1, c j ) gehören, formal h j = Anzahl der x i mit c j 1 x i < c j j = 1,..., k. Für die absoluten Klassenhäufigkeiten gilt aufgrund der Regeln 2 und 3 k j=1 h j = n Die relative Häufigkeit bezüglich der Klasse [c j 1, c j ) ist r j = h j n, j = 1,..., k StatSoz 65
Für die relativen Klassenhäufigkeiten gilt k r j = 1 n k h j = 1 j=1 j=1 Diese Häufigkeiten geben also an, wie sich die Stichprobenwerte auf die einzelnen Klassen verteilen. Bei Klassierung der Daten geht man davon aus, dass sich alle Beobachtungswerte einer Klasse [c j 1, c j ) gleichmäßig über die Klasse verteilen (Gleichverteilung innerhalb der Klasse), so dass die Klassenmitte c j 1 + c j 2 Repräsentant dieser Klasse ist. StatSoz 66
Fortsetzung von Bsp. 3.1: Pendler Daten Tabelle 3 4 Häufigkeitsverteilung zu Tabelle 3 3 Histogramm Klasse h j r j gerundet [0,10) 4 0.1333 [10,20) 9 0.3 [20,30) 11 0.3667 [30,40) 3 0.1 [40,50) 2 0.0667 [50,60) 0 0 [60,70) 0 0 [70,80) 1 0.033 Die graphische Darstellung der (absoluten oder relativen) Klassenhäufigkeiten erfolgt durch ein Histogramm (histogram). Dieses zeigt (absolute oder relative) Klassenhäufigkeiten als Funktion der Klassen. StatSoz 67
Über den Klassen werden Rechtecke (Balken) abgetragen, wobei die Höhen der Rechtecke die (absoluten oder relativen) Klassenhäufigkeiten wiedergeben (Die Höhe als Darstellungsmittel ist nur erlaubt, wenn Regel 4 erfüllt ist!!!) Abbildung 3 3 Histogramm zu Tabelle 3 4 StatSoz 68
Vorsicht bei ungleichen Klassenbreiten! Das Darstellungsmittel ist dann die Fläche des Rechtecks, d.h. die Fläche (nicht die Höhe!) entspricht der Häufigkeit (sonst kann es zu Fehlinterpretationen kommen!). Als Höhe des Rechtecks wählt man die Häufigkeit, dividiert durch die Klassenbreite, also h j c j c j 1 bzw. r j c j c j 1, j = 1,..., k Die Fläche F j des Rechtecks (Höhe Breite) über der Klasse [c j 1, c j ) ist dann h j bzw. r j. StatSoz 69
3.3 Verteilungsverläufe Gleichverteilung (uniform distribution) Alle Merkmalsausprägungen treten (annähernd) gleich häufig auf. Abbildung 3 4 Beispiel für eine Gleichverteilung StatSoz 70
Linksschiefe Verteilung (negatively skewed) Verteilungsfläche fällt nach links langsamer ab als nach rechts; Linksschiefe=Rechtssteilheit. Abbildung 3 5 Beispiel für eine linksschiefe Verteilung StatSoz 71
Rechtsschiefe Verteilung (positively skewed) Verteilungsfläche fällt nach rechts langsamer ab als nach links (kommt in der Praxis häufiger vor); Rechtsschiefe=Linkssteilheit. Abbildung 3 6 Beispiel für eine rechtsschiefe Verteilung StatSoz 72
Symmetrische Verteilung Weder rechts noch linksschief; es gibt eine Symmetrieachse, sodass sich die rechte Verteilungsfläche spiegelbildlich zur linken Verteilungsfläche verhält. Abbildung 3 7 Beispiel für eine symmetrische Verteilung mit angepasster Normalverteilung StatSoz 73
Multimodale Verteilung unimodal=eingipflig bimodal=zweigipflig multimodal=mehrgipflig Die Verteilungen in den Abbildungen 3 5, 3 6 und 3 7 sind unimodal. Abbildung 3 8 Beispiel für eine bimodale Verteilung Bemerkung: Multimodalität deutet auf eine geschichtete Stichprobe (stratified sample) hin. StatSoz 74
Beachte: Bei relativen Häufigkeiten gilt stets Gesamtfläche der Balken = 1 bzw. bei Angaben in Prozent Gesamtfläche der Balken = 100 Referenzverteilungen Keine empirische Verteilung; Referenzverteilungen sind theoretische Verteilungen, deren Verlaufsformen durch mathematische Funktionen beschrieben werden. Wichtige Beispiele: StatSoz 75
Normalverteilung (Gaußsche Glockenkurve): ϕ(x) = c e x2 /2, x R Abbildung 3 9 Die Dichte ϕ Diese Verteilung ist unimodal und symmetrisch um die y Achse: ϕ(x) = ϕ( x). Die Konstante c wird so gewählt, dass ϕ(x) dx = 1 gilt. Lösung: c = 1 2π StatSoz 76
Chi Quadrat Verteilung f n (x) = { 0, x 0 c n e x/2 x n/2 1, x > 0 n N. Dabei wird die Konstante c n so gewählt, dass f n (x) dx = 1 gilt. Die Funktion f n heißt Dichte der χ 2 Verteilung mit n Freiheitsgraden. Abbildung 3 10 Die Dichten f 4 (links) und f 8 Diese Verteilungen sind unimodal und rechtsschief. StatSoz 77