a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

Transkript

1 2 Häufigkeitsverteilungen

2 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 = X(ω 1 ),..., x n = X(ω n ) Also x i = X(ω i ), d.h. x i ist der Wert der i-ten Person x 1,..., x n werden auch als Urliste oder Rohdaten und n als Stichprobenumfang bezeichnet. Die verschiedenen Merkmalsausprägungen werden mit a 1,..., a k bezeichnet. Bemerkungen: Werden mehr Beobachtungen erhoben, so ändert sich n, aber i.a. k nicht. Meist bezeichnet a 1,..., a k die beobachteten verschiedenen Merkmalsausprägungen, manchmal aber auch die prinzipiell möglichen Merkmalsausprägungen. Für mindestens ordinalskalierte Merkmale seien die Ausprägungen geordnet, d.h. a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

3 2.0 Grundbegriffe Beispiel: Häufigkeitsverteilung der Schichtzugehörigkeit einer Gesamtheit Ω von acht Personen Ω = {ω 1,..., ω 8 }. Kategorien: Unterschicht, Mittelschicht, Oberschicht. 2 Häufigkeitsverteilungen 53

4 Tabelle: 2.0 Grundbegriffe Person ω X(ω) ω 1 M x 1 ω 2 M x 2 ω 3 O x 3 ω 4 M x 4 ω 5 M x 5 ω 6 M x 6 n = k = a 1 = a 2 = a 3 = ω 7 U x 7 ω 8 O x 8 2 Häufigkeitsverteilungen 54

5 2.1 Häufigkeiten 2.1 Häufigkeiten Absolute Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j = 1,..., k, bezeichnen h j und h(a j ) die absolute Häufigkeit der Ausprägung a j, d.h. die Anzahl der x i aus x 1,..., x n mit x i = a j. Formal: h j := h(a j ) := {ω Ω X(ω) = a j }. M bezeichnet die Mächtigkeit der Menge M := bedeutet wird definiert als. h 1, h 2,..., h k (als Ganzes) nennt man die absolute Häufigkeitsverteilung. Es gilt k h j = n. j=1 2 Häufigkeitsverteilungen 55

6 2.1 Häufigkeiten Erste Darstellung von Häufigkeiten anhand einer Strichliste: Relative Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j = 1,..., k, bezeichnen f j und f(a j ) die relative Häufigkeit der Ausprägung a j, also f j := f(a j ) := h j n. f 1, f 2,..., f k nennt man die relative Häufigkeitsverteilung. Es gilt k f j = 1. j=1 2 Häufigkeitsverteilungen 56

7 Häufigkeitstabelle: 2.1 Häufigkeiten Allgemeine Form: Im Beispiel: j a j h j f j 1 a 1 h 1 f 1 2 a 2 h 2 f 2 3 a 3 h 3 f j a j h j f j k a k h k f k n 1 2 Häufigkeitsverteilungen 57

8 2.1 Häufigkeiten Insbesondere bei stetigen oder quasi-stetigen Merkmalen ist es häufig zweckmäßig, die Merkmalsausprägungen zu klassieren / zu gruppieren. gruppierte Häufigkeitsverteilung. Die gruppierte Häufigkeitsverteilung enthält nur die Häufigkeiten der Ausprägungen in den einzelnen Gruppen, die einzelnen a i entsprechen in diesem Fall Intervallen. Achtung: Die Gruppierung bedeutet einen Informationsverlust 2 Häufigkeitsverteilungen 58

9 Beispiel Mietspiegel: Merkmal = Nettomieten 2.1 Häufigkeiten Urliste für n=26 Wohnungen, bereits der Größe nach geordnet: Klasse j h j f j 100 < < < < < < Häufigkeitsverteilungen 59

10 2.2 Grafische Darstellung 2.2 Grafische Darstellung Stabdiagramm: Trage über a 1,..., a k jeweils einen zur x-achse senkrecht stehenden Stab mit Höhe h 1,..., h k (oder f 1,..., f k ) ab. Horizontal: Ausprägungen der Variablen (a 1, a 2,..., a k ) Vertikal: absolute / relative Häufigkeiten (h 1,..., h k bzw. f 1,..., f k ) Vorausgesetztes Skalenniveau: mindestens Nominalskala 2 Häufigkeitsverteilungen 60

11 2.2 Grafische Darstellung Säulendiagramm: Ersetze die Stäbe durch Rechtecke (Säulen) gleicher Breite. Balkendiagramm: Säulendiagramm mit vertauschten Achsen Vorausgesetztes Skalenniveau: mindestens Nominalskala 2 Häufigkeitsverteilungen 61

12 2.2 Grafische Darstellung Kreisdiagramm ( Tortendiagramm : Der Kreis wird in Segmente unterteilt, denen jeweils eine Ausprägung (oder Klasse) zugeordnet wird. Der jeweilige Winkel ist proportional zur Häufigkeit. dadurch ist auch die Fläche proportional zur Häufigkeit: Prinzip der Flächentreue. Für Stab-, Säulen- und Balkendiagramm gilt dagegen das Prinzip der Längentreue, d.h. die Länge der Stäbe / Säulen / Balken ist proportional zur Häufigkeit. Berechnung: Winkel des Kreissektors j = relative Häufigkeit 360 Häufigkeit f 1 = f 2 = Winkel Vorausgesetztes Skalenniveau: mindestens Nominalskala, f 3 = 2 Häufigkeitsverteilungen 62

13 Bemerkungen: 2.2 Grafische Darstellung Alle bisherigen Grafiken sind nur sinnvoll für kleine Kategorienzahlen k. Für ordinalskalierte Merkmale lässt sich mit Stab- / Balken- / Säulendiagramm auch die Ordnung der Kategorien darstellen. Durch Schichtung können die Grafiken auch zum Vergleich von Häufigkeitsverteilungen eingesetzt werden. 2 Häufigkeitsverteilungen 63

14 2.2 Grafische Darstellung Stamm-Blatt-Diagramm: Semigrafisches Verfahren in Analogie zu Strichlisten Erklärung anhand des Mietspiegelbeispiels: Stamm: Blatt: führende Ziffern nächste Ziffer (evtl. gerundet) 2 Häufigkeitsverteilungen 64

15 Prinzipielles Vorgehen: 2.2 Grafische Darstellung 1. Suche den kleinsten und größten Wert der Urliste und zerlege den Wertebereich in Intervalle der Breite 10 q (Vielfache von 10, q ist geeignet zu wählen). 2. Runde die Daten auf die führenden q Stellen Bestimme den Stamm aus den führenden Ziffern: 2 Häufigkeitsverteilungen 65

16 4. Bestimme die Blätter aus der folgenden Ziffer: 2.2 Grafische Darstellung Trage für jeden Wert des Stamms die zugehörigen Blätter rechts von einer vertikalen Linie der Größe nach geordnet ab: Vorteile: Implizierte Gruppierung ohne viel Information zu verlieren, da die Darstellung bis auf Rundungen alle Werte der Urliste enthält. Ermöglicht guten Einblick in Datenstruktur für explorative Analysen, z.b. auch Erkennen von Ausreißern. Nachteile: Wird bei großen Datensätzen schnell unübersichtlich. 2 Häufigkeitsverteilungen 66

17 Lässt sich oft nicht mehr gut auf Papier präsentieren. 2.2 Grafische Darstellung 2 Häufigkeitsverteilungen 67

18 2.3 Histogramm 2.3 Histogramm Ziel: Automatische Erstellung einer sinnvollen Häufigkeitsdarstellung für metrische Merkmale (ohne manuelle Kategorisierung). Gegeben: Urliste x 1,..., x n eines (mindestens) intervallskalierten Merkmals. Wähle c 0 min i=1,...,n (x i ) und c k max i=1,...,n (x i ) Bilde Klasseneinteilung [c 0, c 1 ), [c 1, c 2 ),..., [c k 1, c k ]. Für jede Klasse [c j 1, c j ), j = 1,..., k sei d j = c j c j 1 die Breite des j-ten Intervalls und h j bzw. f j die absolute bzw. relative Häufigkeit in der j-ten Klasse. Zeichne über jedem Intervall ein Rechteck der Breite d j so, dass die Fläche proportional zu f j und h j ist. 2 Häufigkeitsverteilungen 68

19 2.3 Histogramm Achtung: Das Histogramm ist flächentreu nicht längentreu! Es gilt Fläche = Breite Höhe und damit Höhe = Fläche / Breite. Also ist die Höhe der Rechtecke proportional zu und nicht zu f j bzw. h j. f j d j bzw. Ein Histogramm unterscheidet sich damit substantiell von einem Säulendiagramm! Man muss also bei einer Grafik immer angeben, ob es sich um ein Säulendiagramm oder ein Histogramm handelt. h j d j, 2 Häufigkeitsverteilungen 69

20 Beispiel: Punkteverteilung in der Klausur 2.3 Histogramm h j d j Klassen Hfgkt. Breite Höhe [0, 35.5) 53 [35.5, 48.5) 78 [48.5, 64.5) 91 [64.5, 79.5) 96 [79.5, 90) Häufigkeitsverteilungen 70

21 Vorteile des Histogramms: 2.3 Histogramm Information der metrischen Skala (Differenzen) voll ausgenutzt etwas weniger empfindlich gegenüber Klasseneinteilung, da sich Häufigkeiten in der Fläche widerspiegeln 2 Häufigkeitsverteilungen 71

22 Tücken des Histogramms: 2.3 Histogramm 2 Häufigkeitsverteilungen 72

23 2.3 Histogramm 2 Häufigkeitsverteilungen 73

24 Typen von Häufigkeitsverteilungen 2.3 Histogramm Histogramme eignen sich gut zur Beurteilung der Form von Häufigkeitsverteilungen Unimodale und multimodale Verteilungen: Unimodal Multimodal Multimodal Häufigkeitsverteilungen 74

25 2.3 Histogramm 2 Häufigkeitsverteilungen 75

26 Symmetrie und Schiefe symmetrisch: linkssteil (rechtsschief): rechtssteil (linksschief): 2.3 Histogramm Rechte und linke Hälfte der Verteilung sind annähernd zueinander spiegelbildlich. Verteilung fällt nach links deutlich steiler und nach rechts langsamer ab. Verteilung fällt nach rechts deutlich steiler und nach links langsamer ab (linkssteil) (symmetrisch) (rechtssteil) 2 Häufigkeitsverteilungen 76

27 Andere typische Verteilungsformen: 2.3 Histogramm U-förmig, J-förmig. 2 Häufigkeitsverteilungen 77

28 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Oft sind kumulierte Häufigkeiten von Interesse, also eine Antwort auf die Frage Wieviel Prozent der Daten über-/unterschreiten einen bestimmten Wert? Wieviel Prozent der Studenten arbeiten bis zu 8 Stunden pro Woche neben dem Studium? Wieviel Prozent der Studenten arbeiten mehr als 8 Stunden pro Woche neben dem Studium? Wieviel Prozent der Studenten haben mindestens 35.5 Punkte, also die Klausur bestanden? Voraussetzung: Mindestens ordinalskaliertes Merkmal. 2 Häufigkeitsverteilungen 78

29 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Gegeben sei die Urliste x 1,..., x n eines (mindestens) ordinalskalierten Merkmals mit der Häufigkeitsverteilung h 1,..., h k bzw. f 1,..., f k. Dann heißt H(x) := Anzahl der Werte x i mit x i x = h(a j ) = j:a j x absolute kumulierte Häufigkeitsverteilung und j:a j x h j F (x) := Anteil der Werte x i mit x i x = H(x)/n = f(a j ) = 1 n j:a j x j:a j x h(a j ) relative kumulierte Häufigkeitsverteilung bzw. empirische Verteilungsfunktion. 2 Häufigkeitsverteilungen 79

30 Die Schreibweise H(x) := j:a j x h(a j ) ist eine Abkürzung für 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion H(x) := j J x h(a j ) mit J x := {j a j x}, d.h. für jedes x wird die Summe über alle j mit der Eigenschaft betrachtet, dass die zugehörigen Werte a j kleiner gleich x sind (analog für F (x)). Beispiel: Klausurnoten (zur Vereinfachung a j = j) Note: a j h(a j ) H(a j ) f(a j ) F (a j ) a 1 = a 2 = a 3 = a 4 = a 5 = Häufigkeitsverteilungen 80

31 H(1) = H(1.2) = h(a j ) = h(a 1 ) = 65 j:a j 1 j:a j 1.2 h(a j ) = h(a 1 ) = Kumulierte Häufigkeiten und empirische Verteilungsfunktion H(1.4) = = = Zwischen den Ausprägungen ist H(x) konstant, also H(x) = H(a j ) für alle x [a j, a j+1 ) und j = 1,..., k. Es reicht also, H(x) an den tatsächlichen Ausprägungen a j zu berechnen. 2 Häufigkeitsverteilungen 81

32 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Häufigkeitsverteilungen 82

33 Bemerkungen: 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion F (x) sieht genauso aus; einfach den Maßstab auf der Ordinate (y-achse) durch 383 teilen. Man kann aus H(x) und F (x) die Häufigkeitsverteilungen h 1,..., h k und f 1,..., f k reproduzieren, z.b. ist h(a j ) = H(a j ) H(a j 1 ) die Häufigkeit von a j. Bei rein ordinalen Merkmalen ist die Skaleneinteilung auf der Abszisse (x-achse) völlig willkürlich; man könnte obige Funktion z.b. genauso gut wie folgt zeichnen: Bei intervallskalierten Merkmalen ist diese Willkürlichkeit nicht mehr vorhanden kumulierte Häufigkeitsverteilungen werden fast nur bei intervallskalierten Merkmalen betrachtet. 2 Häufigkeitsverteilungen 83

34 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Empirische Verteilungsfunktion wenn alle Beobachtungen verschieden sind: 2 Häufigkeitsverteilungen 84

35 Empirische Verteilungsfunktion bei gegebenen Häufigkeiten: 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion 2 Häufigkeitsverteilungen 85

36 Kumulierte Häufigkeiten bei gruppierten Merkmalen 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Beispiel: Punkteverteilung in den Klassen Klassen Häufigkeiten kumuliert [0, 35.5) 53 [35.5, 48.5) 78 [48.5, 64.5) 91 [64.5, 79.5) 96 [79.5, 90) 65 Bei gruppierten, intervallskalierten Merkmalen tritt folgendes zusätzliches Problem auf: Klar sind die Werte der kumulierten Häufigkeitsverteilungen an den zu den Intervallgrenzen gehörenden Punkten. Aber wie definiert man H(x) und F (x) zwischen diesen Punkten, was also ist etwa H(40)? 2 Häufigkeitsverteilungen 86

37 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Jetzt ist H nicht mehr notwendigerweise konstant zwischen den Klassengrenzen. Beispielsweise ist 40 ja eine Ausprägung, die durchaus in den unklassierten Daten vorkam, und bei neuen Beobachtungen wieder vorkommen kann. H(40) ist aber aus den klassierten Daten nicht mehr rekonstruierbar. Eigentlich weiß man nur, dass H(40) einen Wert in dem entsprechenden Rechteck annehmen kann. Lineare Interpolation. 2 Häufigkeitsverteilungen 87

38 Allgemeine Formulierung: 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion k Klassen [c 0, c 1 ),..., [c j 1, c j ),..., [c k 1, c k ],h j Häufigkeit in j-ter Klasse. Verwende bei einem x aus der Klasse [c j 1, c j ) als Approximation für H(x) folgenden, aus der linearen Interpolation gewonnenen Punkt: 2 Häufigkeitsverteilungen 88

39 Geradengleichung: 2.4 Kumulierte Häufigkeiten und empirische Verteilungsfunktion H(x) H(c j 1 ) + h j (c j c j 1 ) (x c j 1 ) H(40) 2 Häufigkeitsverteilungen 89