Kapitel 2. Häufigkeitsverteilungen

Transkript

1 6

2 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω n ) Also x i = X(ω i ), dh x i ist der Wert der i-ten Person x,, x n werden auch als Urliste oder Rohdaten und n als Stichprobenumfang bezeichnet Die verschiedenen Merkmalsausprägungen werden mit a,, a k bezeichnet Bemerkungen: Werden mehr Beobachtungen erhoben, so ändert sich n, aber ia k nicht Meist bezeichnet a,, a k die beobachteten verschiedenen Merkmalsausprägungen, manchmal aber auch die prinzipiell möglichen Merkmalsausprägungen Für mindestens ordinalskalierte Merkmale seien die Ausprägungen geordnet, dh a < a 2 < < a k Beispiel: Häufigkeitsverteilung der Schichtzugehörigkeit einer Gesamtheit Ω von acht Personen Ω = {ω,, ω 8 } Kategorien: Unterschicht, Mittelschicht, Oberschicht Ordinales Merkmal X : Ω W ω X(ω) W = {U, M, O} für Unterschicht Mittelschicht Oberschicht oder durch Zahlen ausgedrückt: W = {, 0, } 7

3 8 2 Häufigkeiten X(ω) = Tabelle: ω Unterschicht 0 falls ω Mittelschicht ω Oberschicht Person ω X(ω) ω M 0 x ω 2 M 0 x 2 ω 3 O x 3 ω 4 M 0 x 4 ω 5 M 0 x 5 ω 6 M 0 x 6 n = 8 k = 3 a = a 2 = 0 a 3 = Also: ω 7 U - x 7 ω 8 O x 8 n: Anzahl der Einheiten k: Anzahl der verschiedenen Werte von X 2 Häufigkeiten Absolute Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j =,, k, bezeichnen h j und h(a j ) die absolute Häufigkeit der Ausprägung a j, dh die Anzahl der x i aus x,, x n mit x i = a j Formal: h j := h(a j ) := {ω Ω X(ω) = a j } M bezeichnet die Mächtigkeit der Menge M := bedeutet wird definiert als h, h 2,, h k (als Ganzes) nennt man die absolute Häufigkeitsverteilung Es gilt k h j = n Erste Darstellung von Häufigkeiten anhand einer Strichliste: j= Strichliste - 0 8

4 Kapitel 2 Häufigkeitsverteilungen 9 Relative Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j =,, k, bezeichnen f j und f(a j ) die relative Häufigkeit der Ausprägung a j, also f j := f(a j ) := h j n f, f 2,, f k nennt man die relative Häufigkeitsverteilung Es gilt k f j = j= Häufigkeitstabelle: Allgemeine Form: Im Beispiel: j a j h j f j a h f 2 a 2 h 2 f 2 3 a 3 h 3 f 3 j a j h j f j k a k h k f k n Insbesondere bei stetigen oder quasi-stetigen Merkmalen ist es häufig zweckmäßig, die Merkmalsausprägungen zu klassieren / zu gruppieren gruppierte Häufigkeitsverteilung Die gruppierte Häufigkeitsverteilung enthält nur die Häufigkeiten der Ausprägungen in den einzelnen Gruppen, die einzelnen a i entsprechen in diesem Fall Intervallen Achtung: Die Gruppierung bedeutet einen Informationsverlust und sollte deshalb in der Regel nur zur Visualisierung eingesetzt werden (und nicht in den statistischen Analysen)! Benutzt nur noch Nominal- / Ordinalskala statt Verhältnisskala Beispiel Mietspiegel: Merkmal = Nettomieten Urliste für n=26 Wohnungen, bereits der Größe nach geordnet:

5 20 22 Grafische Darstellung Klasse j h j f j 00 < /26 = < < < < < Grafische Darstellung Stabdiagramm: Trage über a,, a k jeweils einen zur x-achse senkrecht stehenden Stab mit Höhe h,, h k (oder f,, f k ) ab Horizontal: Ausprägungen der Variablen (a, a 2,, a k ) Vertikal: absolute / relative Häufigkeiten (h,, h k bzw f,, f k ) h j a j - 0 Vorausgesetztes Skalenniveau: mindestens Nominalskala Säulendiagramm: Ersetze die Stäbe durch Rechtecke (Säulen) gleicher Breite h j Balkendiagramm: Säulendiagramm mit vertauschten Achsen

6 Kapitel 2 Häufigkeitsverteilungen 2 Vorausgesetztes Skalenniveau: mindestens Nominalskala Kreisdiagramm: Der Kreis wird in Segmente unterteilt, denen jeweils eine Ausprägung (oder Klasse) zugeordnet wird Der jeweilige Winkel ist proportional zur Häufigkeit Prinzip der Flächentreue, dh die Fläche ist proportional zur Häufigkeit Für Stab-, Säulen- und Balkendiagramm gilt dagegen das Prinzip der Längentreue, dh die Länge der Stäbe / Säulen / Balken ist proportional zur Häufigkeit Berechnung: Winkel des Kreissektors j = relative Häufigkeit 360 Legende: - Unterschicht Häufigkeit Winkel - 0 Mittelschicht 0 f = 360 Oberschicht = f 2 = = f 3 = = Vorausgesetztes Skalenniveau: mindestens Nominalskala, Bemerkungen: Alle bisherigen Grafiken sind nur sinnvoll für kleine Kategorienzahlen k Für ordinalskalierte Merkmale lässt sich mit Stab- / Balken- / Säulendiagramm auch die Ordnung der Kategorien darstellen Durch Schichtung können die Grafiken auch zum Vergleich von Häufigkeitsverteilungen eingesetzt werden Stamm-Blatt-Diagramm: Erklärung anhand des Mietspiegelbeispiels: Semigrafisches Verfahren in Analogie zu Strichlisten

7 22 22 Grafische Darstellung Stamm: Blatt: führende Ziffern nächste Ziffer (evtl gerundet) Prinzipielles Vorgehen: Suche den kleinsten und größten Wert der Urliste und zerlege den Wertebereich in Intervalle der Breite 0 q (Vielfache von 0, q ist geeignet zu wählen) Kleinster Wert: 27 Größter Wert: 676 Intervallbreite 00, dh q = 2 Für q = würde man zu viele Intervalle erhalten (55) 2 Runde die Daten auf die führenden q Stellen Bestimme den Stamm aus den führenden Ziffern: Ziffern bis 6 4 Bestimme die Blätter aus der folgenden Ziffer: Trage für jeden Wert des Stamms die zugehörigen Blätter rechts von einer vertikalen Linie der Größe nach geordnet ab: Vorteile: Implizierte Gruppierung ohne viel Information zu verlieren, da die Darstellung bis auf Rundungen alle Werte der Urliste enthält Ermöglicht guten Einblick in Datenstruktur für explorative Analysen, zb auch Erkennen von Ausreißern Nachteile: Wird bei großen Datensätzen schnell unübersichtlich Lässt sich oft nicht mehr gut auf Papier präsentieren

8 Kapitel 2 Häufigkeitsverteilungen Histogramm Ziel: Automatische Erstellung einer sinnvollen Häufigkeitsdarstellung für metrische Merkmale (ohne manuelle Kategorisierung) Gegeben: Urliste x,, x n eines (mindestens) intervallskalierten Merkmals Wähle c 0 min i=,,n (x i ) und c k max i=,,n (x i ) Bilde Klasseneinteilung [c 0, c ), [c, c 2 ),, [c k, c k ] Für jede Klasse [c j, c j ), j =,, k sei d j = c j c j die Breite des j-ten Intervalls und h j bzw f j die absolute bzw relative Häufigkeit in der j-ten Klasse Zeichne über jedem Intervall ein Rechteck der Breite d j so, dass die Fläche proportional zu f j und h j ist Achtung: Das Histogramm ist flächentreu nicht längentreu! Es gilt Fläche = Breite Höhe und damit Höhe = Fläche / Breite Also ist die Höhe der Rechtecke proportional zu f j h j bzw, d j und nicht zu f j bzw h j d j Ein Histogramm unterscheidet sich damit substantiell von einem Säulendiagramm! Man muss also bei einer Grafik immer angeben, ob es sich um ein Säulendiagramm oder ein Histogramm handelt Beispiel: Punkteverteilung in der Klausur h j d j Klassen Hfgkt Breite Höhe [0, 355) [355, 485) [485, 645) [645, 795) [795, 90) { Täuschung?

9 24 23 Histogramm Tücken des Histogramms: Die Gestalt des Histogramms hängt wesentlich von der Klasseneinteilung ab Einfluss der Klassenzahl: viele Klassen: geringer Informationsverlust, aber rauher Verlauf wenige Klassen: Glättung von Sprüngen, aber hoher Informationsverlust Faustregeln: k = ( n) oder k = ( 2n) Natürliche Klasseneinteilung nutzen (zb: Notenstufen) und / oder möglichst gleich große Klassenbreiten wählen Treten bestimmte Werte sehr häufig auf, so ergeben sich zusätzliche Probleme Beispiel: Arbeitsbelastung neben dem Studium Was tun, wenn ein Wert eine inhaltliche Kategorie für sich bildet? (zb 0 bei Arbeitsbelastung neben Studium) Dann ist die natürliche Breite des zugehörigen

10 Kapitel 2 Häufigkeitsverteilungen 25 Intervalls gleich 0 und damit die Höhe gleich unendlich beliebige Peaks produzierbar, die alle anderen Ausprägungen optisch verschwinden lassen Mögliche Lösung: Wert aus dem Histogramm nehmen und auf zwei Grafiken aufteilen: Arbeit ja/nein, Verteilung der Arbeitsstunden bei den Arbeitenden (Vorsicht bei der Interpretation) Implizite Rundung auf Jubiläumszahlen (attractive numbers, Heaping) 5, 0, 20 2 Jahr, Jahr 6, 8, 25, 30 Monate Zur Vermeidung von Artefakten, Jubiläumszahlen nicht als Intervallgrenzen verwenden! Typen von Häufigkeitsverteilungen Histogramme eignen sich gut zur Beurteilung der Form von Häufigkeitsverteilungen Unimodale und multimodale Verteilungen: Unimodal Multimodal Multimodal Symmetrie und Schiefe

11 26 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion symmetrisch: Rechte und linke Hälfte der Verteilung sind annähernd zueinander spiegelbildlich linkssteil (rechtsschief): Verteilung fällt nach links deutlich steiler und nach rechts langsamer ab rechtssteil (linksschief): Verteilung fällt nach rechts deutlich steiler und nach links langsamer ab (linkssteil) (symmetrisch) (rechtssteil) Andere typische Verteilungsformen: U-förmig, J-förmig 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Oft sind kumulierte Häufigkeiten von Interesse, also eine Antwort auf die Frage Wieviel Prozent der Daten über-/unterschreiten einen bestimmten Wert? Wieviel Prozent der Studenten arbeiten mehr als 8 Stunden pro Woche neben dem Studium? Wieviel Prozent der Studenten haben mindestens 355 Punkte, also die Klausur bestanden? Voraussetzung: Mindestens intervallskaliertes Merkmal Gegeben sei die Urliste x,, x n eines (mindestens) ordinalskalierten Merkmals mit der Häufigkeitsverteilung h,, h k bzw f,, f k Dann heißt H(x) := Anzahl der Werte x i mit x i x = h(a j ) = j:a j x j:a j x h j

12 Kapitel 2 Häufigkeitsverteilungen 27 absolute kumulierte Häufigkeitsverteilung und F (x) := Anteil der Werte x i mit x i x = H(x)/n = f(a j ) = n j:a j x h(a j ) j:a j x relative kumulierte Häufigkeitsverteilung bzw empirische Verteilungsfunktion Die Schreibweise H(x) := h(a j ) ist eine Abkürzung für j:a j x H(x) := j J x h(a j ) mit J x := {j a j x}, dh für jedes x wird die Summe über alle j mit der Eigenschaft betrachtet, dass die zugehörigen Werte a j kleiner gleich x sind (analog für F (x)) Beispiel: Klausurnoten (zur Vereinfachung a j = j) H() = H(2) = j:a j j:a j 2 Note: a j h(a j ) H(a j ) f(a j ) F (a j ) a = a 2 = a 3 = a 4 = a 5 = h(a j ) = h(a ) = 65 h(a j ) = h(a ) = 65 H(4) = = = Zwischen den Ausprägungen ist H(x) konstant, also H(x) = H(a j ) für alle x [a j, a j+ ) und j =,, k Es reicht also, H(x) an den tatsächlichen Ausprägungen a j zu berechnen

13 28 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion } h } h 2 } h 3 } h 4 } h Bemerkungen: F (x) sieht genauso aus; einfach den Maßstab auf der Ordinate durch 383 teilen Man kann aus H(x) und F (x) die Häufigkeitsverteilungen h,, h k und f,, f k reproduzieren, zb ist h(a j ) = H(a j ) H(a j ) die Häufigkeit von a j Bei rein ordinalen Merkmalen ist die Skaleneinteilung auf der Abszisse völlig willkürlich; man könnte obige Funktion zb genauso gut wie folgt zeichnen: Bei intervallskalierten Merkmalen ist diese Willkürlichkeit nicht mehr vorhanden kumulierte Häufigkeitsverteilungen werden fast nur bei intervallskalierten Merkmalen betrachtet

14 Kapitel 2 Häufigkeitsverteilungen 29 Empirische Verteilungsfunktion wenn alle Beobachtungen verschieden sind: F (x) 2 n n n n x () x (2) Empirische Verteilungsfunktion bei gegebenen Häufigkeiten: F (x) f + f 2 f f a a 2 Kumulierte Häufigkeiten bei gruppierten Merkmalen den Klassen Beispiel: Punkteverteilung in

15 30 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Klassen Häufigkeiten kumuliert [0, 355) [355, 485) 78 3 [485, 645) [645, 795) [795, 90) Bei gruppierten, intervallskalierten Merkmalen tritt folgendes zusätzliches Problem auf: Klar sind die Werte der kumulierten Häufigkeitsverteilungen an den zu den Intervallgrenzen gehörenden Punkten Aber wie definiert man H(x) und F (x) zwischen diesen Punkten, was also ist etwa H(40)? Jetzt ist H nicht mehr notwendigerweise konstant zwischen den Klassengrenzen Beispielsweise ist 40 ja eine Ausprägung, die durchaus in den unklassierten Daten vorkam H(40) ist aber aus den klassierten Daten nicht mehr rekonstruierbar Eigentlich weiß man nur, dass H(40) einen Wert in dem entsprechenden Rechteck annehmen kann Lineare Interpolation ,5 48,5 64,5 79,5 90 Allgemeine Formulierung: k Klassen [c 0, c ),, [c j, c j ),, [c k, c k ],h j Häufigkeit in j-ter Klasse Verwende bei einem x aus der Klasse [c j, c j ) als Approximation für H(x) folgenden, aus der linearen Interpolation gewonnenen Punkt: H(c j ) H(x) } h j } {{ } } {{ } x c j x H(c j ) c j c j

16 Kapitel 2 Häufigkeitsverteilungen 3 Geradengleichung: H(x) H(c j ) + (c j c j ) (x c j ) Ausgpkt Steigung Wegstrecke h j H(40) H(355) + = (40 355) =