Kapitel 2. Häufigkeitsverteilungen



Ähnliche Dokumente
a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

2 Häufigkeitsverteilungen

0 Einführung: Was ist Statistik

Kreisdiagramm, Tortendiagramm

WISTA WIRTSCHAFTSSTATISTIK

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen

Graphische Darstellung einer univariaten Verteilung:

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012

Willkommen zur Vorlesung Statistik

4. Kumulierte Häufigkeiten und Quantile

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Wahrscheinlichkeits - rechnung und Statistik

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 6, 2012

4. Kumulierte Häufigkeiten und Quantile

Verteilungsfunktion und dquantile

Deskriptive Statistik

Verteilungen und ihre Darstellungen

Einführung in Quantitative Methoden

2. Deskriptive Statistik

Weitere Lagemaße: Quantile/Perzentile I

Voraussetzung für statistische Auswertung: jeder Fall besitzt in bezug auf jedes Merkmal genau eine Ausprägung

Der Mittelwert (arithmetisches Mittel)

Mathematik für Biologen

y = y = 2'500 Darstellung in Grafik: P 2 (800 2'500) x (Stk) 1'000

Mathematische und statistische Methoden I

Verteilungsfunktion und Quantile

Statistik I für Betriebswirte Vorlesung 9

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Verteilungsfunktion und Quantile

Statistik I für Studierende der Soziologie

Beschreibung von Daten

Einführung in Quantitative Methoden

Deskriptive Statistik

Das harmonische Mittel

Kapitel 1 Beschreibende Statistik

Deskriptive Statistik 1 behaftet.

Deskriptive Statistik

Statistik I für Humanund Sozialwissenschaften

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Grafische Darstellung von Häufigkeitsverteilungen (1)

Verteilungsfunktion und Quantile

Stochastik Deskriptive Statistik

P (X = 2) = 1/36, P (X = 3) = 2/36,...

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Statistik. Jan Müller

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

3 Lage- und Streuungsmaße

Mathematische Statistik. Zur Notation

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Statistik Skalen (Gurtner 2004)

Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung:

Kapitel IV - Häufigkeitsverteilungen

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

1 Verteilungen und ihre Darstellung

5 Assoziationsmessung in Kontingenztafeln

Deskriptive Statistik

Diskrete Zufallsvariablen (Forts.) I

Diskrete Zufallsvariablen (Forts.) I

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Gliederung der Vorlesung

Anwendung A_0801_Quantile_Minimum_Maximum

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2012/13

2 Datenbeschreibung. 2.1 Datendarstellung

Gegeben: Eine Menge von Objekten mit Merkmalen (beobachtet oder gemessen) Die gegebene Menge heißt auch Grundgesamtheit.

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2018/19

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen.

WISTA WIRTSCHAFTSSTATISTIK

Forschungsstatistik I

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Kapitel VIII - Mehrdimensionale Merkmale

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

3 Lage- und Streuungsmaße

Deskriptive Statistik Erläuterungen

Tutorial: Balken- und Tortendiagramm

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

Statistik I für Betriebswirte Vorlesung 9

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Wirtschaftswissenschaftliches Prüfungssekretariat Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2015

Empirische Verteilungsfunktion

Kapitel 1: Deskriptive Statistik

Fachrechnen für Tierpfleger

Statistik I (17) 79. Untersuchen Sie die Daten aus Tabelle 1.

Mathematische und statistische Methoden II

Tutorium Mathematik in der gymnasialen Oberstufe 1. Veranstaltung: Beschreibende Statistik 19. Oktober 2016

Mathematik für Biologen

Auswertung statistischer Daten 1

Bitte am PC mit Windows anmelden!

Transkript:

6

Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω n ) Also x i = X(ω i ), dh x i ist der Wert der i-ten Person x,, x n werden auch als Urliste oder Rohdaten und n als Stichprobenumfang bezeichnet Die verschiedenen Merkmalsausprägungen werden mit a,, a k bezeichnet Bemerkungen: Werden mehr Beobachtungen erhoben, so ändert sich n, aber ia k nicht Meist bezeichnet a,, a k die beobachteten verschiedenen Merkmalsausprägungen, manchmal aber auch die prinzipiell möglichen Merkmalsausprägungen Für mindestens ordinalskalierte Merkmale seien die Ausprägungen geordnet, dh a < a 2 < < a k Beispiel: Häufigkeitsverteilung der Schichtzugehörigkeit einer Gesamtheit Ω von acht Personen Ω = {ω,, ω 8 } Kategorien: Unterschicht, Mittelschicht, Oberschicht Ordinales Merkmal X : Ω W ω X(ω) W = {U, M, O} für Unterschicht Mittelschicht Oberschicht oder durch Zahlen ausgedrückt: W = {, 0, } 7

8 2 Häufigkeiten X(ω) = Tabelle: ω Unterschicht 0 falls ω Mittelschicht ω Oberschicht Person ω X(ω) ω M 0 x ω 2 M 0 x 2 ω 3 O x 3 ω 4 M 0 x 4 ω 5 M 0 x 5 ω 6 M 0 x 6 n = 8 k = 3 a = a 2 = 0 a 3 = Also: ω 7 U - x 7 ω 8 O x 8 n: Anzahl der Einheiten k: Anzahl der verschiedenen Werte von X 2 Häufigkeiten Absolute Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j =,, k, bezeichnen h j und h(a j ) die absolute Häufigkeit der Ausprägung a j, dh die Anzahl der x i aus x,, x n mit x i = a j Formal: h j := h(a j ) := {ω Ω X(ω) = a j } M bezeichnet die Mächtigkeit der Menge M := bedeutet wird definiert als h, h 2,, h k (als Ganzes) nennt man die absolute Häufigkeitsverteilung Es gilt k h j = n Erste Darstellung von Häufigkeiten anhand einer Strichliste: j= Strichliste - 0 8

Kapitel 2 Häufigkeitsverteilungen 9 Relative Häufigkeiten der Merkmalsausprägungen: Für jedes a j, j =,, k, bezeichnen f j und f(a j ) die relative Häufigkeit der Ausprägung a j, also f j := f(a j ) := h j n f, f 2,, f k nennt man die relative Häufigkeitsverteilung Es gilt k f j = j= Häufigkeitstabelle: Allgemeine Form: Im Beispiel: j a j h j f j a h f 2 a 2 h 2 f 2 3 a 3 h 3 f 3 j a j h j f j 025 2 0 5 0625 3 2 0250 8 k a k h k f k n Insbesondere bei stetigen oder quasi-stetigen Merkmalen ist es häufig zweckmäßig, die Merkmalsausprägungen zu klassieren / zu gruppieren gruppierte Häufigkeitsverteilung Die gruppierte Häufigkeitsverteilung enthält nur die Häufigkeiten der Ausprägungen in den einzelnen Gruppen, die einzelnen a i entsprechen in diesem Fall Intervallen Achtung: Die Gruppierung bedeutet einen Informationsverlust und sollte deshalb in der Regel nur zur Visualisierung eingesetzt werden (und nicht in den statistischen Analysen)! Benutzt nur noch Nominal- / Ordinalskala statt Verhältnisskala Beispiel Mietspiegel: Merkmal = Nettomieten Urliste für n=26 Wohnungen, bereits der Größe nach geordnet: 27 72 94 27 226 228 238 248 272 337 347 349 349 373 375 378 383 394 426 443 466 467 533 539 560 676

20 22 Grafische Darstellung Klasse j h j f j 00 < 200 3 3/26 = 05 200 < 300 6 0230 300 < 400 9 0346 400 < 500 4 053 500 < 600 3 05 600 < 700 0038 26 22 Grafische Darstellung Stabdiagramm: Trage über a,, a k jeweils einen zur x-achse senkrecht stehenden Stab mit Höhe h,, h k (oder f,, f k ) ab Horizontal: Ausprägungen der Variablen (a, a 2,, a k ) Vertikal: absolute / relative Häufigkeiten (h,, h k bzw f,, f k ) h j 8 5 5 2 a j - 0 Vorausgesetztes Skalenniveau: mindestens Nominalskala Säulendiagramm: Ersetze die Stäbe durch Rechtecke (Säulen) gleicher Breite h j 8 5-0 Balkendiagramm: Säulendiagramm mit vertauschten Achsen - 0 2 5 5

Kapitel 2 Häufigkeitsverteilungen 2 Vorausgesetztes Skalenniveau: mindestens Nominalskala Kreisdiagramm: Der Kreis wird in Segmente unterteilt, denen jeweils eine Ausprägung (oder Klasse) zugeordnet wird Der jeweilige Winkel ist proportional zur Häufigkeit Prinzip der Flächentreue, dh die Fläche ist proportional zur Häufigkeit Für Stab-, Säulen- und Balkendiagramm gilt dagegen das Prinzip der Längentreue, dh die Länge der Stäbe / Säulen / Balken ist proportional zur Häufigkeit Berechnung: Winkel des Kreissektors j = relative Häufigkeit 360 Legende: - Unterschicht Häufigkeit Winkel - 0 Mittelschicht 0 f = 360 Oberschicht = 45 8 8 f 2 = 5 360 5 = 225 8 8 f 3 = 2 360 2 = 90 8 8 Vorausgesetztes Skalenniveau: mindestens Nominalskala, Bemerkungen: Alle bisherigen Grafiken sind nur sinnvoll für kleine Kategorienzahlen k Für ordinalskalierte Merkmale lässt sich mit Stab- / Balken- / Säulendiagramm auch die Ordnung der Kategorien darstellen Durch Schichtung können die Grafiken auch zum Vergleich von Häufigkeitsverteilungen eingesetzt werden Stamm-Blatt-Diagramm: Erklärung anhand des Mietspiegelbeispiels: Semigrafisches Verfahren in Analogie zu Strichlisten 27 72 94 27 226 228 238 248 272 337 347 349 349 373 375 378 383 394 426 443 466 467 533 539 560 676

22 22 Grafische Darstellung 2 3 4 5 6 3 7 9 2 3 3 4 5 7 4 5 5 5 7 8 8 8 9 3 4 7 7 3 4 6 8 Stamm: Blatt: führende Ziffern nächste Ziffer (evtl gerundet) Prinzipielles Vorgehen: Suche den kleinsten und größten Wert der Urliste und zerlege den Wertebereich in Intervalle der Breite 0 q (Vielfache von 0, q ist geeignet zu wählen) Kleinster Wert: 27 Größter Wert: 676 Intervallbreite 00, dh q = 2 Für q = würde man zu viele Intervalle erhalten (55) 2 Runde die Daten auf die führenden q Stellen 30 70 90 220 230 230 240 250 270 340 350 350 350 370 380 380 380 390 430 440 470 470 530 540 560 680 3 Bestimme den Stamm aus den führenden Ziffern: Ziffern bis 6 4 Bestimme die Blätter aus der folgenden Ziffer: 3 7 9 2 3 3 4 5 7 4 5 5 5 7 8 8 8 9 3 4 7 7 3 4 6 8 5 Trage für jeden Wert des Stamms die zugehörigen Blätter rechts von einer vertikalen Linie der Größe nach geordnet ab: Vorteile: Implizierte Gruppierung ohne viel Information zu verlieren, da die Darstellung bis auf Rundungen alle Werte der Urliste enthält Ermöglicht guten Einblick in Datenstruktur für explorative Analysen, zb auch Erkennen von Ausreißern Nachteile: Wird bei großen Datensätzen schnell unübersichtlich Lässt sich oft nicht mehr gut auf Papier präsentieren

Kapitel 2 Häufigkeitsverteilungen 23 23 Histogramm Ziel: Automatische Erstellung einer sinnvollen Häufigkeitsdarstellung für metrische Merkmale (ohne manuelle Kategorisierung) Gegeben: Urliste x,, x n eines (mindestens) intervallskalierten Merkmals Wähle c 0 min i=,,n (x i ) und c k max i=,,n (x i ) Bilde Klasseneinteilung [c 0, c ), [c, c 2 ),, [c k, c k ] Für jede Klasse [c j, c j ), j =,, k sei d j = c j c j die Breite des j-ten Intervalls und h j bzw f j die absolute bzw relative Häufigkeit in der j-ten Klasse Zeichne über jedem Intervall ein Rechteck der Breite d j so, dass die Fläche proportional zu f j und h j ist Achtung: Das Histogramm ist flächentreu nicht längentreu! Es gilt Fläche = Breite Höhe und damit Höhe = Fläche / Breite Also ist die Höhe der Rechtecke proportional zu f j h j bzw, d j und nicht zu f j bzw h j d j Ein Histogramm unterscheidet sich damit substantiell von einem Säulendiagramm! Man muss also bei einer Grafik immer angeben, ob es sich um ein Säulendiagramm oder ein Histogramm handelt Beispiel: Punkteverteilung in der Klausur h j d j Klassen Hfgkt Breite Höhe [0, 355) 53 355 49 [355, 485) 78 3 600 [485, 645) 9 6 569 [645, 795) 96 5 640 [795, 90) 65 05 69 383 90 6 49 { 53 78 9 Täuschung? 96 65 355 485 645 795 90

24 23 Histogramm Tücken des Histogramms: Die Gestalt des Histogramms hängt wesentlich von der Klasseneinteilung ab Einfluss der Klassenzahl: viele Klassen: geringer Informationsverlust, aber rauher Verlauf wenige Klassen: Glättung von Sprüngen, aber hoher Informationsverlust Faustregeln: k = ( n) oder k = ( 2n) Natürliche Klasseneinteilung nutzen (zb: Notenstufen) und / oder möglichst gleich große Klassenbreiten wählen Treten bestimmte Werte sehr häufig auf, so ergeben sich zusätzliche Probleme Beispiel: Arbeitsbelastung neben dem Studium Was tun, wenn ein Wert eine inhaltliche Kategorie für sich bildet? (zb 0 bei Arbeitsbelastung neben Studium) Dann ist die natürliche Breite des zugehörigen

Kapitel 2 Häufigkeitsverteilungen 25 Intervalls gleich 0 und damit die Höhe gleich unendlich beliebige Peaks produzierbar, die alle anderen Ausprägungen optisch verschwinden lassen Mögliche Lösung: Wert aus dem Histogramm nehmen und auf zwei Grafiken aufteilen: Arbeit ja/nein, Verteilung der Arbeitsstunden bei den Arbeitenden (Vorsicht bei der Interpretation) Implizite Rundung auf Jubiläumszahlen (attractive numbers, Heaping) 5, 0, 20 2 Jahr, Jahr 6, 8, 25, 30 Monate Zur Vermeidung von Artefakten, Jubiläumszahlen nicht als Intervallgrenzen verwenden! Typen von Häufigkeitsverteilungen Histogramme eignen sich gut zur Beurteilung der Form von Häufigkeitsverteilungen Unimodale und multimodale Verteilungen: Unimodal Multimodal Multimodal 00 0 02 03 04 05 06 00 0 02 03 04 05 06 00 0 02 03 04 05 06 4 2 0 2 4 4 2 0 2 4 4 2 0 2 4 Symmetrie und Schiefe

26 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion symmetrisch: Rechte und linke Hälfte der Verteilung sind annähernd zueinander spiegelbildlich linkssteil (rechtsschief): Verteilung fällt nach links deutlich steiler und nach rechts langsamer ab rechtssteil (linksschief): Verteilung fällt nach rechts deutlich steiler und nach links langsamer ab 2 3 4 5 6 7 8 9 (linkssteil) 2 3 4 5 6 7 8 9 (symmetrisch) 2 3 4 5 6 7 8 9 (rechtssteil) Andere typische Verteilungsformen: U-förmig, J-förmig 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Oft sind kumulierte Häufigkeiten von Interesse, also eine Antwort auf die Frage Wieviel Prozent der Daten über-/unterschreiten einen bestimmten Wert? Wieviel Prozent der Studenten arbeiten mehr als 8 Stunden pro Woche neben dem Studium? Wieviel Prozent der Studenten haben mindestens 355 Punkte, also die Klausur bestanden? Voraussetzung: Mindestens intervallskaliertes Merkmal Gegeben sei die Urliste x,, x n eines (mindestens) ordinalskalierten Merkmals mit der Häufigkeitsverteilung h,, h k bzw f,, f k Dann heißt H(x) := Anzahl der Werte x i mit x i x = h(a j ) = j:a j x j:a j x h j

Kapitel 2 Häufigkeitsverteilungen 27 absolute kumulierte Häufigkeitsverteilung und F (x) := Anteil der Werte x i mit x i x = H(x)/n = f(a j ) = n j:a j x h(a j ) j:a j x relative kumulierte Häufigkeitsverteilung bzw empirische Verteilungsfunktion Die Schreibweise H(x) := h(a j ) ist eine Abkürzung für j:a j x H(x) := j J x h(a j ) mit J x := {j a j x}, dh für jedes x wird die Summe über alle j mit der Eigenschaft betrachtet, dass die zugehörigen Werte a j kleiner gleich x sind (analog für F (x)) Beispiel: Klausurnoten (zur Vereinfachung a j = j) H() = H(2) = j:a j j:a j 2 Note: a j h(a j ) H(a j ) f(a j ) F (a j ) a = 65 65 07 07 a 2 = 2 96 6 025 042 a 3 = 3 9 252 024 066 a 4 = 4 78 330 020 086 a 5 = 5 53 383 04 00 383 00 h(a j ) = h(a ) = 65 h(a j ) = h(a ) = 65 H(4) = = = Zwischen den Ausprägungen ist H(x) konstant, also H(x) = H(a j ) für alle x [a j, a j+ ) und j =,, k Es reicht also, H(x) an den tatsächlichen Ausprägungen a j zu berechnen

28 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion 350 300 250 200 50 00 50 } h } h 2 } h 3 } h 4 } h 5 2 3 4 5 Bemerkungen: F (x) sieht genauso aus; einfach den Maßstab auf der Ordinate durch 383 teilen Man kann aus H(x) und F (x) die Häufigkeitsverteilungen h,, h k und f,, f k reproduzieren, zb ist h(a j ) = H(a j ) H(a j ) die Häufigkeit von a j Bei rein ordinalen Merkmalen ist die Skaleneinteilung auf der Abszisse völlig willkürlich; man könnte obige Funktion zb genauso gut wie folgt zeichnen: 2 3 4 5 Bei intervallskalierten Merkmalen ist diese Willkürlichkeit nicht mehr vorhanden kumulierte Häufigkeitsverteilungen werden fast nur bei intervallskalierten Merkmalen betrachtet

Kapitel 2 Häufigkeitsverteilungen 29 Empirische Verteilungsfunktion wenn alle Beobachtungen verschieden sind: F (x) 2 n n n n x () x (2) Empirische Verteilungsfunktion bei gegebenen Häufigkeiten: F (x) f + f 2 f f a a 2 Kumulierte Häufigkeiten bei gruppierten Merkmalen den Klassen Beispiel: Punkteverteilung in

30 24 Kumulierte Häufigkeiten und empirische Verteilungsfunktion Klassen Häufigkeiten kumuliert [0, 355) 53 53 [355, 485) 78 3 [485, 645) 9 222 [645, 795) 96 38 [795, 90) 65 383 Bei gruppierten, intervallskalierten Merkmalen tritt folgendes zusätzliches Problem auf: Klar sind die Werte der kumulierten Häufigkeitsverteilungen an den zu den Intervallgrenzen gehörenden Punkten Aber wie definiert man H(x) und F (x) zwischen diesen Punkten, was also ist etwa H(40)? Jetzt ist H nicht mehr notwendigerweise konstant zwischen den Klassengrenzen Beispielsweise ist 40 ja eine Ausprägung, die durchaus in den unklassierten Daten vorkam H(40) ist aber aus den klassierten Daten nicht mehr rekonstruierbar Eigentlich weiß man nur, dass H(40) einen Wert in dem entsprechenden Rechteck annehmen kann Lineare Interpolation 400 300 200 00 35,5 48,5 64,5 79,5 90 Allgemeine Formulierung: k Klassen [c 0, c ),, [c j, c j ),, [c k, c k ],h j Häufigkeit in j-ter Klasse Verwende bei einem x aus der Klasse [c j, c j ) als Approximation für H(x) folgenden, aus der linearen Interpolation gewonnenen Punkt: H(c j ) H(x) } h j } {{ } } {{ } x c j x H(c j ) c j c j

Kapitel 2 Häufigkeitsverteilungen 3 Geradengleichung: H(x) H(c j ) + (c j c j ) (x c j ) Ausgpkt Steigung Wegstrecke h j H(40) H(355) + = 80 78 485 355 (40 355) =