3 Häufigkeitsverteilungen

Ähnliche Dokumente
3 Häufigkeitsverteilungen

2 Häufigkeitsverteilungen

WISTA WIRTSCHAFTSSTATISTIK

Kapitel 2. Häufigkeitsverteilungen

Graphische Darstellung einer univariaten Verteilung:

Grafische Darstellung von Häufigkeitsverteilungen (1)

Auswertung statistischer Daten 1

2. Deskriptive Statistik

0 Einführung: Was ist Statistik

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Statistik I für Betriebswirte Vorlesung 9

Kapitel V - Graphische Darstellung von Häufigkeitsverteilungen

Willkommen zur Vorlesung Statistik

Wahrscheinlichkeits - rechnung und Statistik

4 Statistische Maßzahlen

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden

4. Kumulierte Häufigkeiten und Quantile

Deskriptive Statistik 1 behaftet.

5.4.1 Statistische Methoden

Kapitel IV - Häufigkeitsverteilungen

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Beschreibung von Daten

Gliederung der Vorlesung

Deskriptive Statistik Auswertung durch Informationsreduktion

Verteilungsfunktion und Quantile

Deskriptive Statistik

Tutorial: Balken- und Tortendiagramm

Zufallsvariablen [random variable]

Der Mittelwert (arithmetisches Mittel)

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Deskriptive Statistik Kapitel IV - Häufigkeitsverteilungen

Verteilungsfunktion und dquantile

Kreisdiagramm, Tortendiagramm

Verteilungen und ihre Darstellungen

Deskriptive Statistik Lösungen zu Blatt 1 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 1

4. Kumulierte Häufigkeiten und Quantile

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten

Bitte bearbeite zunächst alle Aufgaben bevor du einen Blick in die Lösungen wirfst.

Verteilungsfunktion und Quantile

Statistik I für Betriebswirte Vorlesung 9

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011

Stochastik Deskriptive Statistik

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2018/19

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

4 Statistische Maßzahlen

Verteilungsfunktion und Quantile

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Deskriptive Statistik

6 Eigenständiges Programmieren

Kapitel VI - Lage- und Streuungsparameter

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011.

8 Stichprobenkennwerteverteilung

Mathematische und statistische Methoden I

Statistik Einführung // Kategoriale Daten 10 p.2/26

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

Voraussetzung für statistische Auswertung: jeder Fall besitzt in bezug auf jedes Merkmal genau eine Ausprägung

Mathematik für Biologen

Stetige Standardverteilungen

3) Testvariable: T = X µ 0

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten. Univ.Prof. Dr.

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Deskriptive Statistik

Musterlösung zur Übungsklausur Statistik

Das harmonische Mittel

Kapitel VIII - Mehrdimensionale Merkmale

Mathematik für Biologen

Statistik I für Betriebswirte Vorlesung 10

Wirtschaftswissenschaftliches Prüfungssekretariat Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2015

5. Spezielle stetige Verteilungen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Aufgabenstellung und Ergebnisse zur. Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2017/18. Dr.

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2011/12.

Statistik 1 für SoziologInnen. Univariate Häufigkeitstabellen Tabellarische und graphische Aufbereitung von Daten. Univ.Prof. Dr.

Statistik I (17) 79. Untersuchen Sie die Daten aus Tabelle 1.

Kapitel VII - Konzentration von Merkmalswerten

Chi-Quadrat Verfahren

Statistik eindimensionaler Größen

Forschungsstatistik I

Vorlesung Stetige Verteilungen / Mathematische Behandlung

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

Statistisches Testen

Wahrscheinlichkeitstheorie Kapitel I - Einführende Beispiele

Transkript:

3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal oder ordinalskaliertes Merkmal mit k Ausprägungen A 1, A 2,..., A k. Beispiel: X = Berufsstatus, k = 5: A 1 = selbstständig A 2 = angestellt A 3 = Arbeiter A 4 = arbeitslos A 5 = Beamter An n Untersuchungseinheiten, diese seien von 1 StatSoz 50

bis n durchnummeriert, wurden die Merkmalsausprägungen x 1,..., x n beobachtetet. Absolute Häufigkeit (frequency): Anzahl der Untersuchungseinheiten, die Ausprägung A j besitzen, formal h j = Anzahl der Daten x i mit x i = A j j = 1,..., k (der Buchstabe j ist hier ein sogenannter Laufindex, der zwischen 1 und k variiert). Es gilt h 1 +... + h k = k j=1 h j = n Relative Häufigkeit (relative frequency): r j = h j /n, j = 1,..., k StatSoz 51

Es gilt 0 r j 1 und k j=1 r j = k j=1 h j n = 1 n k j=1 h j = n n = 1 Angabe relativer Häufigkeiten in Prozent (Bezeichnung %): Prozentuale Häufigkeiten (percentage): p j = 100 r j j = 1,..., k Es gilt 0 p j 100 und k p j = k 100 r j = 100 ( k r j ) = 100 j=1 j=1 j=1 }{{} =1 StatSoz 52

Definition: Die Zusammenstellung der Merkmalsausprägungen mit den dazugehörigen (absoluten, relativen oder prozentualen) Häufigkeiten heißt Häufigkeitsverteilung (frequency distribution) des betreffenden Merkmals. Bemerkung: Da die Häufigkeitsverteilung auf Daten basiert, nennt man sie auch empirische Verteilung. StatSoz 53

Eine Häufigkeitsverteilung lässt sich übersichtlich in einer Häufigkeitstabelle (frequency table) darstellen: Tabelle 3 1 Häufigkeitstabelle Ausprägung absolute relative prozentuale Häufigkeit Häufigkeit Häufigkeit A 1 h 1 r 1 p 1 % A 2. h 2. r 2. p 2 %. A k h k r k p r % Summe n 1 100% Aus einer Häufigkeitsverteilung lassen sich erste Einsichten in die Struktur der Daten gewinnen. Zum Beispiel lassen sich die folgenden Fragen beantworten: StatSoz 54

Wie groß ist der Stellenwert einer einzelnen Merkmalsausprägung (Frage nach der Gewichtigkeit einer Ausprägung)? Welche Ausprägung besitzt den höchsten Stellenwert, trat also am häufigsten auf? Wie stark unterscheiden sich einzelne Ausprägungen im Hinblick auf ihre zugehörigen Häufigkeiten? Bei ordinalen Daten können wir noch zusätzlich fragen: Treten kleine Ausprägungswerte in etwa so häufig auf wie große Ausprägungswerte? Treten die häufigsten Werte in der,,mitte, also bei den mittleren Ausprägungswerten auf? StatSoz 55

Beispiel: Eine Gemeinde besitze hinsichtlich des Merkmals Berufsstatus die folgende Häufigkeitsverteilung: Tabelle 3 2 Häufigkeitsverteilung des Merkmals Berufsstatus Ausprägung h j r j (gerundet) A 1 selbstständig 2 0.012 A 2 angestellt 12 0.073 A 3 Arbeiter 114 0.695 A 4 arbeitslos 30 0.183 A 5 Beamter 6 0.037 Summe 164 1 Graphische Darstellungen: Säulendiagramm,Stabdiagramm (bar chart): Zeigt absolute bzw. relative Häufigkeiten als Funktion der Merkmalsausprägungen; Abszisse: Ausprägungen, Ordinate: Häufigkeiten. StatSoz 56

Darstellungsmittel ist die Höhe der Säule, d.h. die Höhe repräsentiert die (absolute oder relative) Häufigkeit. Abbildung 3 1 Säulendiagramm zu Tabelle 3 2 Kreisdiagramm,Tortendiagramm (pie chart): Zeigt Kreissektoren als Funktion der Merkmalsausprägungen; besonders geeignet für nominale Daten. StatSoz 57

Winkel, der einen Kreisausschnitt einer Kategorie festlegt, ist proportional zur relativen Häufigkeit: r j = Winkel des Kreissektors für A j in Grad 360 also = α j 360 α j = r j 360, j = 1,..., k Es gilt dann α i α j = r i r j = h i h j für 1 i, j k StatSoz 58

Beispiel: Berufsstatus Daten aus Tabelle 3 2: j 1 2 3 4 5 α j 4.32 26.28 250.20 65.88 13.32 Abbildung 3 2 Kreisdiagramm zu Tabelle 3 2 StatSoz 59

3.2 Klassierung von Daten Sind bei einem Merkmal unendlich viele Ausprägungen möglich, so ist die Anfertigung einer Häufigkeitsverteilung kaum zu empfehlen (auch unter Berücksichtigung einer vorgegebenen Messgenauigkeit). Es entstehen bei der Angabe aller Häufigkeiten sehr viele Nullen, hervorgerufen durch nicht beobachtete Merkmalswerte. Beispiel 3.1 Man möchte etwas über das Pendlerverhalten einer Gemeinde wissen. Dazu wurden 30 Autopendler nach ihrer Fahrzeit (in Minuten) von der Wohnung zur Arbeitsstätte befragt. Die Daten der von 1 bis 30 durchnummerierten Individueen sind in der folgenden Tabelle zusammengefasst: StatSoz 60

Tabelle 3 3 Pendler Daten Individuum Nr. Fahrzeit Individuum Nr. Fahrzeit 1 5 16 42 2 12 17 31 3 14 18 31 4 21 19 26 5 22 20 24 6 36 21 11 7 21 22 19 8 6 23 9 9 77 24 44 10 12 25 21 11 21 26 17 12 16 27 26 13 10 28 21 14 5 29 24 15 11 30 23 geordnet: 5 5 6 9 10 11 11 12 12 14 16 17 19 21 21 21 21 21 22 23 24 24 26 26 31 31 36 42 44 77 Die Merkmalsausprägungen 1, 2, 3, 4, 7, 8, 13, 15, 18, 20, 25 usw. wurden nicht beobachtet. StatSoz 61

Idee : Einteilung aller (reellen) Stichprobenwerte x 1,..., x n in sogenannte Klassen. Bezüglich der Klassenbildung gibt es zwar keine allgemein gültigen, strengen Regeln, aber einige Grundsätze, die es zu beachten gilt: Regel 1: Die Klassengrenzen sollten einfache Zahlenwerte sein. Regel 2: Klassen dürfen sich nicht überschneiden. Regel 3: Die Klassen müssen alle Beobachtungen erfassen. Regel 4: Die Klassenbreiten sind konstant zu wählen. Regel 5: Die Anzahl der Klassen ist geeignet zu wählen. StatSoz 62

Die Klassen müssen so gewählt werden (Regel 2), dass die Zuordnung einer Beobachtung zu einer Klasse eindeutig ist. Dazu muss geklärt sein, welcher Klasse eine Beobachtung zugeordnet wird, die auf eine Klassengrenze fällt. Die Eindeutigkeit der Zuordnung wird dadurch erreicht, dass man die Klassen als halboffene Intervalle festlegt (z. B. links abgeschlossen und rechts offen). Die Klassenanzahl richtet sich nach dem Stichprobenumfang. Als Anhaltspunkt dient die Regel k n. Einige Zahlenwerte: n n mögliche Wahl von k 30 5.48 5,6 50 7.07 6,7,8 100 10 8,9,10,11 Bei k Klassen [c 0, c 1 ), [c 1, c 2 ),..., [c k 1, c k ) StatSoz 63

sind die Zahlen c 0,..., c k so gewählt, dass c 0 < c 1 <... < c k gilt. Per Definition gehört eine Beobachtung x i zur Klasse [c j 1, c j ), falls c j 1 x i < c j gilt. Man spricht von Klassierung (grouped data) auch von Klassenbildung bzw. Gruppierung der Daten. Damit Regel 3 erfüllt ist, muss die oberste Klassengrenze größer sein als die größte Beobachtung c k > x (n). Oder man wählt als oberste Intervallgrenze die größte Beobachtung, also c k = x (n), wobei dann diese Intervallgrenze zur Klasse gehören muss. Die unterste Klassengrenze c 0 muss mindestens so klein wie die kleinste Beobachtung, c 0 x (1) sein. StatSoz 64

Unter der absoluten Häufigkeit bezüglich der Klasse [c j 1, c j ) versteht man die Anzahl der Beobachtungen, die zur Klasse [c j 1, c j ) gehören, formal h j = Anzahl der x i mit c j 1 x i < c j j = 1,..., k. Für die absoluten Klassenhäufigkeiten gilt aufgrund der Regeln 2 und 3 k j=1 h j = n Die relative Häufigkeit bezüglich der Klasse [c j 1, c j ) ist r j = h j n, j = 1,..., k StatSoz 65

Für die relativen Klassenhäufigkeiten gilt k r j = 1 n k h j = 1 j=1 j=1 Diese Häufigkeiten geben also an, wie sich die Stichprobenwerte auf die einzelnen Klassen verteilen. Bei Klassierung der Daten geht man davon aus, dass sich alle Beobachtungswerte einer Klasse [c j 1, c j ) gleichmäßig über die Klasse verteilen (Gleichverteilung innerhalb der Klasse), so dass die Klassenmitte c j 1 + c j 2 Repräsentant dieser Klasse ist. StatSoz 66

Fortsetzung von Bsp. 3.1: Pendler Daten Tabelle 3 4 Häufigkeitsverteilung zu Tabelle 3 3 Histogramm Klasse h j r j gerundet [0,10) 4 0.1333 [10,20) 9 0.3 [20,30) 11 0.3667 [30,40) 3 0.1 [40,50) 2 0.0667 [50,60) 0 0 [60,70) 0 0 [70,80) 1 0.033 Die graphische Darstellung der (absoluten oder relativen) Klassenhäufigkeiten erfolgt durch ein Histogramm (histogram). Dieses zeigt (absolute oder relative) Klassenhäufigkeiten als Funktion der Klassen. StatSoz 67

Über den Klassen werden Rechtecke (Balken) abgetragen, wobei die Höhen der Rechtecke die (absoluten oder relativen) Klassenhäufigkeiten wiedergeben (Die Höhe als Darstellungsmittel ist nur erlaubt, wenn Regel 4 erfüllt ist!!!) Abbildung 3 3 Histogramm zu Tabelle 3 4 StatSoz 68

Vorsicht bei ungleichen Klassenbreiten! Das Darstellungsmittel ist dann die Fläche des Rechtecks, d.h. die Fläche (nicht die Höhe!) entspricht der Häufigkeit (sonst kann es zu Fehlinterpretationen kommen!). Als Höhe des Rechtecks wählt man die Häufigkeit, dividiert durch die Klassenbreite, also h j c j c j 1 bzw. r j c j c j 1, j = 1,..., k Die Fläche F j des Rechtecks (Höhe Breite) über der Klasse [c j 1, c j ) ist dann h j bzw. r j. StatSoz 69

3.3 Verteilungsverläufe Gleichverteilung (uniform distribution) Alle Merkmalsausprägungen treten (annähernd) gleich häufig auf. Abbildung 3 4 Beispiel für eine Gleichverteilung StatSoz 70

Linksschiefe Verteilung (negatively skewed) Verteilungsfläche fällt nach links langsamer ab als nach rechts; Linksschiefe=Rechtssteilheit. Abbildung 3 5 Beispiel für eine linksschiefe Verteilung StatSoz 71

Rechtsschiefe Verteilung (positively skewed) Verteilungsfläche fällt nach rechts langsamer ab als nach links (kommt in der Praxis häufiger vor); Rechtsschiefe=Linkssteilheit. Abbildung 3 6 Beispiel für eine rechtsschiefe Verteilung StatSoz 72

Symmetrische Verteilung Weder rechts noch linksschief; es gibt eine Symmetrieachse, sodass sich die rechte Verteilungsfläche spiegelbildlich zur linken Verteilungsfläche verhält. Abbildung 3 7 Beispiel für eine symmetrische Verteilung mit angepasster Normalverteilung StatSoz 73

Multimodale Verteilung unimodal=eingipflig bimodal=zweigipflig multimodal=mehrgipflig Die Verteilungen in den Abbildungen 3 5, 3 6 und 3 7 sind unimodal. Abbildung 3 8 Beispiel für eine bimodale Verteilung Bemerkung: Multimodalität deutet auf eine geschichtete Stichprobe (stratified sample) hin. StatSoz 74

Beachte: Bei relativen Häufigkeiten gilt stets Gesamtfläche der Balken = 1 bzw. bei Angaben in Prozent Gesamtfläche der Balken = 100 Referenzverteilungen Keine empirische Verteilung; Referenzverteilungen sind theoretische Verteilungen, deren Verlaufsformen durch mathematische Funktionen beschrieben werden. Wichtige Beispiele: StatSoz 75

Normalverteilung (Gaußsche Glockenkurve): ϕ(x) = c e x2 /2, x R Abbildung 3 9 Die Dichte ϕ Diese Verteilung ist unimodal und symmetrisch um die y Achse: ϕ(x) = ϕ( x). Die Konstante c wird so gewählt, dass ϕ(x) dx = 1 gilt. Lösung: c = 1 2π StatSoz 76

Chi Quadrat Verteilung f n (x) = { 0, x 0 c n e x/2 x n/2 1, x > 0 n N. Dabei wird die Konstante c n so gewählt, dass f n (x) dx = 1 gilt. Die Funktion f n heißt Dichte der χ 2 Verteilung mit n Freiheitsgraden. Abbildung 3 10 Die Dichten f 4 (links) und f 8 Diese Verteilungen sind unimodal und rechtsschief. StatSoz 77