4. Auswertung eindimensionaler Daten Ziel dieses Kapitels: Präsentation von Methoden zur statistischen Auswertung eines einzelnen Merkmals 64
Bezeichnungen (Wiederholung): Merkmalsträger: e 1,..., e n Grundgesamtheit: G = {e 1,..., e n } Zu untersuchendes Merkmal: X Mögliche Merkmalswerte: ξ 1,..., ξ J Daten in Urliste: x 1,..., x n 65
Fragestellungen: Formale und grafische Darstellung der Daten Berechnung aussagekräftiger Kenngrößen der Daten Vorgehensweise: Vorstellung der statistischen Methoden anhand des Skalenniveaus des Merkmals X 66
4.1 Beliebig skalierte Daten Skalenniveau des zu untersuchenden Merkmals X: Nominalskala (oder höher) Häufigkeiten des Merkmals X mit Ausprägungen ξ 1,..., ξ J : Absolute Häufigkeit der Ausprägung ξ j (j = 1,... J): n j = Anzahl von Daten mit Merkmalswert ξ j Relative Häufigkeit der Ausprägung ξ j (j = 1,... J): f j = n j n = Anteil von Daten mit Merkmalswert ξ j 67
Offensichtlich gilt: 0 n j n sowie J j=1 n j = n (warum?) 0 f j 1 sowie J j=1 f j = 1 (warum?) Jetzt: Mit den Begriffen der absoluten und relativen Häufigkeiten gelangt man zur 1. Darstellungsform des Merkmals X, nämlich zur Häufigkeitstabelle 68
Definition 4.1: (Häufigkeitstabelle) Unter der Häufigkeitstabelle des Merkmals X versteht man die folgende tabellarische Darstellung: j ξ j n j f j = n j /n 1 ξ 1 n 1 f 1 2. ξ 2. n 2. f 2. J ξ J n J f J Summe: n 1 69
Beispiel (Verkehrsmittelbenutzung): Grundgesamtheit bestehe aus 20 Beschäftigten eines Betriebes, d.h. G = {e 1,..., e 20 } Zu untersuchendes Merkmal X: Benutztes Verkehrsmittel zum Arbeitsplatz Merkmalsausprägungen: ξ 1 = Bus ξ 2 = PKW ξ 3 = Motorrad ξ 4 = Fahrrad ξ 5 = zu Fuß 70
Erhobene Urliste: 1, 1, 2, 2, 2, 4, 3, 5, 2, 2, 5, 2, 4, 1, 1, 2, 2, 1, 2, 1 Häufigkeitstabelle: j ξ j n j f j = n j /n 1 Bus 6 6/20 = 0.30 2 PKW 9 9/20 = 0.45 3 Motorrad 1 1/20 = 0.05 4 Fahrrad 2 2/20 = 0.10 5 zu Fuß 2 2/20 = 0.10 Summe: 20 1.00 71
Man beachte den folgenden Trade-Off : Übergang von Urliste zur Häufigkeitstabelle erhöht die Übersichtlichkeit führt zu einem Informationsverlust Grafische Darstellungen von Häufigkeitstabellen durch Säulendiagramme Balkendiagramme 72
Balken- oder Stabdiagramm (absolute Häufigkeiten) 10 8 6 4 2 0 Bus PKW Motorrad Fahrrad zu Fuß Kuchen- oder Kreisdiagramm (relative Häufigkeiten) Motorrad 5% Fahrrad 10% zu Fuß 10% PKW 45% Bus 30%
Vorsicht bei der Interpretation von Grafiken: Grafiken können auf viele Weisen manipuliert werden Manipulation muss nicht immer schlecht sein Verzerren der Achsen Bestimmte Bereiche werden hervorgehoben Bestimmte Bereiche werden unterdrückt Skalierungen der Y -Achsen Bestimmte Entwicklungen werden dramatisiert Bestimmte Entwicklungen werden verschwiegen 74
Wichtige Kennzahl einer Datenreihe ist der Modus: Definition 4.2: (Modus) Ein Merkmalswert ξ j heißt Modus, wenn seine (absolute oder relative) Häufigkeit mindestens so groß ist wie die aller anderen Merkmalswerte, d.h. wenn n j n k für alle k {1,..., J} gilt. Offensichtlich: Eine Datenreihe kann mehrere Modi aufweisen 75
4.2 Mindestens ordinal skalierte Daten Jetzt: Daten seien mindestens ordinal skaliert, d.h. erhobene Daten können sinnvoll geordnet werden Wichtige Darstellungsform der Daten: Empirische Verteilungsfunktion 76
Definition 4.3: (Empirische Verteilungsfunktion) Gegeben seien die Daten x 1,..., x n einer Urliste. Für jede reelle Zahl x R definiert man die empirische Verteilungsfunktion an der Stelle x (in Zeichen: F (x)) als den Anteil der Daten x 1,..., x n, die kleiner oder gleich x sind: Bemerkung: F (x) = Anzahl aller x i x. n Es gibt alternative Möglichkeiten, die empirische Verteilungsfunktion auszudrücken. Z.B. kann man alle Merkmalsausprägungen ξ j (j = 1,..., J) betrachten, die kleiner oder gleich x sind und deren relative Häufigkeiten f j = n j /n aufsummieren: F (x) = f j ξ j x 77
Beispiel (Klausurnoten): [I] 16 Studierende erzielten in einer Klausur die folgenden ganzzahligen Noten: 3, 4, 2, 1, 2, 4, 5, 5, 2, 1, 4, 5, 3, 3, 2, 4 Zur Berechnung der emp. VF sortieren wir die Urliste von der kleinsten zur größten Beobachtung 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5 78
Beispiel (Klausurnoten): [II] Die emp. VF ergibt sich wie folgt: F (x) = 0 16 2 16 6 16 9 16 = 0.0000 für x < 1 = 0.1250 für 1 x < 2 = 0.3750 für 2 x < 3 = 0.5625 für 3 x < 4 13 16 = 0.8125 für 4 x < 5 16 16 = 1.0000 für x 5 79
1 0,8 0,6 0,4 0,2 0 0 1 2 3 4 5 6 Bemerkung: Wir notieren die vom kleinsten Datenwert (Minimum) zum größten Datenwert (Maximum) geordnete Urliste als x (1) x (2)... x (n). (x (1) = Minimum der Urliste, x (n) = Maximum) 80
Eigenschaften der empirischen Verteilungsfunktion: [I] F (x) = 0 für alle x < x (1) F (x) = 1 für alle x x (n) F (x) ist eine Treppenfunktion. Sprünge erfolgen an den Stellen, die als Daten in der Urliste vorkommen. Die Sprunghöhe an der Stelle x = ξ j beträgt f j = n j /n. F (x) ist rechtsseitig stetig Ist die Urliste sehr lang (d.h. n sehr groß), so wird F (x) immer glatter 81
Eigenschaften der empirischen Verteilungsfunktion: [II] Aus F (x) lassen sich die beobachteten Merkmalswerte und deren relativen Häufigkeiten rekonstruieren. Kennt man zusätzlich noch n, so folgen aus F (x) auch die absoluten Häufigkeiten Wichtige Kennzahlen einer Datenreihe: Quantile Definition der Quantile über emp. Verteilungsfkt. F (x) 82
Definition 4.4: (p-quantil) Gegeben seien die Daten x 1,..., x n einer Urliste. Man betrachte eine beliebige reelle Zahl p mit 0 < p < 1. Das p-quantil (oder der p 100%-Punkt) der Daten (in Zeichen: x p ) ist definiert als x p = min {x R F (x) p} = kleinstes x R für das gilt F (x) p. Bemerkung: Das p-quantil x p ist also der kleinste Wert x R mit der Eigenschaft, dass mindestens p 100% der Daten kleiner oder gleich x p sind 83
Bisher: Bestimmung von Quantilen über emp. Verteilungsfunktion F (x) Jetzt: Technische Vorschrift (Algorithmus) zur Bestimmung von Quantilen aus der Urliste x 1,... x n (ohne Berechnung der emp. VF F (x)) Betrachte dazu: Geordnete Urliste der Daten x (1) x (2)... x (n) 84
Das p-quantil ist dann gegeben durch: x p = { x(n p), falls n p ganzzahlig ist x ( n p +1) sonst ( n p bezeichnet den ganzzahligen Anteil von n p) Definition 4.5: (Spezielle Quantile) Einige p-quantile haben besondere Namen: Median (p = 0.5): x 0.5 Quartile (p = 0.25, 0.5, 0.75): x 0.25, x 0.5, x 0.75 Quintile (p = 0.2, 0.4, 0.6, 0.8): x 0.2, x 0.4, x 0.6, x 0.8 85
Beispiel (Klausurnoten): [I] Urliste (ungeordnet) x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 3 4 2 1 2 4 5 5 x 9 x 10 x 11 x 12 x 13 x 14 x 15 x 16 2 1 4 5 3 3 2 4 Geordnete Urliste x (1) x (2) x (3) x (4) x (5) x (6) x (7) x (8) 1 1 2 2 2 2 3 3 x (9) x (10) x (11) x (12) x (13) x (14) x (15) x (16) 3 4 4 4 4 5 5 5 86
Beispiel (Klausurnoten): [II] Berechnung des 0.25-Quantils: n = 16, p = 0.25 n p = 16 0.25 = 4 (ganzzahlig) x 0.25 = x (n p) = x (4) = 2 Berechnung des Medians: n = 16, p = 0.5 n p = 16 0.5 = 8 (ganzzahlig) x 0.5 = x (n p) = x (8) = 3 Berechnung des 0.8-Quantils: n = 16, p = 0.8 n p = 16 0.8 = 12.8 (nicht ganzzahlig) x 0.8 = x ( n p +1) = x ( 12.8 +1) = x (12+1) = x (13) = 4 87
4.3 Metrisch skalierte Daten Jetzt: Metrisch skaliertes Merkmal X (vgl. Folie 29) Rechenoperationen mit Daten x 1,..., x n sinnvoll Unter dieser Voraussetzung: Einführung von Kennzahlen zur Beschreibung der Lage (Abschnitte 4.3.1, 4.3.2) der Streuung (Abschnitt 4.3.3) der Symmetrie (Abschnitt 4.3.6) der metrisch skalierten Daten x 1,..., x n 88
4.3.1 Lagemessung Wichtige Frage der deskriptiven Statistik: Beschreibung des Lagezentrums der erhobenen Daten x 1,..., x n durch geeignete Kennzahlen (Lagekennziffern, Lagemaße) Man beachte: Je nach Skalenniveau der Daten kommen unterschiedliche Lagemaße in Betracht 89
Beispiele: Für ordinal skalierte Daten kennen wir bereits den Modus (häufigster Wert einer Datenreihe) den Median (0.5-Quantil, 50%-Wert) Wichtigstes Lagemaß für metrisch skalierte Daten: Definition 4.6: (Arithmetisches Mittel) Für die metrisch skalierten Daten x 1,..., x n ist das arithmetische Mittel (auch: Mittelwert oder Durchschnitt) definiert durch x = 1 n (x 1 + x 2 +... + x n ) = 1 n n i=1 x i. 90
Eigenschaften des arithmetischen Mittels: [I] Arithm. Mittel und Merkmalssumme n i=1 x i = n x = x + x +... + x } {{ } n mal x liegt zwischen Minimum und Maximum: x (1) = min{x 1,..., x n } x max{x 1,..., x n } = x (n) Schwerpunkteigenschaft: n i=1 (x i x) = n i=1 x i n x = n x n x = 0 91
Eigenschaften des arithmetischen Mittels: [II] Minimumeigenschaft: Für x gilt: n i=1 (x i x) 2 = min c R n i=1 (x i c) 2 Weitere Berechnungsmöglichkeiten für x: Anhand von relativen bzw. absoluten Häufigkeiten (vgl. Folie 67) x = 1 n n i=1 x i = 1 n J j=1 ξ j n j = J j=1 ξ j f j 92
Beispiel: Grundgesamtheit: n = 520 Haushalte eines Vorortes Merkmal: Anzahl der Haushaltsmitglieder ξ j n j 1 188 2 173 3 79 4 56 5 20 6 4 Summe: 520 Durchschnittliche Haushaltsgröße: x = 1 520 (1 188 + 2 173 +... + 6 4) = 2.1519 93
Verallgemeinerung des arithmetischen Mittels: Das gewogene arithmetische Mittel: x w = n i=1 w i x i mit den Gewichten w 1,..., w n, wobei 0 w i 1 n i=1 w i = 1 94
Bemerkungen: Mit w 1 = w 2 =... = w n = 1/n ergibt sich das arithmetische Mittel als Spezialfall Das gewogene Mittel ist zu verwenden, falls das relative Gewicht einzelner Untersuchungseinheiten an der Grundgesamtheit von Bedeutung ist. Soll z.b. der durchschnittliche Strukturwandel in der BRD statistisch erfasst werden, so sind bei der Durchschnittsbildung über die einzelnen Bundesländer deren wirtschaftliche Kapazitäten zu berücksichtigen. Z.B. erhält in der Strukturberichterstattung der gemessene Strukturwandel in NRW ein höheres Gewicht als der des Saarlandes. 95
Arithmetisches Mittel vs. Median Wiederholung (vgl. Folie 85): Median ist 0.5-Quantil x 0.5 = { x (n/2), x ( n/2 +1), falls n gerade falls n ungerade Man beachte: Sowohl das arithmetische Mittel x als auch der Median x 0.5 sind populäre Lagemaße 96
Vergleich Mittelwert / Median: In die Berechnung von x fließen alle Beobacht. ein Vorteil: Es wird keinerlei Information verschenkt Nachteil: x reagiert empfindlich auf extreme Ausreißer in den Daten x 0.5 wird durch Ermittlung der mittleren Position der geordneten Urliste bestimmt ist robust gegenüber extremen Datenaus- Vorteil: x 0.5 reißern Nachteil: Es wird Information verschenkt, da nur die Position der Beobachtungen eine Rolle spielt 97
4.3.2 Weitere Mittelwerte Neben dem (gewogenen) arithmetischen Mittel gibt es eine Reihe weiterer Mittelwerte: Definition 4.7: (Harmonisches, geometrisches Mittel) Es seien x 1,..., x n metrisch skalierte Daten mit x i > 0 für i = 1,..., n. Das harmonische Mittel x H sowie das geometrische Mittel x G sind definiert als x H = 1 1 n n i=1 1 x i = 1 n n i=1 x 1 i 1 98
bzw. x G = n x 1 x 2... x n = n x i i=1 1 n. Spezielle Anwendungsgebiete: Harmonisches Mittel: Indizes vom Typ Paasche (Kapitel 5) Geometrisches Mittel: Wachstumsfaktoren und Wachstumsraten (Kapitel 5) 99
4.3.3 Streuungsmaße Weitere Frage der dekriptiven Statistik: Wie stark streuen die Daten x 1,..., x n um ein geeignet definiertes Zentrum? (Kennzahlen: Streuungs- oder Dispersionsmaße) Man beachte: Mit alternativen Lagemaßen für das Zentrum ergeben sich unterschiedliche Streuungsmaße Wichtigste Streuungsmaße für metrische Daten: Varianz und Standardabweichung 100
Definition 4.8: (Varianz, Standardabweichung) Für die metrisch skalierten Daten x 1,..., x n ist die Varianz (in Zeichen: s 2 ) definiert durch s 2 = 1 n n i=1 (x i x) 2. Die Standardabweichung (in Zeichen: s) ist definiert als die Wurzel aus der Varianz, d.h. s = s 2 = 1 n n (x i x) 2. Bemerkung: i=1 Meist wird bei der Berechnung von s 2 bzw. s nicht durch n, sondern durch n 1 dividiert (Begründung: in Statistik II) 101
Eigenschaften von s 2 und s: [I] s 2 hat quadratische Dimension, s hat gleiche Dimension wie die Daten x 1,..., x n Es gilt stets: s 2 0 und s 0 Ferner: s = 0 s 2 = 0 x 1 = x 2 =... = x n, d.h. Varianz und Std.Abwch. sind genau dann gleich 0, wenn alle Daten gleich sind (keine Streuung) 102
Eigenschaften von s 2 und s: [II] Alternative Darstellungen: s 2 = 1 n n i=1 x 2 i x2 (Proseminar) s 2 = 1 2n 2 n n i=1 j=1 ( xi x j ) 2 103
Zwei weitere zentrale Eigenschaften: [I] Es seien a, b R und x 1,..., x n erhobene Daten eines Merkmals X. Das Merkmal Y sei eine lineare Transformation von X, d.h. Y = a X + b, so dass für die Daten des Merkmals Y gilt y i = a x i + b für alle i = 1,..., n. Dann folgt für die Varianz s 2 Y s Y des Merkmals Y : bzw. die Standardabweichung s 2 Y = a2 s 2 X bzw. s Y = a s X 104
Zwei weitere zentrale Eigenschaften: [II] Für jede reelle Zahl c R gilt der Verschiebungssatz: 1 n n i=1 (x i c) 2 = s 2 + (x c) 2 Hieraus folgt die Minimumeigenschaft des arithmetischen Mittels (vgl. Folie 92): Die durchschnittliche quadratische Abweichung der Daten von einem Bezugspunkt c wird minimal, wenn man c = x wählt 105
Alternative Streuungsmaße: [I] Mittlere absolute Abweichung vom Median: d = 1 n n i=1 x i x 0.5 Es gilt die Minimierungseigenschaft: d = min c R 1 n n i=1 x i c Quartilsabstand Q Q = x 0.75 x 0.25 (Länge des Bereichs mit mittleren 50% der Daten) 106
Alternative Streuungsmaße: [II] Spannweite R R = max {x i} i=1,...,n (Länge des gesamten Datenbereichs) min i=1,...,n {x i} = x (n) x (1) Jetzt: Berechnung von Streuungsmaßen anhand von Häufigkeiten Zur Erinnerung (vgl. Folie 67): Merkmal X hat die J Ausprägungen ξ 1,..., ξ J mit den jeweiligen absoluten Häufigkeiten n 1,..., n J 107
Damit folgende Formeln für die Streuungsmaße: s 2 = 1 n s = J j=1 1 J n j=1 ( ξj x ) 2 nj ( ξj x ) 2 nj d = 1 n J j=1 ξ j x 0.5 nj R = max j=1,...,j {ξ j n j > 0} min {ξ j n j > 0} j=1,...,j 108
4.3.4 Additionssätze für arithmetische Mittel und Varianzen Ausgangssituation: Grundgesamtheit G gliedert sich in K Teilgesamtheiten G 1,..., G K Mittelwerte bzw. Varianzen in den K Teilgesamtheiten sind x 1,..., x K bzw. s 2 1,..., s2 K Umfänge der Teilgesamtheiten seien n 1,..., n K Damit ist der Umfang der Grundgesamtheit n = K n k k=1 109
Frage: Zusammenhänge zwischen dem Mittelwert x bzw. der Varianz s 2 der Grundgesamtheit und den Mittelwerten bzw. Varianzen der Teilgesamtheiten? Additionssatz für Mittelwerte: x = K k=1 x k nk n (Mittelwert der Grundgesamtheit ist gewichtetes Mittel der Mittelwerte der Teilgesamtheiten) 110
Additionssatz für Varianzen: s 2 = K s 2 k nk n k=1 } {{ } =s 2 int + K (x k x) 2 nk n k=1 } {{ } =sext 2 Bedeutung der internen bzw. externen Varianzen s 2 int, s2 ext : Interne Varianz ist gewichtetes Mittel aus den Varianzen der Teilgesamtheiten Externe Varianz ist gewichtete quadratische Abweichung der Mittelwerte x k der K Teilgesamtheiten vom Mittelwert x der Grundgesamtheit 111
Offensichtlich: Gesamtvarianz lässt sich exakt in Summe aus interner und externer Varianz zerlegen: s 2 = s 2 int + s2 ext Beispiel: 100 (Wieder-)Erwerbstätige wurden nach der Dauer X der früheren Arbeitslosigkeit befragt (in Monaten) Frauen Männer Anzahl 60 40 Mittlere Arbeitslosigkeitsdauer 9.2 7.4 Std.-Abwchg. der Arbeitslosigkeitsdauer 4.1 3.2 112
Berechnungen: x = 9.2 s 2 int = 4.1 2 60 100 + 7.4 40 100 = 8.48 60 100 + 3.22 s 2 ext = (9.2 8.48) 2 40 100 = 14.182 60 100 + (7.4 8.48)2 40 100 = 0.7776 s 2 = s 2 int + s2 ext = 14.182 + 0.7776 = 14.9596 s = 14.9596 3.9 113
4.3.5 Stetig klassierte Daten Häufiges praktisches Problem: Daten liegen nicht als Urliste x 1,..., x n vor (Einzeldaten), sondern zusammengefasst nach Klassen (stetig klassierte oder Gruppendaten) Beispiel: Verfügbares Monatseinkommen (in Euro) von 5000 Studierenden 114
f j EK-Klasse K j Studierende n j f j j x o j xu j 1 0 bis 250 300 0.06 0.00024 2 mehr als 250 bis 500 1000 0.20 0.00080 3 mehr als 500 bis 750 2000 0.40 0.00160 4 mehr als 750 bis 1000 1000 0.20 0.00080 5 mehr als 1000 700 0.14 Summe: 5000 1.00 Grund für stetige Klassierung: Bei sehr langen Datenreihen ist die Angabe von Häufigkeiten jedes einzelnen Datenpunktes oft sinnlos 115
Notationen zur Auswertung stetig klassierter Daten: Betrachte die J Klassen (Intervalle) K 1 = [x u 1, xo 1 ], K j = (x u j, xo j ], j = 2,..., J, wobei für die Intervallgrenzen gelten soll x u 1 < xo 1 = xu 2 < xo 2 = xu 3 < xo 3 <... < xo J 1 = xu J < xo J Bemerkungen: Die untere Grenze x1 u der 1. Klasse kann sein Die obere Grenze x o J der J. Klasse kann sein n j ist die Anzahl der Daten in Klasse K j f j = n j n ist der Anteil der Daten in Klasse K j 116
Damit: Die Häufigkeitsverteilung der stetig klassierten Daten ist gegeben durch bzw. durch (K 1, n 1 ), (K 2, n 2 ),..., (K J, n J ) (K 1, f 1 ), (K 2, f 2 ),..., (K J, f J ) Bemerkung: Es wird nichts über die Datenverteilung innerhalb der Klassen ausgesagt Informationsverlust 117
Probleme bei der stetigen Klassierung: Wieviele Klassen J soll man wählen? Faustregel: Wähle bei n Daten J 10 log 10 n Soll man die J Klassen alle gleich breit wählen? Ist es möglich, die oberste Klasse durch eine endliche Obergrenze sinnvoll abzuschließen? 118
Definition 4.9: (Empirische Dichte, Histogramm) Den Quotienten n j n (x o j xu j ) = f j x o j xu j bezeichnet man als empirische Dichte der Daten in der Klasse K j, j = 1, 2,..., J. Trägt man die empirischen Dichten als waagerechte Linien über den Klassen ab und zeichnet an den Klassengrenzen senkrechte Linien in Höhe der jeweiligen emprischen Dichten ein, so entsteht ein Histogramm der Daten. 119
Empirische Dichten und Histogramm zum Beispiel Studierende 0,002 0,0016 0,0012 0,0008 0,0004 0 0 250 500 750 1000 1250 1500 120
Bemerkungen zum Histogramm: Das Rechteck über der Klasse j hat die Fläche (x o j xu j ) f j x o j xu j = f j Die Gesamtfläche unter dem Histogramm beträgt 1, denn Gesamtfläche = Summe der Rechteckflächen = J j=1 (xj o xu j ) f j x o j xu j = J j=1 f j = 1 121
Jetzt: Berechnung statistischer Kenngrößen bei stetig klassierten Daten Zunächst: Empirische Verteilungsfunktion und Quantile Erinnerung: (vgl. Folie 77, Definition 4.3) Der Wert der emp. Verteilungsfunktion F (x) ist definiert als Anteil der Daten, die kleiner oder gleich x sind 122
Problem bei stetiger Klassierung: Verteilung der Daten in Klasse K j ist unbekannt Für ein x K j (x nicht auf der Ober- oder Untergrenze) ist der Anteil nicht bestimmbar Vorgehensweise: Betrachte zunächst die x R, für die die emp. Verteilungsfunktion F (x) exakt berechenbar ist 123
Zunächst gilt: F (x) = 0 für x < x u 1 1 für x x o J Weiterhin gilt an den Obergrenzen aller Klassen: F (x o j ) = j f r r=1 für alle j = 1, 2,..., J Übrig bleibt: Berechnung von F (x) für x (x u j, xo j ] 124
Vorgehensweise: Lineare Interpolation von F (x) für x (x u j, xo j ]: F (x) F (x u j ) + f j x o j xu j = F (x o j 1 ) + f j x o j xu j (x x u j ) (x x u j ) = j 1 r=1 f r + f j x o j xu j (x x u j ) 125
Beispiel: (vgl. Folien 114, 115) [I] Monatseinkommen von 5000 Studierenden Obergrenze der letzten Klasse wurde willkürlich auf 1500 Euro gesetzt j EK-Klasse K j f j F (x o j ) 1 0 bis 250 0.06 0.06 2 mehr als 250 bis 500 0.20 0.26 3 mehr als 500 bis 750 0.40 0.66 4 mehr als 750 bis 1000 0.20 0.86 5 mehr als 1000 bis 1500 0.14 1.00 126
Beispiel: [I] Zwischen Klassengrenzen wird linear interpoliert, z.b. F (650) f 1 + f 2 + f 3 x o 3 (x x u xu 3 ) 3 = 0.26 + Empirische Verteilungsfunktion zum Beispiel Studierende 0.4 (650 500) = 0.5 750 500 1 1 0,8 0,86 F(x) 0,6 0,4 0,66 0,2 0 0,26 0,06 0 500 1000 1500 x 127
Jetzt: Berechnung von Quantilen bei stetiger Klassierung über empirische Verteilungsfunktion F (x) (vgl. Folie 83, Definition 4.4) Zusatzannahme: Keine der Klassen K j besitzt die Häufigkeit 0 = Emp. VF F (x) ist streng monoton wachsend = Für jedes p (0, 1) hat die Gleichung F (x) = p eine eindeutige Lösung, nämlich das p-quantil x p 128
Explizite Berechnung von x p : [I] 1. Bestimme die Klasse K j in der x p liegt, d.h. bestimme das j für das gilt F (x u j ) < p F (xo j ) 2. Löse die Gleichung p = F (x u j ) + f j x o j (x x xu j u ) j nach x auf. Die Lösung approximiert das Quantil x p. 129
Explizite Berechnung von x p : [II] p = F (x u j ) + f j x o j xu j (x x u j ) x x u j = p F (xu j ) f j (x o j xu j ) x = x u j + p F (xu j ) f j (x o j xu j ) x = x u j + p F (xu j ) F (x o j ) F (xu j )(xo j xu j ) } {{ } x p 130
Beispiel: (vgl. Folie 126, Einkommen Studierende ) Gesucht: unteres Quartil x 0.25 Berechnung von x 0.25 : 1. 0.06 = F (x u 2 ) < 0.25 0.26 = F (xo 2 ), d.h. x 0.25 K 2 = (250, 500] 2. Damit folgt: x 0.25 250 + 0.25 0.06 (500 250) = 487.5 0.26 0.06 131
Es verbleibt: Berechnung weiterer statistischer Kennzahlen, z.b. Arithmetisches Mittel Varianz bzw. Standardabweichung (Nicht in der VL) 132
4.3.6 Schiefemessung Situation: Betrachte Urliste x 1,..., x n (keine stetige Klassierung) Wichtige praktische Feststellung: In der empirischen Wirtschaftsforschung werden Kennzahlen wie arithmetisches Mittel, Varianz, Standardabweichung etc. in der Praxis nicht per Hand ausgerechnet, sondern mit spezieller Auswertungssoftware (z.b. EViews) 133
Beispiel: (vgl. Folie 12) Tägliche Wechselkursveränderungsraten der griechischen Drachme zum Euro Stabdiagramm und statistische Kennzahlen für GRD-Veränderungsraten 500 400 300 200 100 0-1.0-0.5 0.0 0.5 Series: GRD_RET Sample 16/12/1998 1/01/2001 Observations 748 Mean 0.005082 Median 0.000000 Maximum 0.817738 Minimum -1.295992 Std. Dev. 0.114130 Skewness -1.693633 Kurtosis 38.21140 Jarque-Bera 38999.36 Probability 0.000000 134
600 500 Sy mmetris c he Verteilung Series: SYMMETRIE Sample 1 5000 Observations 5000 400 300 200 100 0-4 -3-2 -1 0 1 2 3 Mean -0.007964 Median 0.004551 Maximum 3.433310 Minimum -3.982642 Std. Dev. 0.994190 Skewness -0.019422 Kurtosis 2.939408 Jarque-Bera 1.079224 Probability 0.582974 600 500 Rechtsschiefe Verteilung Series: RECHTS Sample 1 5000 Observations 5000 400 300 200 100 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Mean 0.168041 Median 0.150735 Max imum 0.661654 Minimum 0.002084 Std. Dev. 0.102757 Skewness 0.865684 Kurtosis 3.650617 Jarque-Bera 712.6960 Probability 0.000000 600 500 400 300 200 100 0 Linksschiefe Verteilung 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Series: LINKS Sample 1 5000 Observations 5000 Mean 0.830835 Median 0.851905 Maximum 0.996949 Minimum 0.280793 Std. Dev. 0.104683 Skewness -0.896282 Kurtosis 3.619218 Jarque-Bera 749.3160 Probability 0.000000
Fazit: Datenreihen zeigen unterschiedliches Symmetrieverhalten Jetzt: Kennzahl für Symmetrieverhalten 136
Definition 4.10: (Schiefe) Die Schiefe einer Urliste x 1,..., x n ist definiert durch n ( xi x ) 3, wobei wie üblich und g = 1 n s = i=1 x = 1 n 1 n n i=1 s n x i i=1 (x i x) 2 das arithmetische Mittel sowie die Standardabweichung der Daten bezeichnen. 137
Bemerkungen: Der zentrale Term in Definition 4.10 ist n i=1 (x i x) 3 Liegen viele Daten x i rechts von x, so ist g tendenziell positiv Liegen viele Daten x i links von x, so ist g tendenziell negativ Insgesamt gelten die folgenden Relationen: g < 0 g 0 g > 0 = Verteilung ist linksschief = Verteilung ist symmetrisch = Verteilung ist rechtsschief 138