WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 07052013 Mittelwerte und Lagemaße II 1 Anwendung und Berechnung der wichtigsten Mittelwerte Modus Median Arithmetisches Mittel Geometrisches Mittel Harmonisches Mittel 2 Verfahren der Gewichtung und Interpolation 3 Weitere Eigenschaften von Mittelwerten 4 Ein Anwendungsbeispiel Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2 Aufl, München-Wien 2002, S 37-43 Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, Berlin- Heidelberg-New York 2003, S 34-42 von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online Ausgabe S 46-82 und S 318 Weitere Übungsaufgaben zu Mittelwerten: SAK WS 07/08, A2 SAK SS 08, A1 SAK SS 09, A2 SAK SS 10, A3 SAK SS 12, A2 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013
Mittelwerte und Lagemaße Datenlage B Datenlage B: Häufigkeitstabellen Liste der von einander verschiedenen Merkmalsausprägungen und deren Häufigkeit Nr Merkmalsausprägung einfache Häufigkeit kumulierte Häufigkeit absolut relativ absolut relativ i x i h i f i H i F i 1 x 1 h 1 f 1 H 1 F 1 2 x 2 h 2 f 2 H 2 F 2 m x m h m f m H m = n F m =1 Summe n 1 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 2
Relative Häufigkeit f Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Fiktives Zahlenbeispiel, quantitatives Merkmal x, 20 Beobachtungswerte: 5,6,4,2,8,3,7,5,5,3,6,4,2,3,4,6,5,7,5,1 Quelle für das Zahlenbeispiel: Abels, Heiner: Wirtschafts- und Bevölkerungsstatistik, 4 Aufl, Wiesbaden 1993, S 209 Geordnete Urliste i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x (i) 1 2 2 3 3 3 4 4 4 5 5 5 5 5 6 6 6 7 7 8 Häufigkeitstabelle x i h i f i H i F i 1 1 0,05 1 0,05 2 2 0,1 3 0,15 3 3 0,15 6 0,3 4 3 0,15 9 0,45 5 5 0,25 14 0,7 6 3 0,15 17 0,85 7 2 0,1 19 0,95 8 1 0,05 20 1 Summe 20 1 0,3 0,25 0,2 0,15 0,1 0,05 0 Stabdiagramm 1 2 3 4 5 6 7 8 Merkmal x Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 3
Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Modus = Merkmalsausprägung mit der größten absoluten oder relativen Häufigkeit Häufigkeitstabelle x i h i f i H i F i 1 1 0,05 1 0,05 2 2 0,1 3 0,15 3 3 0,15 6 0,3 4 3 0,15 9 0,45 5 5 0,25 14 0,7 6 3 0,15 17 0,85 7 2 0,1 19 0,95 8 1 0,05 20 1 Summe 20 1 max i max i h i = h 5 = 5 f i = f 5 = 0,25 Modus = x 5 = 5 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 4
Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Median = Zentralwert Merkmalsausprägung, die in der Mitte der geordneten Urliste steht Teilt die Liste in zwei Hälften Häufigkeitstabelle x i h i f i H i F i 1 1 0,05 1 0,05 2 2 0,1 3 0,15 3 3 0,15 6 0,3 4 3 0,15 9 0,45 5 5 0,25 14 0,7 6 3 0,15 17 0,85 7 2 0,1 19 0,95 8 1 0,05 20 1 Summe 20 1 Median = x i für F i 1 < 0,5 < F i 1 2 x i + x i+1 für 0,5 = F i F 4 = 0,45 < 0,5 < 0,7 = F 5 Median = x = x 5 = 5 oder alternativ: Median = x i für H i 1 < n 2 < H i 1 2 x n i + x i+1 für 2 = F i H 4 = 9 < 10 < 14 = H 5 Median = x = x 5 = 5 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 5
Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Arbeitstabelle Arithmetisches Mittel Rechnerischer Durchschnitt, Summe der Beobachtungswerte dividiert durch deren Anzahl Bei Datenlage B ist eine Gewichtung der Merkmalsausprägungen mit den absoluten oder relativen Häufigkeiten erforderlich Gewichtetes arithmetisches Mittel (GAM) x i h i f i x i h i x i f i 1 1 0,05 1 0,05 2 2 0,1 4 0,2 3 3 0,15 9 0,45 4 3 0,15 12 0,6 5 5 0,25 25 1,25 6 3 0,15 18 0,9 7 2 0,1 14 0,7 8 1 0,05 8 0,4 Summe 20 1 91 4,55 m GAM = x = 1 n x i h i i=1 x = 91 20 = 4,55 oder alternativ: m GAM = x = x i f i i=1 x = 4,55 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 6
Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Harmonisches Mittel Rechnerischer Durchschnitt, Kehrwert des arithmetischen Mittels der Kehrwerte der Beobachtungswerte Bei Datenlage B ist eine Gewichtung der Kehrwerte der Merkmalsausprägungen mit den absoluten oder relativen Häufigkeiten erforderlich Gewichtetes harmonisches Mittel (GHM) Arbeitstabelle x i h i f i h i x i f i x i 1 1 0,05 1 0,05 2 2 0,1 1 0,05 3 3 0,15 1 0,05 4 3 0,15 0,75 0,0375 5 5 0,25 1 0,05 6 3 0,15 0,5 0,025 7 2 0,1 0,2857 0,01429 8 1 0,05 0,125 0,0063 Summe 20 1 5,6607 0,2830 GHM = n m h i x i i=1 GHM = 20 5,6607 = 3,5331 oder alternativ: GHM = 1 m f i x i i=1 GHM = 1 0,2830 = 3,5331 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 7
Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Geometrisches Mittel Rechnerischer Durchschnitt, n-te Wurzel aus dem Produkt der Beobachtungswerte Bei Datenlage B sind die Merkmalsausprägungen mit den absoluten Häufigkeiten zu potenzieren Gewichtetes geometrisches Mittel (GGM) Arbeitstabelle x i h i f i x i h i 1 1 0,05 1 2 2 0,1 4 3 3 0,15 27 4 3 0,15 64 5 5 0,25 3125 6 3 0,15 216 7 2 0,1 49 8 1 0,05 8 20 1 1828915200000 n m GGM = x i h i i=1 20 GGM = 1828915200000 = 4,1031 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 8
Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Zahlenbeispiel Absolventenumfrage 2002, Merkmal Alter : Nr Merkmalsausprägung einfache Häufigkeit kumulierte Häufigkeit absolut relativ absolut relativ i x i h i f i H i F i 1 23 1 0,0256 1 0,0256 2 24 1 0,0256 2 0,0513 3 25 6 0,1538 8 0,2051 4 26 10 0,2564 18 0,4615 5 27 4 0,1026 22 0,5641 6 28 5 0,1282 27 0,6923 7 29 4 0,1026 31 0,7949 8 30 4 0,1026 35 0,8974 9 31 2 0,0513 37 0,9487 10 32 1 0,0256 38 0,9744 11 33 0 0,0000 38 0,9744 12 34 1 0,0256 39 1 Summe 39 1 max h i = 10 Modus = 26 0,4615 < 0,5 < 0,5641 Median = 27 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 9
Mittelwerte und Lagemaße Datenlage B Zahlenbeispiel Zahlenbeispiel Absolventenumfrage 2002, Merkmal Alter : Nr Merkmalsausprägung einfache Häufigkeit absolut relativ Arithmetisches Mittel i x i h i f i x i h i 1 23 1 0,0256 23 2 24 1 0,0256 24 3 25 6 0,1538 150 4 26 10 0,2564 260 5 27 4 0,1026 108 6 28 5 0,1282 140 7 29 4 0,1026 116 8 30 4 0,1026 120 9 31 2 0,0513 62 10 32 1 0,0256 32 11 33 0 0,0000 0 12 34 1 0,0256 34 Summe 39 1 1069 GAM = m i=1 x i h i m i=1 GAM = 1069 39 = 27,41 h i max h i = 10 Modus = 26 0,4615 < 0,5 < 0,5641 Median = 27 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 10
Mittelwerte und Lagemaße Datenlage C Datenlage C Gegeben sind: k Klassen G 1,, G k mit den Mittelpunkten x 1,, x k und den Grenzen a i 1, a i ) mit der Klassenbreite i = a i a i 1 und den absoluten Häufigkeiten h i der Klasse G i, wobei i = 1,, k Häufigkeitstabelle: Klasse Grenzen Klassenmitte Klassenbreite einfache Häufigkeit kumulierte Häufigkeit absolut relativ absolut relativ i a i 1, a i ) x i Δ i a i a i 1 h i f i H i F i 1 a 0, a 1 ) x 1 1 h 1 f 1 H 1 F 1 2 a 1, a 2 ) x 2 2 h 2 f 2 H 2 F 2 k a k 1, a k ) x k k h k f k H k = 1 F k = 1 Summe n 1 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 11
Mittelwerte und Lagemaße Datenlage C Zahlenbeispiel Zahlenbeispiel: Absolventenumfrage, Merkmal Alter beim Examen 5 Klassen, identische Breite D = 3 i a i-1 a i x i i h i f i H i F i 1 21 24 22,5 3 1 0,0256 1 0,0256 2 24 27 25,5 3 17 0,4359 18 0,4615 3 27 30 28,5 3 13 0,3333 31 0,7949 4 30 33 31,5 3 7 0,1795 38 0,9744 5 33 36 34,5 3 1 0,0256 39 1 Summe 39 1 Annahme: Entweder Gleichverteilung oder symmetrische Verteilung innerhalb der Klassen Modus: Mittelpunkt der modalen Klasse Modus = 25,5 Median: Interpoliertes 0,5-Quantil Median = 27,3 Arithmetisches Mittel: GAM der Klassenmittelpunkte GAM = 27,7 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 12
Häufigkeitsdichte Mittelwerte und Lagemaße Datenlage C Modus Ermittlung des Modus durch quadratische Interpolation: Man bestimmt zunächst die Klasse G i mit der größten Häufigkeit G i heißt modale Klasse Sind die Klassenbreiten unterschiedlich, so ist zur Ermittlung der modalen Klasse auf die Häufigkeitsdichte h i / i zurückzugreifen Die modale Klasse ist in diesem Fall diejenige mit der größten Häufigkeitsdichte Dann Modus, quadratische Interpolation betrachtet man das Histogramm für die Klasse G i und die beiden benachbarten Klassen G i 1 und G i+1 h i D i Man legt ein quadratisches Polynom y = f x Rechteckseiten mit den Koordinaten x i 1, h i 1 Δ i 1 x i-1 x i Modus x i+1 = a x 2 + b x + c durch die drei Mittelpunkte der oberen x i, h i Δ i x i+1, h i+1 Δ i+1 Die Stelle, für die f(x) das Maximum annimmt, wird als Modus gewählt Diese bestimmen a, b und c eindeutig Dieses Verfahren berücksichtigt die gegebene Häufigkeitsverteilung derart, dass sich der Modus innerhalb der modalen Klasse nicht im Mittelpunkt dieser Klasse, sondern näher an der dichter besetzten Nachbarklasse befindet Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 13
Häufigkeitsdichte Mittelwerte und Lagemaße Datenlage C Modus Näherungslösung zur quadratischen Interpolation (nur bei exakt gleichen Gruppenbreiten) h i Modus, quadratische Interpolation Näherungslösung D i D Du a i-1 x i-1 x i Modus x i+1 a i Es gilt (nach Strahlensätzen): Modus a i 1 a i M = Δu Δo = h i h i 1 h i h i+1 Modus = a i h i h i 1 + a i 1 (h i h i+1 ) h i h i 1 + h i h i+1 Achtung: Bei unterschiedlichen Klassenbreiten sind in der Formel die absoluten Häufigkeitsdichten g i = h i i anstelle von h i zu verwenden Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 14
Mittelwerte und Lagemaße Datenlage C Modus Zahlenbeispiel: Absolventenumfrage, Merkmal Alter beim Examen 5 Klassen, identische Breite D = 3 i a i-1 a i x i i h i f i H i F i 1 21 24 22,5 3 1 0,0256 1 0,0256 2 24 27 25,5 3 17 0,4359 18 0,4615 3 27 30 28,5 3 13 0,3333 31 0,7949 4 30 33 31,5 3 7 0,1795 38 0,9744 5 33 36 34,5 3 1 0,0256 39 1 Summe 39 1 Annahme: Entweder Gleichverteilung oder symmetrische Verteilung innerhalb der Klassen Modale Klasse: Identische Klassenbreiten Klasse mit der größten absoluten oder relativen Häufigkeit max h i = 17 Klasse 2 Modus: Mittelpunkt der modalen Klasse Modus = 25, 5 Modus: Quadratische Interpolation: M = a i h i h i 1 +a i 1 (h i h i+1 ) = 27 17 1 +24 (17 13) 17 1 + 17 13 = 528 20 h i h i 1 + h i h i+1 = 26,4 Modus = 26, 4 Falls in der Aufgabenstellung nichts anderes gesagt wird, reicht es aus, den Modus als Mittelpunkt der modalen Klasse zu bestimmen! Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 15
Mittelwerte und Lagemaße Datenlage C Zusammenfassung Berechnung der Mittelwerte bei Datenlage C: Modus Schritt 1: Ermittlung der modalen Klasse i Bei identischen Klassenbreiten: max (h i ) Bei unterschiedlichen Klassenbreiten: max g i = max h i i Schritt 2: Einfache Variante: Modus = Mittelpunkt der modalen Klasse Median Quadratische Interpolation: Modus = a i h i h i 1 +a i 1 (h i h i+1 ) h i h i 1 + h i h i+1 bzw Modus = a i g i g i 1 +a i 1 (g i g i+1 ) g i g i 1 + g i g i+1 Berechnung des 0,5-Quantils durch lineare Interpolation x 0,5 a i 1 + Δ i 0,5 F i 1 F i F i 1 = a i 1 + Δ i 0,5 n H i 1 H i H i 1 Arithmetisches, harmonisches und geometrisches Mittel werden wie bei Datenlage B als gewichtete Mittelwerte berechnet, aber unter Verwendung der Klassenmittelpunkte als Merkmalsausprägung x i Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 16
Mittelwerte und Lagemaße Datenlage C Zahlenbeispiel Zahlenbeispiel: Absolventenumfrage, Merkmal Alter beim Examen 5 Klassen, identische Breite D = 3 Vergleich mit den Ergebnissen ohne Klassenbildung: Mit Klassenbildung Ohne Klassenbildung Abweichung Modus, Klassenmitte 25,5 26 1,92% Modus, quadratisch interpoliert 26,4 26 + 1,54% Median 27,3461 27 + 1,28% Arithmetisches Mittel 27,7308 27,4103 + 1,17% Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 17
Mittelwerte und Lagemaße Datenlage C Allgemeine Aussagen, Anwendbarkeit Allgemeine Aussagen x i = const i = 1,, n Modus = Median = AM = GM = HM HM < GM < AM, falls x i nicht konstant Lageregel von Fechner: Modus Median Arithmetisches Mittel linkssteile Verteilung Arithmetisches Mittel Median Modus rechtssteile Verteilung Modus Median Arithmetisches Mittel symmetrische Verteilung Anwendbarkeit der Mittelwerte in Abhängigkeit vom Skalenniveau Nominalskala Ordinalskala Intervallskala Verhältnisskala Modus Median AM GM HM Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 18
Mittelwerte und Lagemaße Datenlage C Allgemeine Aussagen, Anwendbarkeit Simpson Paradoxon Th Simpson, 1710 1761: Ein Mittelwert oder eine Verhältniszahl (zb eine Quote, ein Anteilswert) kann für eine Gesamtheit A größer sein als für eine Gesamtheit B, obwohl diese Größe (Mittelwert oder Verhältniszahl) in allen Teilgesamtheiten von A kleiner ist als in denen von B Beispiel (aus v d Lippe 1993, S 318): Sterbeziffern (Todesraten) bei Geistlichen und Bergarbeitern Alters- Geistliche Bergarbeiter klasse Lebende Gestorbene Rate Lebende Gestorbene Rate < 50 100 10 0,10 600 80 0,13 50 900 540 0,60 400 280 0,70 insgesamt 1000 550 0,55 1000 360 0,36 Erklärung durch Struktureffekt: Die Bergarbeiter sind jünger (60% jünger als 50 Jahre), sodass bei ihnen die Todesrate von 0,13 stärker gewichtet in den Mittelwert eingeht: GAM Geistliche = 100 0,1 + 900 0,6 1000 = 0,55 GAM(Bergabeiter) = 600 0,13 + 400 0,7 1000 = 0,36 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 19
Mittelwerte und Lagemaße Datenlage C Anwendungsbeispiel Anwendungsbeispiel: Die Einkommens- und Verbrauchsstichprobe 2008 lieferte folgende Daten zur Verteilung der Haushaltsnettoeinkommen privater Haushalte in West- und Ostdeutschland: (Quelle: Statistisches Bundesamt, Fachserie 15, Heft 4: Wirtschaftsrechnungen, Wiesbaden 2010, Ü11) Haushaltsnettoeinkommen 2008 je Haushalt und Monat Angaben in Euro Angaben in 1 000 Haushalten von bis unter Früheres Bundesgebiet Beitrittsgebiet 0 900 2 534 903 900 1 300 3 338 1 176 1 300 1 500 1 737 536 1 500 2 000 4 547 1 260 2 000 2 600 4 488 1 179 2 600 3 600 5 656 1 150 3 600 5 000 5 059 684 5 000 18 000 4 729 435 Summe 32 088 7 323 Aus diesen Daten lassen sich die nebenstehenden Mittelwerte berechnen: West Ost Modus (Klassenmitte) 1 750 1 100 Modus (quadr interpoliert) 1 601 1 253 Median 2 520 1 915 Arithmetisches Mittel 3 715 2 578 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 20
Mittelwerte und Lagemaße Datenlage C Anwendungsbeispiel Berechnung der Werte für Ostdeutschland: 1 Modus Zur Ermittlung der modalen Klasse müssen die Häufigkeitsdichten bestimmt werden, da die Klassenbreiten nicht gleich sind Haushaltsnettoeinkommen 2008 je Haushalt und Monat, Beitrittsgebiet von bis unter absolute Häufigkeit Klassenbreite Häufigkeitsdichte a i 1 a i h i i g i = h i i 0 900 903 900 1,0033 900 1 300 1 176 400 2,9400 1 300 1 500 536 200 2,6800 1 500 2 000 1 260 500 2,5200 2 000 2 600 1 179 600 1,9650 2 600 3 600 1 150 1 000 1,1500 3 600 5 000 684 1 400 0,4886 5 000 18 000 435 13 000 0,0335 Quadratische Interpolation: Modus = a i g i g i 1 + a i 1 (g i g i+1 ) g i g i 1 + (g i g i+1 ) = 1300 2,9400 1,0033 + 900 2,9400 2,6800 2,9400 1,0033 + 2,9400 2,6800 = 1253 Mittelpunkt der modalen Klasse: Modus = 1100 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 21
Mittelwerte und Lagemaße Datenlage C Anwendungsbeispiel 2 Median Berechnung der kumulierten Häufigkeiten: Haushaltsnettoeinkommen 2008 je Haushalt und Monat, Beitrittsgebiet von bis unter absolute Häufigkeit einfach kumuliert a i 1 a i h i H i Euro Tsd Haushalte 0 900 903 903 900 1 300 1 176 2 079 1 300 1 500 536 2 615 1 500 2 000 1 260 3 875 2 000 2 600 1 179 5 054 2 600 3 600 1 150 6 204 3 600 5 000 684 6 888 5 000 18 000 435 7 323 Berechnung der 50%-Marke: n 2 = 7323 = 3661,5 Tsd Haushalte 2 Also fällt der Median in die Klasse zwischen 1500 und 2000 Euro, weil in dieser Klasse mit 3875 Tsd Haushalten die 50%-Marke erstmals überschritten wird x = 1500 + 3661,5 2615 3875 2615 2000 1500 = 1915 Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 22
Mittelwerte und Lagemaße Datenlage C Anwendungsbeispiel 3 Arithmetisches Mittel Die Klassenmitten x i sind zu berechnen Haushaltsnettoeinkommen 2008 je Haushalt und Monat, Beitrittsgebiet von bis unter absolute Häufigkeit Klassenmitte a i-1 a i h i x i h i x i Euro Tsd Haushalte Euro Tsd Euro 0 900 903 450 406 350 900 1 300 1 176 1 100 1 293 600 1 300 1 500 536 1 400 750 400 1 500 2 000 1 260 1 750 2 205 000 2 000 2 600 1 179 2 300 2 711 700 2 600 3 600 1 150 3 100 3 565 000 3 600 5 000 684 4 300 2 941 200 5 000 18 000 435 11 500 5 002 500 Summe 7 323 18 875 750 Arithmetisches Mittel = x = 18875750 7323 = 2578 Synopse Prof Dr Rolf Hüpen Modul Statistik I Sommersemester 2013 23