Lösungen zur deskriptiven Statistik Aufgabe 1. Bei einer Stichprobe von n = Studenten wurden folgende jährliche Ausgaben (in e) für Urlaubszwecke ermittelt. 1 58 5 35 6 8 1 6 55 4 47 56 48 1 6 115 8 5 65 Erstellen Sie hieraus ein Histogramm. Verwenden die Klassengrenzen, 3, 5, 7 und 1, sowie, 3, 6, 9 und 1. Lösung. Wir konstruieren zunächst das Histogramm mit den Klassengrenzen [, 3), [3, 5), [5, 7), [7, 1). Dieses würde man naiv wie folgt zeichnen, siehe linkes Histogramm. 8 1 3 Häufigkeit 6 4 rel. Häufigkeit 1.5 1.5 3 5 7 1, 3 5 7 1, Allerdings ist dieses Histogramm verfälscht, da die Klassenbreiten nicht konstant sind. Hier muss also normiert werden. Dazu sollen die Flächeninhalte der Rechtecke gerade die entsprechende relative Häufigkeit ergeben. Für das erste Intervall [, 3) haben wir eine relative Häufigkeit von 3/. Damit ergibt sich eine Rechteckshöhe von 1/, denn 3 (1/) = 3/. Analog berechnen wir die Höhen der restlichen Rechtecke. Wir erhalten das rechte Histogramm in obiger Abildung. Bei den Klassengrenzen [, 3), [3, 6), [6, 9), [9, 1) muss nicht normiert werden, da alle die gleiche Intervalllänge besitzen. Wir erhalten die folgenden Histogramme. 8.4 Häufigkeit 6 4 rel. Häufigkeit.3..1 3 6 9 1, 3 6 9 1,
Aufgabe. In einem Unternehmen wird auf Grund vorhandener Belege festgestellt, dass der Hauplieferant für die letzten n = 5 Bestellungen folgende Lieferzeiten (in Tagen) benötigt hatte: 4 5 4 1 5 4 3 4 5 6 6 5 5 4 7 4 6 5 6 4 5 4 7 5 5 6 7 3 7 6 6 7 4 5 4 7 7 5 5 5 5 6 6 4 5 5 4 7 5 (a) Geben Sie tabellarisch die absolute und relative Häufigkeit der Lieferzeit an. (b) Geben Sie weiterhin die absolute und relative kommulierte Häufigkeitsverteilung an. (c) In wie vielen Fällen beträgt die Lieferzeit höchstens 5 Tage? In wie viel Prozent der Fälle beträgt die Lieferzeit mehr als 3 Tage. Lösung. Absolute und relative Häufigkeiten: Lieferzeit a j 1 3 4 5 6 7 abs. H. h(a j ) 1 1 1 17 9 8 rel. H. f(a j ) 1/5 1/5 /5 1/5 17/5 9/5 8/5 Für die absolute kommulierte Häufigkeitsverteilung H(x) und die relative kommulierte Häufigkeitsverteilung F (x) erhalten wir für x < 1 für x < 1 1 für 1 x < für x < 3 4 für 3 x < 4 H(x) = 16 für 4 x < 5 33 für 5 x < 6 4 für 6 x < 7 5 für 7 x 1/5 für 1 x < /5 für x < 3 4/5 für 3 x < 4 und F (x) =. 16/5 für 4 x < 5 33/5 für 5 x < 6 4/5 für 6 x < 7 5/5 für 7 x In 33 Fällen beträgt die Lieferzeit höchstens 5 Tage. In 1 F (3) = 1 4/5 = 9 % der Fälle beträgt die Lieferzeit mehr als 3 Tage.
Aufgabe 3. (a) Berechnen Sie zu den Daten aus Aufgabe das arithmetische Mittel, den Median, die mittlere quadratische Abweichung und die Standardabweichung. (b) Durch einen Schreibfehler sei als letzter Wert statt 5 der Wert 5 eingetragen worden. Wie wirkt sich dieser Fehler auf das arithmetische Mittel und den Median aus. Lösung. Der Median ist 5 und für den rest errechnen wir (mit n = 5) x = 1 n x i = 5.4 s = 1 n 1 arithmetisches Mittel (x i x) = 1.75 (korrigierte) Stichprobenvarianz s = s = 1.3 Standartabweichung Wenn der letze Wert 5 anstatt 5 ist erhalten wir immernoch als Median 5, jedoch x = 1 n x i = 5.94 s = 1 n 1 arithmetisches Mittel (x i x) = 4.18 (korrigierte) Stichprobenvarianz s = s = 6.49 Standartabweichung
Aufgabe 4. Die Umsätze von 6 Unternehmen der Automobilbranche sind der folgenden Tabelle zu entnehmen: Unternehmen 1 3 4 5 6 Umsatz in Mio e 5 5 5 1 3 (a) Skizzieren Sie die Lorenzkurve. Bestimmen Sie wieviel Umsatz sich auf /3 der Unternehmen konzentriert. (b) Erklären Sie die Idee des (normierten) Gini-Koeffizienten und berechnen Sie diesen. (c) In welcher Weise müssen die Umsätze verteilt sein, damit der Gini-Koeffizient den Wert Null annimmt? Lösung. Zunächst berechnen wir die Koordinaten der Lorenzkurve. Die Lorenzkurve sieht also wie folgt aus. k 1 3 4 5 6 u k 1/6 /6 3/6 4/6 5/6 6/6 v k.4.1..3.5 1. 1 kumm. proz. Marktanteil 8 6 4 4 6 8 1 kumm. proz. Anteil der Unternehmen Der Verlauf der Lorenzkurve beschreibt die Gleichmäßigkeit der Verteilung der Daten (hier Umsätze). Ist die eingeschlossene Fläche (mit der Diagonalen) groß, sind die Daten sehr ungleichmäßig verteilt. Umgekehrt, ist die Fläche sehr klein, hat jedes Unternehmen etwa den gleichen Anteil am Gesamtumsatz. a Der Anteil dieser Fläche am Dreieck durch die Punkte (, ), (, 1) und (1, 1), ist daher ein Maß für die (Un-)Gleichverteilung der Daten. Diesen Anteil nennt man den Gini- Koeffizient G Für den Gini-Koeffizienten und den normierten Gini-Koeffizienten erhalten wir G = 6 ix i (n + 1) n x i n n x i =.7 und G = n n 1 G =.8. Der Gini-Koeffizient wird Null, falls die Umsätze gleichverteilt auf die Unternehmen sind.
Aufgabe 5 (Bravais-Pearson Korrelationskoeffizient). Wir befragen n = 1 Personen zu ihrer Schuhgröße und ihrem monatlichem Einkommen (in e). Die Daten sind in folgender Tabelle zusammengefasst. Schuhgröße 37 38 39 4 41 4 43 44 45 46 Einkommen 1 13 135 15 15 145 13 155 15 16 Skizzieren Sie das zugehörige Streudiagramm. Berechnen Sie einen geeigneten Korrelationskoeffizienten. Interpretieren Sie das Ergebnis hinsichtlich Korrelation und Kausalität. Lösung. Zunächst das Streudiagramm: 1,6 Einkommen 1,5 1,4 1,3 1, 38 4 4 44 46 Schuhgröße Für den Bravais-Pearson-Korrelationskoeffizienten erhalten wird n r = (x i x)(y i y) n (x i x) n (y i y) =.83633. Es liegt also eine stark positive Korrelation vor. Wir sehen also einen Zusammenhang zwischen den beiden Variablen, der auch tatsächlich vorhanden ist, und durch den Korrelationskoeffizienten berechnet werden kann. Es wäre jetzt aber falsch, deswegen auch auf eine Auswirkung von einer der beiden Variablen auf die andere zu schließen. Eine Korrelation (oder einen Zusammenhang) formuliert man so: Menschen mit größerer Schuhgröße haben tendenziell ein höheres Einkommen. Eine Kausalität würde aber so formuliert werden: Die Schuhgröße hat einen Einfluss auf das Nettoeinkommen. Wenn der zweite Satz stimmen würde, dann könnte man sich morgen Schuhe der Größe 65 kaufen, und bekäme deswegen eine saftige Gehaltserhöhung. Das macht natürlich keinen Sinn. Auch umgekehrt wäre eine Kausalität sinnlos, denn dann hätte das Einkommen eine Auswirkung auf die Schuhgröße. Wenn ich also eine Gehaltserhöhung bekäme, würden deswegen meine Füße wachsen. Eine Korrelation zwischen zwei Merkmalen X und Y bedeutet also noch nicht, dass Y ein Verursacher von X ist (oder X ein Verursacher von Y ). Dieses Phänomen nennt man Scheinkorrelation. Was allerdings hier wahr ist: Wenn man zwei Menschen mit unbekanntem Einkommen auf einem Blatt Papier stehen hat, und einer eine viel größere Schuhgröße hat, erwarten wir von dieser Person ein höheres Einkommen als von der anderen.
Aufgabe 6 (Rangkorrelationskoeffizient). Zehn Studenten der Uni Bonn erzielen folgende Ergebnisse in ihrer Statistik- und in ihrer VWL-Klausur: Student Statistik-Note VWL-Note 1 sehr gut befriedigend gut ausreichend 3 befriedigend gut 4 mangelhaft ausreichend 5 mangelhaft befriedigend 6 ausreichend ausreichend 7 mangelhaft ausreichend 8 gut gut 9 gut mangelhaft 1 befriedigend befriedigend Gib in einer einzigen Kennzahl an, wie stark die Noten zusammenhängen. Lösung. Zunächst ordnen wir den Daten Ränge zu. Bei gleichen Rängen wird der mittlere Rang gebildet. Die Studenten wurden so sortiert, dass der Rang der Statistik-Note aufsteigend ist. Student i Statistik-Note R i VWL-Note R i 1 sehr gut 1 befriedigend 4 gut 3 ausreichend 7.5 8 gut 3 gut 1.5 9 gut 3 mangelhaft 1 3 befriedigend 5.5 gut 1.5 1 befriedigend 5.5 befriedigend 4 6 ausreichend 7 ausreichend 7.5 4 mangelhaft 9 ausreichend 7.5 5 mangelhaft 9 befriedigend 4 7 mangelhaft 9 ausreichend 7.5 Der Rangkorrelationskoeffizient berechnet sich nun zu r sp = 1 6 1 (R i R i) (1 1)1(1 + 1) = 1 771 99 =.. Es gibt also eine fehlende Korrelation zwischen den beiden Merkmalen.
Aufgabe 7. Folgende Kontingenztabelle sei gegeben. Sie zeigt wie bei Studenten die Variablen überwiegende Finanzierung des Studiums und Studienfach zusammenhängen. Psych. Jura Wirt. Päd. Math. Rand Bafög 5 7 11 4 3 5 elterl.geld 1 1 6 1 31 Jobs 8 6 15 3 4 36 Beruf 14 1 9 37 Rand 39 5 4 38 1 154 (a) Errechnetn Sie die Randhäufigkeiten (b) Berechnen Sie die bedingte Verteilung der Studiengänge der Elterngeldempfänger. (c) Berechnen Sie den Kontingenzkoeffizienten. Lösung. Die Randhaufigkeiten werden in der Tabelle eingetragen. Die bedingte Verteilung der Studiengänge der Elterngeldempfänger ist in der folgenden Tabelle zusammenefasst. Studiengang Psych. Jura Wirt. Päd. Math. h j /h 1/31 1/31 6/31 /31 1/31 Um den Kontingenzkoeffizienten zu berechnen, errechnen wir zunächst die aus der Unabhängigkeitsprämisse resultierenden Häufigkeiten h ij und fassen die Ergebnisse in einer Tabelle zusammen. h ij Psych. Jura Wirt. Päd. Math. Bafög 1.66 8.1 13.64 1.34 3.5 elterl.geld 7.85 5.3 8.45 7.65.1 Jobs 9.1 5.84 9.8 8.88.34 Beruf 9.37 6.1 1.9 9.13.4 Für die als χ bezeinete Größe erhalten wir χ = 4 5 j=1 (h ij h ij ) h ij =.45. Der Kontingenzkoeffizient und der normierte Kontingenzkoeffizient ergeben sich nun zu χ K = 154 + χ =.54, K max = 4 14 =.866, K = K =.6. K max