Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester 2015 Aufgabe 1 In der aktuellen Studierendenbefragung wurden unter anderem der Herkunftsort (Merkmal A) sowie die Studienrichtung (Merkmal B) abgefragt. Die nachfolgende Kontingenztabelle enthält die entsprechenden absoluten Häufigkeiten: b 1 : BWL b 2 : EES b 3 : Soziologie b 4 : Sonstiges Σ a 1 : Bayern 36 6 15 31 88 a 2 : Sonstiges 12 5 11 21 49 Σ 48 11 26 52 137 a) Wie groß ist der Anteil der BWL-Studierenden an allen Befragten, d.h. f(b 1 )? b) Bestimmen Sie die relative bedingte Häufigkeitsverteilung der Studienrichtung für die aus Bayern stammenden Studierenden, d.h. f B a1 = (f(b 1 a 1 ), f(b 2 a 1 ), f(b 3 a 1 ), f(b 4 a 1 )). Interpretieren Sie hiervon zudem f(b 1 a 1 ). c) Wie lautet der Modus für die Verteilung der Studienrichtung der aus Bayern stammenden Studierenden, d.h. der Modus der Verteilung f B a1? d) Berechnen und interpretieren Sie ein geeignetes Streuungsmaß für die Studienrichtung der aus Bayern stammenden Studierenden. e) Die folgende Indifferenztabelle stellt die hypothetische Verteilung bei Unabhängigkeit der Merkmale A und B dar. Ermitteln Sie mithilfe der Indifferenztabelle ein geeignetes Zusammenhangsmaß für die Merkmale A und B und interpretieren Sie dieses. b 1 : BWL b 2 : EES b 3 : Soziologie b 4 : Sonstiges Σ a 1 : Bayern 30,83 7,07 16,70 33,40 88 a 2 : Sonstiges 17,17 3,93 9,30 18,60 49 Σ 48 11 26 52 137
Aufgabe 2 Aus den Ergebnislisten des Bamberger Weltkulturerbelaufs über 21,1km ergeben sich für die Jahre 2013 und 2015 folgende approximierende Verteilungsfunktionen für das Merkmal X Ergebniszeit in Minuten, welche in nachfolgender Grafik abgebildet sind. Dabei beziehen sich die angegebenen Werte alle auf das Jahr 2015. F*(x) 0.0 0.2 0.4 0.6 0.8 1.0 (76;0) (105;0,20) (90;0,03) (120;0,55) (135;0,83) (150;0,96) (198;1) Weltkulturerbelauf 2015 2013 50 100 150 200 Ergebniszeit in Minuten (X) a) Benennen Sie den Merkmalstyp für das untersuchte Merkmal X. b) Welche Annahme liegt der obigen Grafik zugrunde? c) Erstellen Sie mithilfe der verfügbaren Daten aus der vorliegenden Grafik eine vollständige Arbeitstabelle mit den Informationen, die zur Bestimmung der approximierenden Verteilungsfunktion für das Jahr 2015 notwendig sind. d) Bestimmen Sie den Anteil der Teilnehmer im Jahr 2015, die den Lauf in weniger als 110 Minuten beendet haben. e) Ermitteln Sie rechnerisch den Quartilsabstand für das Jahr 2015. Runden Sie das Ergebnis auf zwei Nachkommastellen. Interpretieren Sie den Wert für das untere Quartil. f) Nehmen Sie Stellung zur Aussage: Der typische Teilnehmer des Jahres 2015 ist schneller ins Ziel gekommen als der typische Teilnehmer des Jahres 2013. Argumentieren Sie anhand der Grafik und einer passenden Maßzahl, ohne Berechnung.
Aufgabe 3 Auf Basis von Daten des Sozioökonomischen Panels (SOEP) wurden für das Jahr 2009 die kumulierten Anteile der Haushalte am Haushaltnettoeinkommen aller Einkommen analysiert. Das Ergebnis der Analyse ist in folgender Grafik als Lorenzkurve dargestellt. kumulierter Anteil am gesamten Nettohaushaltsvermögen G 0.0 0.2 0.4 0.6 0.8 1.0 (0,2;0,09) (0,4;0,22) (0,6;0,40) (0,8;0,62) 0.0 0.2 0.4 0.6 0.8 1.0 kumulierter Anteil der Haushalte F a) Berechnen Sie den Anteil des gesamten Nettohaushaltseinkommens, der auf die reichsten 20% der Haushalte entfällt. b) Bestimmen Sie ein Maß für die Konzentration des Haushaltsnettoeinkommens und interpretieren Sie das Ergebnis. Hinweis: Sollten Sie keinen Wert berechnen können, verwenden Sie als Ergebnis den Wert 0,350. c) Welchen Wert würde das in b) gesuchte Maß annehmen, wenn alle Haushalte das gleiche Haushaltsnettoeinkommen erzielen würden? d) Skizzieren Sie die Lorenzkurve für den Fall einer maximalen Konzentration bei den Nettohaushaltseinkommen. Welchen Wert nimmt das in b) berechnete Maß in diesem hypothetischen Fall an? e) Für das Jahr 1999 ergab sich ein entsprechendes Maß von 0,291. Welche Aussage kann damit über die zeitliche Entwicklung der Einkommensverteilung getroffen werden? f) Würde die Umrechnung der Haushaltsnettoeinkommen in $ Dollar den Wert des in b) berechneten Maßes ändern? Wie würden sich zudem das arithmetische Mittel sowie die Varianz der Haushaltsnettoeinkommen durch die Umrechnung in $ Dollar ändern?
Aufgabe 4 Die OECD und EUROSTAT veröffentlichen für 23 europäische Länder für das Jahr 2011 Daten für den gemessenen Gini-Index eines Landes (Y ) und die jeweilige Wachstumsrate des realen Bruttosozialproduktes in % (X). Die Daten sind in der folgenden Grafik dargestellt. GINI Index im Jahr 2011 0.24 0.28 0.32 4 2 0 2 4 6 reales Wachstum des Bruttoinlandsproduktes im Jahr 2011 in % Aus den Daten können die Werte ermittelt werden. x = 2,01, ȳ = 0,29, s 2 x = 4,87, s 2 y = 0,01, und xy = 0,57 a) Berechnen und interpretieren Sie kurz den Korrelationskoeffizienten. b) Schätzen Sie die Parameter des linearen Regressionsmodells y ν = β 0 + β 1 x ν + u ν, ν = 1,..., 23 mit der Methode der kleinsten Quadrate und geben Sie die Gleichung der geschätzten Regressionsgeraden an. Hinweis: Sollten Sie zu keiner Lösung gelangen, verwenden Sie im Folgenden β 0 = 0,293 und β 1 = 0,002 als Ersatzergebnisse. c) Interpretieren Sie die geschätzten Parameter am Sachverhalt mit 1-2 Sätzen. d) Berechnen Sie für ein Land mit einem Wachstum von 3% den geschätzten Wert des GINI-Index. e) Beurteilen Sie die Anpassungsgüte des Regressionsmodells, wenn Sie wissen, dass R 2 = 0,029. f) Stimmen Sie der folgenden Aussage zu? Sind zwei Merkmale statistisch unabhängig, dann sind sie auch unkorreliert.
Lösung zu Aufgabe 1 a) f(b 1 ) = 0, 3504, d.h. der Anteil der BWL-Studierenden beträgt ca. 35 Prozent. b) b j BWL EES Soziologie Sonstiges f(b j a 1 ) 0,4091 0,0682 0,1705 0,3523 f(b 1 a 1 ) = 0, 4091, d.h. 40,91% der aus Bayern stammenden Studierenden studieren BWL. c) Modus mod(f B a1 ): BWL d) Entropie für Studierende aus Bayern also: H B a1 = 1, 7571 H B a 1 = 0, 8786 d.h. es liegt eine sehr starke Streuung vor. e) Mittlere quadratische Kontingenz: Cramers V: φ 2 AB = 0, 0281 V AB = 0, 1675 d.h. es liegt ein geringer Zusammenhang zwischen der Herkunft und dem Studienfach vor.
Lösung zu Aufgabe 2 a) Merkmal X Ergebniszeit in Minuten ist ein quantitatives Merkmal. (Skalenniveau: metrisch/ kardinal, klassiert) b) Annahme der Gleichverteilung innerhalb der Klassen. c) Arbeitstabelle: i (x i 1 ; x i ] F (x) f(x) x i 1 (76;90] 0,03 0,03 14 2 (90;105] 0,20 0,17 15 3 (105;120] 0,55 0,35 15 4 (120;135] 0,83 0,28 15 5 (135;150] 0,96 0,13 15 6 (150;198] 1 0,04 48 d) e) F (x) = 0,317 x (0,25) = 107,14 Quartilsabstand: q = 23,57. x (0,75) = 130,71 x (0,25) = 107,14 ist die kleinste Merkmalsausprägung, die von mind. 25% aller Beobachtungen nicht überschritten wird. f) Anhand des Medians lässt sich sagen, dass die Hälfte der Teilnehmer des Jahres 2013 in ca. 115 Min den Lauf beendet hat, und die Hälfte der Teilnehmer des Jahres 2015 in ca. 113 Min. D.h. die Aussage ist richtig.
Lösung zu Aufgabe 3 Arbeitstabelle (für ν = 1,..., 5): ν G ν g ν 1 0,09 0,09 2 0,22 0,13 3 0,40 0,18 4 0,62 0,22 5 1 0,38 Σ 1 a) g 5 = 0, 38 b) Lorenz-Münzner-Maß M G = 0, 335 d.h. die Konzentration ist relativ gering. c) Den Wert Null. d) Skizze; den Wert 1. e) Die Konzentration ist stärker geworden, sodass sich die Einkommen im Laufe der vergangenen Jahre zunehmend uneinheitlicher auf die Haushalte verteilt haben. f) Das Lorenz-Münzner-Maß würde sich nicht ändern. Das arithmetische Mittel des Haushaltseinkommens würde sich um den Faktor U mrechnungsf aktor, die Varianz würde sich hingegen um den Faktor Umrechnungsfaktor 2 verändern.
Lösung zu Aufgabe 4 a) r = 0,058 Der Wertebereich des Korrelationskoeffizienten liegt zwischen -1 und +1, d.h. es besteht ein sehr schwacher negativer Zusammenhang zwischen dem Gini-Index und dem BIP-Wachstum. b) ˆβ 1 = 0,00265 ˆβ 0 = 0,2953 ȳ = 0,2953 0,00265 x ν alternativ: ȳ = 0,293 0,002 x ν c) ˆβ 0 ist der Achsenabschnitt, d.h. bei einem Wachstum des BIP von 0% beträgt der Gini-Index 0,2953. ˆβ 1 ist der Steigungskoeffizient, d.h. mit jedem Prozent Wachstumsrate mehr fällt der Gini-Koeffizient durchschnittlich um 0,00265. d) ȳ = 0,28735 alternativ: ȳ = 0,287 e) R 2 ist der Determinationskoeffizient/ Bestimmtheitsmaß und gibt Auskunft über den Anteil an Varianz von Y, der durch die Regressionsgerade, also durch die Hinzunahme von X, erklärt wird. Hier: Nur 2,9% der gesamten Streuung des Gini-Koeffizienten werden durch das lineare Modell erklärt. Die Anpassung ist also sehr schlecht. f) Die Aussage stimmt. (Jedoch bedeutet umgekehrt nicht, dass Unkorreliertheit zugleich statistische Unabhängigkeit bedeutet, denn es kann auch ein nichtlinearer Zusammenhang existieren).