Lösungsskizze zur Probeklausur im Fach Statistik I am 7.1.2010 Gesamtpunktzahl: 60 Aufgabe 1 (12 Punkte): Ein Unternehmen, das Möbel herstellt, hat eine Niederlassung in Deutschland, eine in Frankreich und eine in Polen. Alle drei Niederlassungen stellen Tische, Stühle und Schränke her. Die folgende Tabelle gibt einige Unternehmenskennzahlen wieder. Deutschland Frankreich Polen Mitarbeiteranteil 2009 0.5 0.1 0.4 Umsatzanteile 2009 0.3 0.4 0.3 Produktivität 2009 (nur Tische) 140 120 100 Umsatzwachstumsfaktor 2008-2009 1.20 0.96 1.35 Umsatzwachstumsfaktor 2007-2008 0.95 - - Umsatzwachstumsfaktor 2006-2007 1.00 - - Umsatzwachstumsfaktor 2005-2006 1.10 - - Umsatzwachstumsfaktor 2004-2005 0.90 - - Umsatzwachstumsfaktor 2003-2004 1.05 - - Anzahl produzierter Tische pro Mitarbeiter und Jahr I. Berechnen Sie (a) die durchschnittliche Produktivität in 2009 für das Gesamtunternehmen, Lösung: Die Produktivität ist eine Beziehungszahl b, nämlich Anzahl Tische u dividiert durch die Anzahl der Mitarbeiter v. Gegeben sind die Mitarbeiteranteile v i / P v j, damit liegt eine Nennergewichtung vor. Die durchschnittliche Produktivität ergibt sich also als das gewichtete arithmetische Mittel, b = 0.5 140 + 0.1 120 + 0.4 100 = 122. (b) den durchschnittlichen Umsatzwachstumsfaktor 2008-2009 für das Gesamtunternehmen Lösung: Der Umsatzwachstumsfaktor 2008-2009 ist definiert als Umsatz 2009 Umsatz 2008, also handelt es sich um eine Beziehungszahl. Gegeben sind die Umsatzanteile 2009, damit liegt eine Zählergewichtung vor. Der durchschnittliche Umsatzwachstumsfaktor b ergibt sich also als das gewichtete harmonische Mittel, b = µ 0.3 1.20 + 0.4 0.96 + 0.3 1.35 = 1.125. (c) die durchschnittliche jährliche Wachstumsrate 2003-2009 für die deutsche Niederlassung 1 1
ODER: Geben Sie an, wie man in R die durchschnittliche jährliche Wachstumsrate 2003-2009 für die deutsche Niederlassung berechnen kann, wenn die sechs Umsatzwachstumsfaktoren im Vektor x gespeichert sind. Lösung: Die durchschnittliche jährliche Wachstumsrate ergibt sich aus dem Umweg über ist das geometische Mittel der Wachstumsfaktoren. Der durchschnittliche Wachstumsfaktor ist m = 6 1.05 0.9 1.1 1 0.95 1.2 = 1.0287. Folglich ist die durchschnittliche Wachstumsrate w = 0.0287 = 2.87%. In R würde man berechnen: prod(x)^(1/6). II. Die Umsatzveränderungen 2008-2009 sollen in allen drei Ländern in Preis- und Mengenveränderungen aufgeteilt werden. Wie gehen Sie vor? Stellen Sie dar, welche Daten Sie erheben würden und wie Sie sie auswerten würden. Lösung: Da nicht nur ein Produkt hergestellt wird, benötigt man Indizes für die Aufteilung der Umsatzveränderungen. Im Prinzip können alle Indextypen (Laspeyres, Paasche und Fisher) verwendet werden. Jedoch muss man beachten, dass bei einer Zerlegung eines Wertindexes I v in eine Preis- und eine Mengenkomponente die Indizes von Laspeyres und Paasche gemischt werden müssen (also Preisindex nach Laspeyres und Mengenindex nach Paasche oder umgekehrt). Der Wertindex lässt sich aber auch in das Produkt von Preis- und Mengenindex vom Typ Fisher zerlegen. Folgende Daten werden für jedes Land benötigt: Anzahl q der hergestellten Tische (T), Anzahl der hergestellten Stühle (St) und Anzahl der hergestellten Schränke (Sch) im Jahr 2008 und im Jahr 2009; Preise p der Tische, Stühle und Schränke im Jahr 2008 und im Jahr 2009. Die drei Preisindizes sind Ip,08,09 La = p 09(T)q 08 (T) + p 09 (St)q 08 (St) + p 09 (Sch)q 08 (Sch) p 08 (T)q 08 (T) + p 08 (St)q 08 (St) + p 08 (Sch)q 08 (Sch) Ip,08,09 Pa = p 09(T)q 09 (T) + p 09 (St)q 09 (St) + p 09 (Sch)q 09 (Sch) I Fi p,08,09 = Die drei Mengenindizes sind p 08 (T)q 09 (T) + p 08 (St)q 09 (St) + p 08 (Sch)q 09 (Sch) q Ip,08,09 La IPa p,08,09. Iq,08,09 La = p 08(T)q 09 (T) + p 08 (St)q 09 (St) + p 08 (Sch)q 09 (Sch) p 08 (T)q 08 (T) + p 08 (St)q 08 (St) + p 08 (Sch)q 08 (Sch) Iq,08,09 Pa = p 09(T)q 09 (T) + p 09 (St)q 09 (St) + p 09 (Sch)q 09 (Sch) I Fi q,08,09 = Und die drei Zerlegungen sind p 09 (T)q 08 (T) + p 09 (St)q 08 (St) + p 09 (Sch)q 08 (Sch) q Iq,08,09 La IPa q,08,09. I v,08,09 = Ip,08,09 La Iq,08,09 Pa = Ip,08,09 Pa Iq,08,09 La = Ip,08,09 Fi Iq,08,09. Fi 2
Aufgabe 2 (12 Punkte): In der folgenden Grafik finden Sie Angaben zu den geplanten Urlaubsausgaben 2004, aufgeschlüsselt nach dem Alter (Quelle: dpa, polis, Westfälische Nachrichten 21.6.2004) Nehmen Sie an, dass 30% der Befragten zwischen 14 und 34 Jahre alt sind, 40% zwischen 35 und 54 Jahre alt sind und 30% 55 Jahre oder älter sind. (a) Erstellen Sie die Kontingenztabelle für die Merkmale X: geplante Veränderung der Urlaubsausgaben und Y : Altersklasse. Lösung: Die relative Kontingenztabelle ergibt sich aus den relativen Randhäufigkeiten von Y (die als Annahmen gegeben sind) multipliziert mit den bedingten relativen Häufigkeiten von X gegeben Y (die in der Abbildung zu finden sind). X\Y 14-34 35-54 55 und älter mehr 0.19 0.3 = 0.057 0.14 0.4 = 0.056 0.06 0.3 = 0.018 weniger 0.40 0.3 = 0.120 0.41 0.4 = 0.164 0.33 0.3 = 0.099 in etwa gleich 0.37 0.3 = 0.111 0.44 0.4 = 0.176 0.55 0.3 = 0.165 keine Angaben 0.05 0.3 = 0.015 0.02 0.4 = 0.008 0.05 0.3 = 0.015 3
(b) Geben Sie die bedingte Verteilung von Y für X = weniger an. Lösung: Zunächst bestimmt man die relative Randhäufigkeit von X für X = weniger. Sie ist f 2 =0.120 + 0.164 + 0.099 = 0.383. Nun ergibt sich für die bedingte Verteilung von Y f 1 X=weniger = 0.12 0.383 =0.3133 f 2 X=weniger = 0.164 0.383 =0.4282 f 3 X=weniger = 0.099 0.383 =0.2585. (c) Sind X und Y deskriptiv unabhängig? Begründen Sie Ihre Antwort. Lösung: X und Y sind nicht deskriptiv unabhängig. Das erkennt man daran, dass die bedingte Verteilung von Y gegeben X = weniger (aus Aufgabenteil b) sich von der Randverteilung von Y (aus den Annahmen der Aufgabenstellung) unterscheidet. Eine andere Möglichkeit wäre, die Elemente der Kontingenztabelle daraufhin zu überprüfen, ob die Unabhängigkeitsbedingung erfüllt ist. Sobald ein Feld die Bedingung verletzt, liegt keine deskriptive Unabhängigkeit vor. (d) Wie sind die beiden Merkmale skaliert? Begründen Sie Ihre Antwort. Lösung: Das Merkmal X ist nominal skaliert, da die vier Ausprägungen nicht sinnvoll geordnet werden können. (Wäre die Ausprägung keine Angaben nicht vorhanden und wäre die Reihenfolge der Ausprägungen anders sortiert, wäre das Merkmal sogar ordinal skaliert, da dann eine sinnvolle Ordnung vorhanden ist.) Das Merkmal Y ist ordinal skaliert, da die Altersangaben in Klassen zusammengefasst wurden. Eine sinnvolle Ordnung ist vorhanden, aber man kann nicht sagen, dass die mittlere Klasse um einen bestimmen Faktor größer ist als die erste Klasse. Aufgabe 3 (12 Punkte): Die Verteilungsfunktionen der beiden Merkmale X und Y sind F X (x) = F Y (x) = 0 für x<10 0.2 für 10 x<15 0.9 für 15 x<40 1 für x 40 0 für x<1300 0.5 für 1300 x<2000 0.6 für 2000 x<9000 1 für x 9000. (a) Welches Skalenniveau müssen die beiden Merkmale mindestens haben? Lösung: Damit die empirische Verteilungsfunktion sinnvoll berechnet werden kann, muss das Merkmal mindestens ordinal skaliert sein. 4
(b) Berechnen Sie das arithmetische Mittel des Merkmals X. Lösung: DasMerkmalX kann die drei Werte 10, 15 und 40 annehmen. Die relativen Häufigkeiten ergeben sich aus der empirischen Verteilungsfunktion Folglich ist das arithmetische Mittel f 1 = 0.2 0=0.2 (für X = 10) f 2 = 0.9 0.2 =0.7 (für X = 15) f 3 = 1 0.9 =0.1 (für X = 40). x = 0.2 10 + 0.7 15 + 0.1 40 = 16.5. (c) Bestimmen Sie die Modi von X und Y. Lösung: DerModusistderWert, deramhäufigsten angenommen wird. Für das Merkmal X ist der Modus also 15 (denn er wird in 70% der Fälle angenommen). Das Merkmal Y nimmt die drei Werte 1300, 2000 und 9000 an, und zwar mit den relativen Häufigkeiten f 1 = 0.5 0=0.5 (für Y = 1300) f 2 = 0.6 0.5 =0.1 (für Y = 2000) f 3 = 1 0.6 =0.4 (für Y = 9000). Die größte relative Häufigkeitergibtsichfür den Wert 1300. Also ist 1300 der Modus von Y. (d) Geben Sie den Quartilsabstand des Merkmals Y an. Lösung: Der Quartilsabstand ist die Differenz des 0.75-Quantils und des 0.25-Quantils. Das 0.75-Quantil lässt sich an der empirischen Verteilungsfunktion ablesen. Es ist der kleinste Wert x, an dem die empirische Verteilungsfunktion von Y dierelativehäufigkeit 0.75 erreicht oder überspringt. Offenbar ist das gesuchte Quantil x 0.75 = 9000. Entsprechend liest man für das 0.25-Quantil der Wert x 0.25 = 1300 ab. Der Quartilsabstand ist somit IQR = 9000 1300 = 7700. (e) Nehmen Sie an, dass X und Y deskriptiv unabhängig sind. Stellen Sie die Kontingenztabelle (der relativen Häufigkeiten) von X und Y auf. Lösung: DieEinträge der (relativen) Kontingenztabelle ergeben sich bei deskriptiver Unabhängigkeit als Produkt der beiden relativen Randhäufigkeiten. Also X\Y 1300 2000 9000 P 10 0.10 0.02 0.08 0.20 15 0.35 0.07 0.28 0.70 P 40 0.05 0.01 0.04 0.10 0.50 0.10 0.40 1.00 5
Aufgabe 4 (12 Punkte): Die nachfolgende Tabelle enthält die Verteilung von 500 Haushalten nach dem Nettoeinkommen (in EUR/Monat). Klasse Anzahl der Haushalte [0,1000[ 100 [1000,1500[ 110 [1500,1750[ 80 [1750,2250[ 120 [2250,3500] 90 (a) Stellen Sie die Häufigkeitsverteilung grafisch dar. ODER: Geben Sie an, wie man die Grafik in R erzeugen kann, wenn die Urliste unter dem Namen eink abgespeichert ist. Für die restlichen Aufgabenteile sei die Urliste jedoch wieder unbekannt. Lösung: Da die Daten stetig klassiert sind, sollte man hier ein Histogramm erstellen. Die empirische Dichte in den fünf Klassen ist f 1 = 100/500 1000 0 =0.0002 110/500 f 2 = 1500 1000 =0.00044 80/500 f 3 = 1750 1500 =0.00064 120/500 f 4 = 2250 1750 =0.00048 90/500 f 5 = 3500 2250 =0.000144 Nun trägt man die empirische Dichte für jede Klasse in eine Grafik ein. Es ergibt sich das folgende Histogramm emp. Dichte 0e+00 2e-04 4e-04 6e-04 0 500 1000 1500 2000 2500 3000 3500 x 6
In R erstellt man ein Histogramm aus der Urliste mit den gewünschten Klassengrenzen durch den Befehl hist(eink,breaks=c(0,1000,1500,1750,2250,3500)). (b) Berechnen Sie einen Näherungswert für den Median. ODER: Geben Sie an, wie man diesen Näherungswert in R berechnen kann, wenn die Klassenuntergrenzen im Vektor unten, die Klassenobergrenzen im Vektor oben und die absoluten Häufigkeiten im Vektor n gespeichert sind. Lösung: Der Median ist das 0.5-Quantil. Man berechnet ihn durch lineare Interpolation der empirischen Verteilungsfunktion. Die Stützstellen der empirischenverteilungsfunktion ergeben sich wie folgt: K j n j f j F (x o j ) [0,1000[ 100 0.20 0.20 [1000,1500[ 110 0.22 0.42 [1500,1750[ 80 0.16 0.58 [1750,2250[ 120 0.24 0.82 [2250,3500] 90 0.18 1.00 Der Median fällt in die dritte Klasse, also [1500-1750[, da in dieser Klasse der Wert 0.5 überschritten wird. Die lineare Interpolation liefert als Näherung für den Median x 0.5 x u j + p F (xu j ) = 1500 + = 1625. f j 0.5 0.42 0.16 x o j x u j (1750 1500) In R berechnet man den Median wie folgt: Zuerst erzeugt man einen Vektor aller Klassengrenzen (der Länge 6): g <- c(unten[1],oben). Dann berechnet man die empirische Verteilungsfunktion (mit einer Null am Anfang): F <- cumsum(c(0,n)/sum(n)). Die lineare Approximation erfolgt nun durch approx(f,g,0.5). (c) Berechnen Sie einen Näherungswert für das arithmetische Mittel. ODER: Geben Sie an, wie man diesen Näherungswert in R berechnen kann, wenn die gleichen Vektoren wie unter (b) gegeben sind. Lösung:Diefünf Klassenmitten sind ξ 1 =500,ξ 2 = 1250, ξ 3 = 1625, ξ 4 = 2000, ξ 5 = 2875. Ein gängiger Näherungswert für das arithmetische Mittel ist x = 5X f j ξ j j=1 = 0.2 500 + 0.22 1250 + 0.16 1625 + 0.24 2000 + 0.18 2875 = 1632.5 In R berechnet man sum(n/sum(n)*(unten+oben)/2). Alternativ könnte man beispielsweise zuerst die relativen Häufigkeiten und die Klassenmitten berechnen: f <- n/sum(n) und xi <- (unten+oben)/2. Anschließend ergibt sich die Näherung als sum(f*xi). 7
(d) Berechnen Sie einen Näherungswert für die Standardabweichung. ODER: Geben Sie an, wie man diesen Näherungswert in R berechnen kann, wenn die gleichen Vektoren wie unter (b) gegeben sind. Lösung: DieNäherung der Varianz ist s 2 = 5X ξj x 2 fj j=1 = (500 1632.5) 2 0.2 + (1250 1632.5) 2 0.22 + (1625 1632.5) 2 0.16 + (2000 1632.5) 2 0.24 + (2875 1632.5) 2 0.18 = 256511.3 + 32187.4 + 9 + 32413.5 + 277885.1 = 599006.3. Also ist die Näherung der Standardabweichung s = 599006.3 = 773.95. InRkönnte man wie folgt vorgehen: Zuerst berechnet man die relativen Häufigkeiten f <- n/sum(n) (wie in c) die Klassenmittel xi <- (unten+oben)/2 und das Gesamtmittel xquer <- sum(f*xi). Anschließend errechnet man die Varianz s2 <- sum((xi-xquer)^2*f). Die Standardabweichung ist dann sqrt(s2). (e) Dürften Sie mit Ihrer näherungsweise berechneten Standardabweichung die tatsächliche Standardabweichung über- oder unterschätzt haben? Begründen Sie Ihre Antwort. Lösung: Die die Streuung innerhalb der Klassen bei der Näherungsberechnung ignoriert wird, dürfte die tatsächliche Standardabweichung unterschätzt werden. Aufgabe 5 (12 Punkte): (a) Ein Bankkunde will einen bestimmten Betrag für drei Jahre fest anlegen. Der Anlageberater bietet ihm zwei Anlageformen A und B an. Bei beiden Anlageformen werden die jährlich fälligen Zinsen dem Kapital zugeschlagen (Zinseszinseffekt). Verzinsung in % Jahr Anlage A Anlage B 1 3,00 1,00 2 4,00 4,00 3 5,00 7,00 Welche der beiden Anlageformen würden Sie vorziehen? Begründen Sie Ihre Aussage. Lösung: Die gesamte Verzinsung ist bei Anlage A: Bei Anlage B ist es (1.03 1.04 1.05) 1=0.124 76 = 12.476%. (1.01 1.04 1.07) 1=0.123928 = 12.393%. Also ist Anlage A vorzuziehen. (Man könnte auch die durchschnittliche jährliche Wachstumsrate berechnen.) 8
(b) Im Rahmen eines Sparplans kauft eine Anlegerin jedes Quartal für einen konstanten Euro- Betrag Anteile eines Investmentfonds. Der Kurs des Fonds (in EUR/Anteil) betrug in den vier Quartalen des Jahres 2008: Quartal Kurs I 100 II 120 III 145 IV 60 Zu welchem durchschnittlichen Kurs wurden die Fondsanteile gekauft? Lösung: Preise bzw. Kurse sind Beziehungszahlen (nämlich Euro pro Einheit). Da hier für einen konstanten Eurobetrag eingekauft wurde, liegt eine Zählergewichtung vor. Um den Durchschnitt b zu bestimmen, benötigt man das harmonische Mittel. Es ergibt sich b = µ 0.25 100 + 0.25 120 + 0.25 145 + 0.25 1 60 = 95.47. Beachten Sie, dass das arithmetische Mittel, nämlich 0.25 100 + 0.25 120 + 0.25 145 + 0.25 60 = 106.25, falsch ist! (c) Betrachten Sie einen Warenkorb, der aus zwei Gütern besteht. Basiszeit t = 0, Berichtszeit t =1. Gut Preismesszahl Mengenmesszahl Umsatz in t = 1(inEUR) A 1,10 0,95 1050 B 1,05 1,05 2000 Der Umsatzindex (Wertindex) I v 0,1 sei 1, 04. Errechnen Sie (i) den Preisindex nach Paasche I p Pa;0,1. Lösung: Der Paasche-Preisindex ergibt sich als das gewichtete harmonische Mittel der Preismesszahlen. Die Gewichtung erfolgt über die Ausgabenanteile (bzw. hier den Umsatz) in der Berichtsperiode. Die Anteile sind in dieser Aufgabe Also ergibt sich g A = g B = 1050 1050 + 2000 =0.34426 2000 1050 + 2000 =0.65574. I p Pa;0,1 = µ 0.34426 1.10 = 1.067. (ii) den Mengenindex nach Laspeyres I q La;0,1. Lösung: Da gilt I v 0,1 = I p Pa;0,1 Iq La;0,1,ist + 0.65574 1 1.05 I q La;0,1 = Iv 0,1 I p = 1.04 Pa;0,1 1.067 =0.9747. 9