Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 4 Gerhard Tutz, Jan Ulbricht, Jan Gertheiss WS 07/08 Lösung Aufgabe 9 (a) Lage und Streuung: Arithmetisches Mittel x = n i= x i = (0 +... + 90) = 82.727 [Mio Euro]. Empirische Varianz s 2 = n i= (x i x) = ( ) n i= x2 i x 2 = 583.47[(Mio Euro) 2 ] Empirische Standardabweichung s = + s 2 = 24.55[Mio Euro]. Variationskoeffizient v = s x = 0.292. (b) Empirische Verteilungsfunktion F (x) = a j x f(a j): F(x) 0.0 0.2 0.4 0.6 0.8.0 40 60 80 00 20 40 x (c) Boxplot Umsatz (in Mio Euro) 60 80 00 20 40
(d) Aus Beziehung x x med, empirischer Verteilungsfunktion und Boxplot folgt: Verteilung (leicht) linkssteil. Lösung Aufgabe 20 (a) Im folgenden wird die Notation M : Tagesdurchschnittstemperatur von München (in C), C : Tagesdurchschnittstemperatur von Cincinnati (in F) verwendet. Die durchschnittliche Tagesdurchschnittstemperatur von München lautet M = 2 2 i= M i = 2 06. = 8.846[ C]. Für Median und Quantile wird die geordnete Urliste benötigt, 0.8,.9, 3.2, 3.8, 9.6, 0.3,.8, 4.4, 6., 7.8, 9.0 Der Median lautet M med = 2 [M (6) + M (7) ] = 2 [9.6 + 0.3] = 9.95[ C]. Die Verteilung ist unimodal (erkennbar aus der Urliste) und annähernd symmetrisch. Für den Interquartilsabstand IQR M = M 0.75 M 0.25 benötigen wir die Formel für p-quantile (unklassierte Daten) In unserem Fall gilt und damit erhalten wir x p = x (np+), wenn np nicht ganzzahlig, x p [x (np), x (np+) ], wenn np ganzzahlig. np = 2 0.75 = 9 ganzzahlig, np = 2 0.25 = 3 ganzzahlig M (9) = 4.4, M (0) = 6. M 0.75 [4.4 C, 6. C] M (3) =.9, M (4) = 3.2 M 0.25 [.9 C, 3.2 C] IQR M [ }.2 {{ C}, 4.2 }{{ C} ] =4.4 3.2 =6..9 Zur Berechnung der Varianz verwenden wir die Transformationsformel s 2 = n n (x i x) 2 = n i= n x 2 i x 2. Damit erhalten wir s 2 M = 5.83 8.846 2 = 47.8[ C] 2 2 bzw. für die Standardabweichung s M = 6.9[ C]. Äquivalent zu München erhalten wir für Cincinnati i= Die geordnete Urliste lautet C = 2 2 i= = 2 65.7 = 54.3083[ F ]. 29.5, 33., 34.2, 43.9, 45., 54., 56.5, 64.0, 68.2, 72.3, 74.7, 76.. 2
Der Median ist C med = 2 [C (6) + C (7) ] = 2 [54. + 56.5] = 55.3[ F ]. Für die Quartile erhalten wir C (9) = 68.2, C (0) = 72.3 C 0.75 [68.2 F, 72.3 F ] und und damit für den Interquartilsabstand C (3) = 34.2, C (4) = 43.9 C 0.25 [34.2 F, 43.9 F ] IQR C [ 24.3 }{{} =68.2 43.9, 38. }{{} 72.3 34.2 Die Varianz lautet s 2 C = 3856.6 54.3083 2 = 264.08[ F ], 2 die Standardabweichung lautet s C = 6.25[ F ]. Die Verteilung ist ebenfalls unimodal und (annähernd) symmetrisch. (b) Die Umrechnung von Fahrenheit in Celsius ist eine lineare Transformation, also von der Form Y = ax + b. Für das arithmetische Mittel eines linear transformierten Merkmals gilt ȳ = a x + b. Die Varianz s 2 x = n i= (x i x) 2 wird folgendermaßen transformiert s 2 y = a 2 s 2 x. Die Transformation der Quantile läuft folgendermaßen ab { axp + b, falls a > 0, y p = ax p + b, falls a < 0. Sei CC: Temperaturen in Cincinnati in C. Für die Transformation der Temperaturen von Cincinnati in Grad Celsius erhalten wir daher CC = 5 9 C 60 9 = 5 60 54.3083 9 9 = 2.3935[ C]. Die Durchschnittstemperatur ist um ca. 3.5 C höher als in München. Für die Mediantemperatur erhalten wir CC med = 5 9 C med 60 9 = 5 60 55.3 9 9 = 2.94[ C]. Auch sie ist um ca. 3 C höher als in München. Für den Interquartilsabstand erhalten wir IQR CC = 5 9 C 0.75 60 9 5 9 C 0.25 60 9 = 5 9 (C 0.75 C }{{ 0.25 ) } =IQR C = IQR CC [3.5[ C]; 2.6[ C]]. Der Interquartilsabstand ist für Cincinnati breiter als für München, d.h. die Temperaturen besitzen in Cincinnati eine höhere Streuung, ebenso sind die mittleren 50 Prozent der Temperaturen in Cincinnati höher. (c) Die Boxplots sind in Abbildung dargestellt. Man erkennt deutlich die höhere Streuung der Temperaturen in Cincinnati sowie das (etwas) wärmere Klima in Cincinnati. ]. 3
Boxplots der Tagesdurchschnittstemperaturen in München und Cincinnati (in Grad Celcius) Temperatur in Grad Celsius 0 5 0 5 20 25 München Cincinnati Abbildung : Boxplots für München und Cincinnati. (d) Der Variationskoeffizient ist definiert als v X = s X x = n i= (x i x) 2 n i= x i Gesucht ist nun v Y, wobei Y = ax + b eine lineare Transformation ist. Wir erhalten n i= v Y = (ax i + b ax b) 2 n i= (ax i + b) = = n i= a2 (x i x) 2 a( n i= x i + b a ) i= (x i x) 2 n n i= x i + b a Fazit: Der Variationskoeffizient ist nur dann skalierungsunabhängig, wenn b = 0 gilt. Dies ist hier nicht der Fall. Der Variationskoeffizient für München lautet v M = s M M = 6.866 C 8.846 C Der Variationskoeffizient für Cincinnati (basierend auf F) lautet v C = s C C = 6.2503 F 54.3083 F = 0.776 () = 0.2992 (2) 4
Aufpassen: () und (2) sind nicht vergleichbar, obwohl beide Ergebnisse formal richtig sind! Der korrigierte Variationskoeffizient für Cincinnati lautet v C = s C C + b = 6.2503 F 54.3083 F 32 = 0.7284 = v CC = 9.0279 C 2.3935 C a Ergebnis: Mittelwertbereinigt besitzen die Temperaturen in München eine höhere Streuung als die in Cincinnati. Lösung Aufgabe 2 (a) (b) geg: X t : Warenausfuhr im Jahre t, t = 200, 2002,... ges: mittlere jährliche Wachstumsrate der Warenausfuhr x g der Jahre 200 bis 2006 Lös: Aufpassen: Grundlage für geometrisches Mittel sind die Wachstumsraten!!! Wachstumsrate i t = xt x t i... i n = x x 0 x2 x... x g = n i... i n x n x n = x n x0 x2006 73.544 x g = 5 = 5 x 200 50.008 =.0748 Die durchschnittliche jährliche Wachstumsrate beträgt 7.48%. Prognosewert: x n+t = x n x T g hier: x 2006+2 = 73.544.0748 2 = 845.076. Im Jahr 2008 wird die Warenausfuhr voraussichtlich 845.076 Mrd. Euro betragen. (c) geg: x n, x n+t, x g ges: T Lös: x n+t = x n x T g x T g = x n+t T log(x g ) = log x n ( xn+t x n T log(x g ) = log(x n+t ) log(x n ) : log(x g ) T = log(x n+t ) log(x n ) log(x g ) ) 5
Einsetzen: x 2006+T = 900.000 x 2006 = 73.544 x g =.0748 T = log(900.000) log(73.544) log(.0748) = 2.8729 3. 2009 werden 900 Mrd. Euro voraussichtlich überschritten. 6