Ü B U N G S S K R I P T S T A T I S T I K A. Ploner H. Strelec C. Yassouridis Universität für Bodenkultur Department für Raum, Landschaft und Infrastruktur Institut für Angewandte Statistik & EDV Peter-Jordan-Strasse 82, 1190 Wien http://statedv.boku.ac.at/ 1997-2012
Inhaltsverzeichnis 2 Beschreibende Statistik 3 Beispiele.......................................... 3 Lösungen......................................... 5 3 Wahrscheinlichkeitsrechnung 14 Beispiele.......................................... 14 Lösungen......................................... 16 4 Normalverteilungsverfahren 22 Beispiele.......................................... 22 Lösungen......................................... 25 5 Varianzanalyse 42 Beispiele.......................................... 42 Lösungen......................................... 44 6 Mehrfache Gruppenvergleiche 54 Beispiele.......................................... 54 Lösungen......................................... 54 7 Regressions und Korrelationsrechnung 58 Beispiele.......................................... 58 Lösungen......................................... 60 8 Nichtparametrische Verfahren 70 Beispiele.......................................... 70 Lösungen......................................... 72 9 Kontingenztafeln 89 Beispiele.......................................... 89 Lösungen......................................... 90 10 Statistische Qualitätskontrolle 94 Beispiele.......................................... 94 Lösungen......................................... 94 2
Kapitel 2 Beschreibende Statistik Beispiele Beispiel 2.1 62 Frauen mit Bluthochdruck werden untersucht, wobei u.a. das Gewicht gemessen wurde. Die folgende Tabelle zeigt jeweils das Verhältnis des beobachteten Körpergewichtes zum sogenannten Normgewicht (in %): 117 89 107 102 95 132 163 123 103 144 108 89 118 123 92 140 102 112 115 123 130 102 119 119 114 119 100 106 115 145 115 108 122 113 153 116 81 85 122 120 113 140 117 119 121 130 114 107 125 94 96 118 123 91 120 125 125 103 133 102 131 147 a) Zeichnen Sie ein Histogramm und das dazugehörende Summenhäufigkeitspolygon. b) Berechnen Sie den arithmetischen Mittelwert aus den nichtklassierten und aus den klassierten Werten sowie den Median. c) Berechnen Sie Varianz, Standardabweichung und den Variationskoeffizienten. d) Berechnen Sie das 0.05-, 0.10-, 0.90- und 0.95-Quantil, die Quartile und den Interquartilabstand. e) Berechnen Sie Schiefe und interpretieren Sie ihre Bedeutung für die Verteilung der Daten. f) Zeichnen Sie eine Boxplot-Darstellung der Daten. Beispiel 2.2 Am Brillenschötchen (Biscutella laevigata) werden botanisch-morphologische Untersuchungen durchgeführt. Dabei ist u.a. an 40 Exemplaren die Spaltöffnungslänge (in µm) gemessen worden: 27 25 23 27 23 25 28 30 28 32 25 29 28 33 32 28 25 22 25 23 26 28 30 32 31 31 34 29 36 33 30 29 27 27 29 26 23 24 26 27
4 KAPITEL 2. BESCHREIBENDE STATISTIK a) Zeichnen Sie ein Histogramm und das dazugehörende Summenhäufigkeitspolygon. b) Berechnen Sie den arithmetischen Mittelwert aus den nichtklassierten und aus den klassierten Werten sowie den Median. c) Berechnen Sie Varianz, Standardabweichung und den Variationskoeffizienten. d) Berechnen Sie das 0.05-, 0.10-, 0.90- und 0.95-Quantil, die Quartile und den Interquartilabstand. e) Berechnen Sie Schiefe und interpretieren Sie ihre Bedeutung für die Verteilung der Daten. f) Zeichnen Sie eine Boxplot-Darstellung der Daten. Beispiel 2.3 Bei einem Sojabohnenversuch im Forschungsglashaus wurde u.a. der Ertrag verschiedener Sorten untersucht. Für die Sorte Labrador konnten in 55 Töpfen folgende Ertragswerte (in f) festgestellt werden: 95 77 89 96 97 88 88 80 84 106 108 98 110 114 63 83 88 106 91 89 79 108 85 81 72 119 94 91 105 103 98 103 100 77 94 92 115 86 77 77 93 100 98 108 87 105 108 86 74 82 99 95 95 102 101 a) Zeichnen Sie ein Histogramm der Daten. b) Berechnen Sie den arithmetischen Mittelwert aus den nichtklassierten und aus den klassierten Werten sowie den Median. c) Berechnen Sie Varianz und Standardabweichung der Stichprobe. d) Berechnen Sie die Quartile des Datensatzes. Unter welchem Wert liegen die niedrigsten 30% der Erträge? Über welchem Wert liegen die größten 30% der Erträge? e) Berechnen Sie Schiefe und interpretieren Sie ihre Bedeutung für die Verteilung der Daten. f) Zeichnen Sie eine Boxplot-Darstellung der Daten. Beispiel 2.4 Im Mai und im Juni 1992 wurden Luftmessungen in Roosevelt Island durchgeführt. Unter anderem ergaben sich für die Temperaturen (in Grad Celsius) folgende Messprotokolle: Mai: 19.5 22.1 23.4 16.7 13.4 18.7 18.5 15.0 16.2 20.4 23.5 20.5 18.8 20.0 14.1 17.9 18.6 13.7 20.2 16.9 15.1 22.5 16.3 16.1 13.9 14.2 13.7 19.2 27.1 26.1 24.5 Juni:
5 25.7 23.1 19.5 28.6 29.2 26.4 27.8 30.5 32.4 30.5 33.7 33.4 27.8 26.5 26.1 25.2 22.1 18.5 22.9 24.7 25.0 24.5 24.4 24.5 23.3 25.3 22.8 26.6 25.3 28.2 a) Zeichnen Sie ein Histogramm für den Monat Mai. b) Berechnen Sie den arithmetischen Mittelwert und den Median für beide Monate. c) Berechnen Sie Varianz, Standardabweichung und den Variationskoeffizienten für beide Monate. d) Berechnen Sie das 0.05-, 0.10-, 0.90- und 0.95-Quantil und die Quartile für beide Monate. e) Zeichnen Sie eine Boxplot-Darstellung für beide Monate getrennt, aber mit einer gemeinsamen Skalierung. f) Vergleichen Sie die Temperaturverteilung der beiden Monate verbal auf Grund der von Ihnen berechneten Kennzahlen und der angefertigten Graphiken. Lösungen Lösung 2.1 a) Histogramm: Von Bis Anzahl 80 90 4 90 100 6 100 110 11 110 120 19 120 130 12 130 140 5 140 150 3 150 160 1 160 170 1 62 Man beachte: Jeweils einschließlich rechter Klassengrenze! Summenhäufigkeitspolygon: Klassengrenze akkumulierte relat. Häufigkeit 90 4/62 = 0.06 100 10/62 = 0.16 110 21/62 = 0.34 120 0.65 130 0.84 140 0.92 150 0.97 160 0.98 170 1.00 Kann direkt aus dem Histogramm erstellt werden, die akkumulierten relativen Klassenhäufigkeiten werden über der rechten Klassengrenze aufgetragen.
6 KAPITEL 2. BESCHREIBENDE STATISTIK 0 5 10 15 20 0.0 0.2 0.4 0.6 0.8 1.0 80 100 120 140 160 180 80 100 120 140 160 180 Abbildung 2.1: Histogramm und Summenpolygon für Beispiel 2.1 b,c) Lage- und Streuungsmaße: Für die händische Berechnung von Mittelwerten etc. ist es i.a. günstig, sich zunächst die Summe der Werte und der quadrierten Werte zu verschaffen. Hier sind dies x i = 7195 x 2 i = 852043 Mittelwert: x = 1 n n x i = 1 62 (117 + 123 +... + 122 + 118) = = 7195/62 = 116.05 Mittelwert klassiert: x K = 1 kj=1 n c j h j wobei c j Klassenmitte k Klassenanzahl Klassenhäufigkeit h j Für die vorliegenden Daten ergibt sich unter Verwendung der Klassierung des Histogramms: x K = 1 62 (85 4 + 95 6 +... + 155 1 + 165 1) = Median: = 7180/62 = 115.8 x = 1 2 (x (31) + x (32) ) = 1 2 (117 + 117) = 117 Varianz: s 2 1 = n n 1 (x i x) 2 = 1 n 1 ( n x 2 i n x2 ) = = 279.92
7 Standardabweichung: s = 16.73 Variationskoeffizient (sinnvoll wegen x 0): v = s/ x = 16.73/116.05 = 0.144 d) Quantile/Quartile: Um etwa das 5%-Quantil zu bestimmen, wird zunächst die Anzahl von Beobachtungen plus eins mit dem entsprechenden α = 0.05 multipliziert; dies ergibt hier 3.15, das Quantil liegt also zwischen dem 3. und 4. Wert. Da dies gerade zweimal der Wert 89 ist, ist dies das berechnete (geschätzte) 5%-Quantil. Für das 95%-Quantil hingegen, wo die beiden Endpunkte nicht übereinstimmen, verwenden wir deren arithmetischen Mittelwert. Interquartilabstand: Q 3 Q 1 = 21 α nα [nα] + 1 q α 0.05 3.1 4 89 0.10 6.2 7 94 0.25 15.5 16 103 0.75 46.5 47 123 0.90 55.8 56 140 0.95 58.9 59 145 e) Gestaltmaße: hier benötigt man als Hilfsgrößen noch zusätzlich die Summe der zur dritten und vierten Potenz erhobenen Werte, für die vorliegenden Daten x 3 i = 102926779 Schiefe: ˆγ 1 = 1 (x i x) 3 /s 3 n = 1 n n ( x 3 i 3 x x 2 i + 3 x 2 n x i n x 3 )/s 3 = 1 n n ( x 3 i 3 n ( n x i )( x 2 i ) + 2 n n 2 ( x i ) 3 )/s 3 = 0.295 Die Schiefe ist positiv, die Verteilung der Daten ist also (leicht) linkssteil und rechtsschief (siehe Histogramm). f) Box-Plot: Die benötigten Kenngrößen wurden bereits berechnet: Median: x = 117
8 KAPITEL 2. BESCHREIBENDE STATISTIK Quartile: Q 1 = 103, Q 3 = 124 Interquartilabstand: IQR = 21 Damit kann der Boxplot konstruiert werden: Maximale Whiskerlänge: 1.5 IQR = 31.5 Grenzen: Q 1 1.5 IQR = 71.5, Q 3 + 1.5 IQR = 155.5 Kleinster/größter Wert innerhalb der Grenzen: 81, 153 Ausreisser (Werte ausserhalb der Grenzen): 163 80 100 120 140 160 Lösung 2.2 Abbildung 2.2: Boxplot für Beispiel 2.1 a) Histogramm/Summenhäufigkeitspolygon: siehe Abbildung. b,c) Lage- und Streuungsmaße: x i = 1116 x 2 i = 31582 x 3 i = 906444 Mittelwert nichtklassiert: x = 27.90 Mittelwert klassiert: x K = 27.45 Median: x = 28
9 0 2 4 6 8 10 12 1 5 8 10 7 5 3 1 0.0 0.2 0.4 0.6 0.8 1.0 20 25 30 35 20 25 30 35 Abbildung 2.3: Histogramm und Summenpolygon für Beispiel 2.2 Varianz: s 2 = 11.43 Standardabweichung: s = 3.38 Variationskoeffizient: v = 0.12 d) Quantile, Quartile: α nα [(nα), (nα) + 1] q α 0.05 2 [2,3] 23 0.10 4 [4,5] 23 0.25 10 [10,11] 25 0.75 30 [30,31] 30 0.90 36 [36,37] 32.5 0.95 38 [38,39] 33.5 Interquartilabstand: Q 3 Q 1 = 5 e) Gestaltmaße: Schiefe: ˆγ 1 = 0.286 Die Schiefe ist positiv, also ist die Verteilung der Daten linkssteil/rechtsschief (siehe Histogramm). f) Boxplot: Siehe Abbildung - keine Ausreißer.
10 KAPITEL 2. BESCHREIBENDE STATISTIK 22 24 26 28 30 32 34 36 Abbildung 2.4: Boxplot für Beispiel 2.2 Lösung 2.3 a) Histogramm 0 5 10 15 20 1 8 13 17 13 3 60 70 80 90 100 110 120 Abbildung 2.5: Histogramm für Beispiel 2.3 b,c) Lage und Streuungsmaße:
11 x i = 5139 x 2 i = 488019 x 3 i = 47052519 Mittelwert nichtklassiert: x = 93.44 Mittelwert klassiert: x K = (65 1 + 75 8 + + 105 13 + 115 3)/55 = 5095/55 = 92.64 Median: x = x (28) = 94 Varianz: s 2 = (488019 5139 2 /55)/54 = 145.36 Standardabweichung: s = 12.06 d) Quantile/Quartile: α nα [nα] + 1 q α 0.25 13.75 14 85 0.30 16.5 17 87 0.70 38.5 39 100 0.75 41.25 42 103 30% der Erträge liegen unter 86.5 g. 30% der Erträge liegen über 100.5 g. e) Gestaltmaße: Schiefe: ˆγ 1 = 1 ( n x 3 i 3 n n ( n x i )( x 2 i ) + 2 n ) n 2 ( x i ) 3 /s 3 = 47052519 3 5139 488019/55 + 2 51393 /55 2 55 12.06 3 = 0.13 Dementsprechend ist die Verteilung der Erträge leicht rechtssteil/linksschief. f) Boxplot: Bekannt: Also: x = 94 Q 1 = 85 Q 3 = 103 IQR = 18 untere Grenze: 58 obere Grenze: 130 Da kleinster und größter Ertrag (63/119) innerhalb der Grenzen liegen, werden keine Ausreißer eingetragen.
12 KAPITEL 2. BESCHREIBENDE STATISTIK 60 70 80 90 100 110 120 Abbildung 2.6: Boxplot für Beispiel 2.3 Lösung 2.4 a) Histogramm Mai: siehe Abbildung 2.7. Beachten Sie, dass das Histogramm auf Grund der ursprünglichen Werte (inklusive Zehntelstelle) gebildet wird! Sie können zwar die Klasseneinteilung aus der Stamm- und Blattdarstellung übernehmen, beim Abzählen der Klassenhäufigkeiten sind aber nur die vollständigen Werte korrekt. b,c) Lage und Streuungsmaße: xi x 2 i x x s 2 s v Mai: 576.8 11168.88 18.61 18.60 14.56 3.82 0.21 Juni: 784.5 20899.33 26.15 25.50 13.26 3.64 0.14 d) Quantile: Hier können die Quantile nicht direkt aus den Stamm- und Blattdarstellungen abgelesen werden, da in diesen die letzte Stelle nicht aufscheint! Mai: α nα [nα] + 1 q α 0.05 1.6 2 13.70 0.10 3.1 4 13.90 0.25 7.8 8 15.10 0.75 23.25 24 22.10 0.90 27.9 28 24.5 0.95 29.45 30 27.1
13 e) Boxplot: Juni: α nα [nα] + 1 bzw.[(nα), (nα) + 1] q α 0.05 1.5 2 19.5 0.10 3 [3,4] 22.45 0.25 7.5 8 24.4 0.75 22.5 23 28.2 0.90 27 [27,28] 31.45 0.95 28.5 29 33.4 Mai: untere Grenze = 7 obere Grenze = 28.6 Juni: untere Grenze = 17.025 obere Grenze = 35.225 f) Interpretation: Wie aus dem Boxplot ersichtlich, unterscheiden sich die Temperaturverteilungen der beiden Monate v.a. durch ihre Lage, indem die mittlere Temperatur im Juni um mehr als 7 Grad höher ist als im Mai. Die Streuung, gemessen als Standardabweichung, ist für beide Monate bis auf Zehntelgrade gleich. Die zwei niedrigsten Werte im Juni erscheinen zwar in der Stamm- und Blattdarstellung etwas abgesetzt vom Hauptteil der Beobachtungen, sind aber im Boxplot nicht als Ausreißer eingetragen. Beide Verteilungen erscheinen im wesentlichen symmetrisch um ihre Mitte zu liegen; im Boxplot erscheint der Juni symmetrischer (Median in der Mitte der Box, Bänder annähernd gleich lang), während für den Mai Mittelwert und Median besser übereinstimmen, und die Stamm- und Blattdarstellung symmetrischer wirkt. Insgesamt erscheinen die Temperaturen im Mai einer flacheren Verteilung zu folgen als im Juni. 0 1 2 3 4 5 6 7 7 6 4 4 4 3 2 1 12 14 16 18 20 22 24 26 28 10 15 20 25 30 35 Mai Juni Abbildung 2.7: Histogramm (Mai) und Boxplots für Beispiel 2.4