Empirische Softwaretechnik Boxplots Prof. Dr. Walter F. Tichy Fakultät für Informatik 1 Graphische Darstellung Median gegeben eine sortierte Stichprobe Median gibt den mittleren Wert der sortierten Stichprobe an eine Hälfte der Stichproben-Werte ist kleiner als der Median, die andere Hälfte ist größer veranschaulicht die Werte einer Stichprobe Fakultät für Informatik 3 Fakultät für Informatik 4
Berechnung des Median Median (Forts.) ungerade, dann Median gleich Stichprobenwert ummer + 1 gerade, dann Median mittig zwischen den Median ist unempfindlicher gegen Ausreißer als der Mittelwert Beispiele: Stichprobe 3,4,8,9,15 hat Median 8,Mittelwert 7,8 Stichprobenwerten ummer und Fakultät für Informatik 5 + 1 Stichprobe 3,4,8,9,100 hat auch Median 8,Mittelwert 4,8. Stichprobe 1,3,4,8,9,15 hat Median 4 + 8 = 6 Fakultät für Informatik 6 Quartile Berechnung der Quartile das erste und dritte Quartil Q 1 und Q 3 geben (in etwa) die Schranken für das untere und obere Viertel der sortierten Stichprobe an der Interquartil-Bereich umfasst (in etwa) die mittlere Hälfte der Datenpunkte das zweite Quartil Q ist genau der Median Vorsicht: es gibt mehrere Berechnungsvorschriften, die aber leicht unterschiedliche Ergebnisse liefern das liegt daran, daß J. W. Tukey für seine Boxplots mit den sogenannten hinges gearbeitet hat, die aber nur für = 4 k +1 genau die Quartile liefern Fakultät für Informatik 7 Fakultät für Informatik 8
auf 3/4 der Strecke zwischen den Stichprobenwerten ummer k und k +1 mittig zwischen den Stichprobenwerten ummer k und k +1 auf 1/4 der Strecke zwischen den Stichprobenwerten ummer 3k und 3k +1 = 4 k = 4 k +1 = H 1 gleich dem Stichprobenwert ummer k +1 = M gleich dem Stichprobenwert ummer k +1 = H gleich dem Stichprobenwert ummer 3k +1 Fakultät für Informatik 9 Fakultät für Informatik 10 hinge = Angelpunkt, Scharnier = 4 k + auf 1/4 der Strecke zwischen den Stichprobenwerten ummer k +1 und k + mittig zwischen den Stichprobenwerten ummer k +1 und k + auf 3/4 der Strecke zwischen den Stichprobenwerten ummer 3k +1 und 3k + D.h. im Interquartil-Bereich liegen k Werte, außerhalb k + Werte = 4 k + 3 mittig zwischen den Stichprobenwerten ummer k +1 und k + ist der Stichprobenwerten ummer k + mittig zwischen den Stichprobenwerten ummer 3k + und 3k +3 Fakultät für Informatik 11 Fakultät für Informatik 1
Quartile mit R Beispiel: Stichprobe 10,15,18,33,34,36,51,73,80,86,9 Median ist 36 (mittlerer Datenpunkt) das erste Quartil ist 5,5 (mittig zwischen 18 und 33) das dritte Quartil ist 76,5 (mittig zwischen 73 und 80) a <- c(10,15,18,33,34,36,51,73,80,86,9) median(a) [1] 36 Quantile(a) 0% 5% 50% 75% 100% 10.0 5.5 36.0 76.5 9.0 der Interquartilbereich ist [5,5; 76,5]......und hat die Länge Q 3 Q 1 = 51 Fakultät für Informatik 13 Fakultät für Informatik 14 Quartile mit R (Forts.) Quartile mit R (Forts.) b <- c(99,61,18,98,80,95,118,93,36,14) sort(b) [1] 14 18 36 61 80 93 95 98 99 118 quantile(b) 0% 5% 50% 75% 100% 14.00 4.5 86.50 97.5 118.00 c <- c(10,15,18,33,34,36,51,73,80,86,9,93) quantile(c) 0% 5% 50% 75% 100% 10.00 9.5 43.50 81.50 93.00 Fakultät für Informatik 15 Fakultät für Informatik 16
Whiskers Boxplots mit R der untere whisker ( Schnurrhaar ) entspricht dem kleinsten Datenpunkt, der um nicht mehr als1,5 ( Q 3 Q1) unterhalb des ersten Quartils Q 1 liegt der obere whisker ist analog definiert die whisker verdeutlichen die Schwankung in der Stichprobe Außerhalb der whisker liegende Punkte heißen Ausreisser. a <- c(10,15,18,33,34,36,51,73,80,86,9) boxplot(a) Fakultät für Informatik 17 Fakultät für Informatik 18 Multiple Boxplots mit R b <- c(99,61,18,98,80,95,118,93,36,14) boxplot(list(eins=a,zwei=b)) Fakultät für Informatik 19