Stochastik und Statistik für Ingenieure Vorlesung 10

Transkript

1 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik Stochastik und Statistik für Ingenieure Vorlesung Dezember 2012

2 4.2. Graphiken und statistische Maßzahlen (Kenngrößen, Parameter) für Daten Graphiken und statistische Maßzahlen dienen dazu, einen Überblick über die vorliegenden Daten zu erhalten, Vorstellungen über mögliche zugrundeliegende Verteilungen, Eigenschaften oder Besonderheiten zu entwickeln oder einfache Beschreibungen der Daten mit wenigen, möglichst aussagekräftigen Kenngrößen zu ermöglichen. In Abhängigkeit von den Skalenniveaus und anderen Eigenschaften der Daten (wie z.b. univariate, bivariate oder multivariate Datensätze) können unterschiedliche Graphiken und Kenngrößen genutzt werden. Im Rahmen dieser Vorlesung werden nicht alle Möglichkeiten vorgestellt, sondern nur eine Auswahl von häufiger verwendeten bzw. aussagekräftigen Graphiken und Maßzahlen. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 1

3 Fragestellungen im Zusammenhang mit den Graphiken Für welche Daten eignet sich die Graphik? Wie ist die Graphik aufgebaut? Wie interpretiert man die Graphik? Welche Informationen kann die Graphik liefern und warum? Welche Informationen kann die Graphik nicht liefern und warum? Versucht man mit einer vorliegenden Graphik zu täuschen, etwas bestimmtes zu suggerieren? (Zitat, zu finden z.b. in Benesch, Schlüsselkonzepte zur Statistik, Springer, 2013, S.2: Die Statistik ist dem Politiker, was die Laterne dem Betrunkenen ist: Sie dient zum Festhalten, nicht der Erleuchtung. ) Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 2

4 Graphiken für univariate stetige Daten (a) Punktdiagramme Ein Punktdiagramm kann für ein stetiges Merkmal erstellt werden. Dabei werden die Beobachtungswerte durch Punkte auf einem geeigneten Abschnitt der reellen Zahlengeraden markiert. Man erhält einen Überblick über den Bereich, in dem Beobachtungswerte liegen und wie stark sie streuen. Teilweise kann man Teilbereiche erkennen, in denen sich die Beobachtungswerte häufen oder seltener vorkommen. Ebenfalls kann man sehr große oder sehr kleine Beobachtungswerte, die von der Masse der Werte relativ weit entfernt sind und eventuell als Ausreißer zu behandeln sind, erkennen. Die Zusatzinformationen zum Datensatz muss ggf. mit genutzt werden (falls Daten transformiert sind etc.). Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 3

5 Probleme mit Punktdiagrammen Zusammenfallende oder sehr nah beieinander liegende Beobachtungswerte sind im Diagramm nicht mehr unterscheidbar, so dass Punkte durch Überdeckung verloren gehen können. Diese Problem kann man beheben, indem man die Punktpositionen in die ungenutzte Richtung (vertikal bei horizontalen Punktdiagrammen) durch systematisches Stapeln (gestapeltes Punktdiagramm) oder durch zufälliges Verzittern (verzittertes Punktdiagramm) verschiebt. Ein verzittertes Punktdiagramm sieht nach jedem Neuzeichnen anders aus. Beim gestapelten Punktdiagramm können Muster vorgegaukelt werden, die aber nur sehr zufällig und damit wenig aussagekräftig sind. Die Verteilung der Punkte kann nicht immer gut erfasst werden. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 4

6 Punktdiagramm für Datensatz Lichtgeschwindigkeitsmessungen > data(morley) > lightspeeds=morley$speed > stripchart(lightspeeds, main= Punktdiagramm Lichtgeschwindigkeitsmessungen ) Punktdiagramm Lichtgeschwindigkeitsmessungen Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 5

7 Gestapeltes Punktdiagramm für Beispiel > stripchart(lightspeeds,method= stack, main= Gestapeltes Punktdiagramm Lichtgeschwindigkeitsmessungen ) Gestapeltes Punktdiagramm Lichtgeschwindigkeitsmessungen Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 6

8 Verzittertes Punktdiagramm für Beispiel > stripchart(lightspeeds,method= jitter, main= Verzittertes Punktdiagramm Lichtgeschwindigkeitsmessungen ) Verzittertes Punktdiagramm Lichtgeschwindigkeitsmessungen Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 7

9 (b) Histogramme Ausgangspunkt für ein Histogramm ist eine Klasseneinteilung der Beobachtungswerte. Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, in eine endliche Anzahl disjunkter Teilintervalle, die sogenannten Klassen oder Gruppen zerlegt. Jede Klasse ist dann eindeutig durch die Klassenmitte und die Klassenbreite bzw. durch die untere und obere Klassengrenze bestimmt. Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein. Die Klassenbreiten sollten übereinstimmen (ggf. mit Ausnahme der Randklassen). Nach Festlegung einer Klasseneinteilung werden die absoluten Klassenhäufigkeiten bestimmt, d.h. für jede Klasse wird die Anzahl der Beobachtungswerte in der Klasse gezählt. Dann werden in einem Koordinatensystem aneinanderstoßende Rechtecke mit den Klassenintervallen als Basis und Höhen proportional zur Klassenhäufigkeit gezeichnet. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 8

10 Histogramm für Beispiel Lichtgeschwindigkeiten > hist(lightspeeds) Histogram of lightspeeds Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 9

11 Histogramm und gestapeltes Punktdiagramm für Beispiel > hist(lightspeeds) > stripchart(lightspeeds,method= stack,add=t,col=2) Histogram of lightspeeds Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 10

12 Histogramm mit 3 Klassen und Punktdiagramm für Beispiel > b=c(299600,299800,300000,300200) > hist(lightspeeds,breaks=b) > stripchart(lightspeeds,method= stack,add=t,col=2) Histogram of lightspeeds Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 11

13 Histogramm mit 50 Klassen und Punktdiagramm für Beispiel > b=c(seq(299600,300100,by=10)) > hist(lightspeeds,breaks=b) > stripchart(lightspeeds,method= stack,add=t,col=2) Histogram of lightspeeds Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 12

14 Bemerkungen zu Histogrammen Die Gestalt eines Histogramms hängt stark von der gewählten Klasseneinteilung (und auch des gewählten Gesamtintervalls) ab, deshalb sollte man ggf. etwas experimentieren, um ein möglichst aussagekräftiges Histogramm zu erzeugen. Durch die Klasseneinteilung geht Information verloren. Man kann eventuell Ausreißer am linken oder rechten Rand erkennen. Man kann eventuell Verteilungseigenschaften, wie Symmetrie oder Schiefe erkennen (oder erahnen). Bei unterschiedlichen Klassenbreiten sollten die Flächeninhalte der Rechtecke proportional zu den Häufigkeiten sein. Statt der absoluten Häufigkeiten können die Höhen der Rechtecke auch so normiert werden, dass der Gesamtflächeninhalt unter allen Rechtecken gleich 1 ist. Dann ist ein (meist nicht sehr belastbarer) Vergleich mit einer Verteilungsdichte möglich. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 13

15 Histogramm mit Normalverteilungsdichteschätzung für Beispiel > hist(lightspeeds,freq=f) > curve(dnorm(x,mean(lightspeeds),sd(lightspeeds)),add=t,col=2) Histogram of lightspeeds Density lightspeeds Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 14

16 (c) Kenngrößen und Parameter zur Beschreibung von Daten Lageparameter Mittelwerte (arithmetisch, geometrisch, harmonisch) empirischer Median empirische Quantile (Quartile, Dezentile,... ) Variabililitätsparameter (Streuparameter) empirische Varianz empirische Standardabweichung Spannweite empirischer (Inter-)Quartilsabstand IQR empirischer Variationskoeffizient empirische geometrische Standardabweichung Formparameter (später) empirische Schiefe empirische Wölbung Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 15

17 (c01) Arithmetischer Mittelwert Für reelle Beobachtungswerte x 1, x 2,..., x n ist der arithmetische Mittelwert definiert durch x = 1 n x i = 1 n n (x 1 + x x n ). i=1 In der Statistik wird er als Realisierung des Stichprobenmittelwerts (eine spezielle Stichproben- oder Schätzfunktion) X = 1 n n X i = 1 n (X 1 + X X n ) i=1 einer mathematischen Stichprobe (X 1, X 2,..., X n ) (unabhängige und identisch verteilte Zufallsgrößen) betrachtet. Diese liefert unter geeigneten Voraussetzungen eine erwartungstreue und konsistente Schätzfunktion für den Erwartungswert der Zufallsgrößen X i : ÊX = X. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 16

18 Arithmetischer Mittelwert in R Der Befehl in R zur Berechnung des (arithmetischen) Mittelwertes ist mean(). > mean(lightspeeds) [1] Histogram of lightspeeds Ein Histogramm mit Mittelwertslinie kann dann so erzeugt werden: > hist(lightspeeds) > abline(v=mean(lightspeeds),col=2) Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 17

19 (c02) Geometrischer Mittelwert Für nichtnegative reelle Beobachtungswerte (einer ratio-skala) x 1, x 2,..., x n ist der geometrische Mittelwert definiert durch x G = n n x i = (x 1 x 2... x n ) 1 n. i=1 Bemerkung: Es gilt immer x G x. Anwendung findet er zum Beispiel, wenn eine logarithmische Skala (Transformation) sinnvoll ist oder die Merkmalsausprägungen relative Änderungen sind, so bei der Mittelung von Wachstumsfaktoren. In R kann man die Exponentialfunktion zur Berechnung von geometrischen Mittelwerten nutzen: ( ) 1 n x G = exp ln(x i ). n i=1 Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 18

20 Beispiel zum geometrischen Mittelwert Beispiel: Zeitpunkt Zustandswert Merkmalswert=Wachstumsfaktor x 1 = 0.81 x 2 = x G = aber x = (obwohl insgesamt keine Änderung des Zustandswerts zum Ausgangszeitpunkt vorliegt). In R ergibt zum Beispiel: > x=c(81/100,100/81) > exp(mean(log(x))) [1] 1 > mean(x) [1] Bemerkung: log(x) berechnet in R den Vektor der natürlichen Logarithmen des Vektors x. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 19

21 (c03) Harmonischer Mittelwert In manchen Situationen ist für nur positive (oder nur negative) Beobachtungswerte x 1, x 2,..., x n der harmonische Mittelwert x H = besser geeignet, so z.b. Mittelwertbildung von Anteilen oder Prozentzahlen oder bei der Berechnung von Durchschittsgeschwindigkeiten (gleichlange Teilstrecken) oder Durchschnittspreisen. Gilt x i > 0 für alle i = 1,..., n, dann gilt immer n n i=1 1 x i x H x G x. Im Fall von x 1 = x 2 =... = x n = x > 0 erhält man x H = x G = x = x. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 20

22 Beispiel zum harmonischen Mittelwert Beispiel: Konstante Geschwindigkeiten auf jeweiligen Teilstrecken Teil-/Gesamtstrecke Streckenlänge in km Zeit in h Geschwindigkeit in km/h x 1 = 50 x 2 = = x H = 2 = 66.66, aber x = 75 und x G = In R (ab dem Zeichen # beginnt ein Kommentar): > x=c(50,100) > 1/mean(1/x) # Harmonisches Mittel [1] > mean(x) # Arithmetisches Mittel [1] 75 > exp(mean(log(x))) # Geometrisches Mittel [1] Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 21

23 (c04) Empirischer Median Der empirische Median oder Zentralwert der Beobachtungsreihe x 1, x 2,..., x n ist dadurch gekennzeichnet, dass jeweils 50 % der Beobachtungswerte einen Wert größer oder gleich bzw. kleiner oder gleich dem empirischen Median annehmen. Sind x (1) x (2)... x (n) die der Größe nach geordneten Beobachtungswerte, kann der (empirische) Median x durch x n+1 2 ), falls n ungerade, x = (, falls n gerade, bestimmt werden. 1 2 x ( n 2 ) + x ( n 2 +1) ) Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 22

24 Beispiele zum empirischen Median Beobachtungswerte 4, 5, 1, 3, 6, 7, 8 n = 7, x = 5, x = Beobachtungswerte 4, 5, 1, 3, 6, 7 n = 6, x = 4.5, x = Beobachtungswerte 9, 10, 8, 11, 12, 9, 1000 n = 7, x = 10, x = Der Median ist weniger empfindlich gegenüber Ausreißern in der Beobachtungsreihe, d.h. Werte, die weit von den übrigen entfernt liegen, beeinflussen den Median nicht (oder kaum). Dies trifft auf den arithmetischen Mittelwert im Allgemeinen nicht zu. In R: > median(lightspeeds) [1] Der Median kann sogar für Daten auf einer nur ordinalen Skala genutzt werden (wenn z.b. die Addition, die zur Bildung des arithmetischen Mittelwerts notwendig ist, gar keinen Sinn macht). Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 23

25 Histogramm mit Linie für Mittelwert (rot) und Median (blau) für Beispiel > hist(lightspeeds) > abline(v=mean(lightspeeds),col=2) > abline(v=median(lightspeeds),col=4) Histogram of lightspeeds Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 24

26 (c05) Empirische Quantile Ein Ordnen der Datenreihe x 1, x 2,..., x n der Größe nach ergibt die geordnete Datenreihe (geordnete Stichprobe, Variationsreihe) x min := x (1) x (2)... x (n 1) x (n) =: x max. Andere Bezeichnungen für die Variationsreihe sind x 1 x 2... x n oder x 1:n x 2:n... x n:n. Das empirisches p Quantil mit 0 < p < 1 ist ein Zahlenwert ˆx p (oder bezeichnet mit x p ) für den gilt, dass p 100% der Werte in der Variationsreihe kleiner oder gleich ˆx p und (1 p) 100% der Werte größer oder gleich ˆx p sind. ˆx p = x (k), falls np keine ganze Zahl ist, k ist ( ) x(k) + x (k+1), dann die auf np folgende ganze Zahl; falls np =: k eine ganze Zahl ist. 1 2 Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 25

27 Beispiel zu empirischen Quantilen 10 Beobachtungswerte: 1, 3, 7, 2, 20, 9, 15, 2, 11, 10. Variationsreihe: Quantil : p = 0.05, np = 0.5 k = 1, ˆx 0.05 = x (1) = Quantil : p = 0.10, np = 1 = k ˆx 0.05 = 1 2 (x (1) + x (2) ) = Quantil : p = 0.20, np = 2 = k ˆx 0.20 = 1 2 (x (2) + x (3) ) = Quantil : p = 0.25, np = 2.5 k = 3, ˆx 0.25 = x (3) = Quantil : p = 0.50, np = 5 = k ˆx 0.50 = 1 2 (x (5) + x (6) ) = 8 = x. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 26

28 Spezielle Quantile Das 0.5 Quantil ist der Median. Das 0.25 Quantil heißt auch unteres oder erstes Quartil (oder auch unterer Viertelwert). Das 0.75 Quantil heißt auch oberes oder drittes Quartil (oder auch oberer Viertelwert). Das n 10 Quantil mit n {1, 2, 3, 4, 5, 6, 7, 8, 9} heißt auch n tes Dezentil. Als 0 Quantil kann man das Minumum x min = x (1) ansehen. Als 1 Quantil kann man das Maximum x max = x (n) ansehen. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 27

29 Berechnung von Quantilen mit R Der Befehl quantile() erzeugt als Ausgabe eine Tabelle mit Werten für das Minimum, das Maximum, den Median und die Quartile. Beispiel: > quantile(lightspeeds) 0% 25% 50% 75% 100% Sollen für bestimmte Niveaus p die zugehörigen Quantile berechnet werden, können diese dem Befehl mit übergeben werden. Beispiele: > quantile(lightspeeds,c(0.1,0.2,0.3)) 10% 20% 30% > quantile(lightspeeds,seq(0.8,0.95,0.05)) 80% 85% 90% 95% Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 28

30 (c06) Empirische Varianz Für reelle Beobachtungswerte x 1, x 2,..., x n ist die empirische Varianz ( s 2 = 1 n n ) (x i x) 2 = 1 x 2 i nx 2. n 1 n 1 i=1 In der Statistik wird sie als Realisierung des Stichprobenvarianz S 2 = 1 n 1 i=1 n (X i X) 2 i=1 einer mathematischen Stichprobe (X 1, X 2,..., X n ) betrachtet. Diese liefert unter geeigneten Voraussetzungen durch die Wahl des Nenners n 1 eine erwartungstreue und konsistente Schätzfunktion für die Varianz der Zufallsgrößen X i : VarX = S 2. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 29

31 (c07) Empirische Standardabweichung So wie die (theoretische) Standardabweichung einer Zufallsgröße als Quadratwurzel aus der Varianz definiert wird, wird die empirische Standardabweichung als Quadratwurzel aus der empirischen Varianz definiert: s = s 2 = 1 n (x i x) n 1 2. Sowohl die empirische Varianz als auch die empirische Standardabweichung sind empfindlich gegenüber Ausreißern. Außerdem können beide Maßzahlen nur bei bestimmten Verteilungen, wie z.b. der Normalverteilung, gut interpretiert werden. Bei Merkmalswerten mit (physikalischen etc.) Maßeinheiten kommt bei der empirischen Varianz diese Maßeinheit im Quadrat vor, bei der empirischen Standardabweichung die Maßeinheit selber. i=1 Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 30

32 (c08) Spannweite Die Spannweite (oder Variationsbreite) ist die Differenz der extremalen Werte, = x max x min = x (n) x (1). Sie gibt folglich die Länge des kleinsten Intervalls an, in das alle Beobachtungswerte fallen. Die Spannweite ist empfindlich gegenüber Ausreißern, das sie nur von den extremen Werten abhängt. Die bisher behandelten drei Streumaße lassen sich wie folgt in R berechnen: > var(lightspeeds) # empirische Varianz [1] > sd(lightspeeds) # empirische Standardabweichung [1] > max(lightspeeds)-min(lightspeeds) # Spannweite [1] 450 Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 31

33 (c09) Empirischer Interquartilsabstand Der empirische Interquartilsabstand ist die Differenz des oberen und des unteren Quartils, IQR(x) = ˆx 0.75 ˆx Da die sehr großen und sehr kleinen Beobachtungswerte bei der Berechnung des Interquartilsabstands keine Rolle spielen, ist er relativ unempfindlich gegenüber Ausreißern. In dem Intervall der Länge des Interquartilabstandes vom unteren zum oberen Quartil liegt die Hälfte der Beobachtungswerte. Über die andere Hälfte der Beobachtungswerte kann allerdings mit Hilfe dieser Kenngröße nichts wesentliches ausgesagt werden. In R: > IQR(lightspeeds) [1] 85 Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 32

34 (c10) Streumaße für die ratio-skala Für Merkmalswerte in der ratio-skala können Streumaße durch Quotientenbildung in Bezug zu Lagemaßen gebracht werden. Dadurch entstehen einheitenlose Maßzahlen, die z.b. zum Vergleich unterschiedlicher Daten genutzt werden können. Der empirische Variationskoeffizient ist definiert durch v(x) = s x, er ist eine Schätzung für den theoretischen Variationskoeffizienten. In R: > sd(lightspeeds)/mean(lightspeeds) [1] Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 33

35 Geometrische Standardabweichung Die (theoretische) geometrische Standardabweichung einer positiven Zufallsgröße X ist definiert durch ( ) exp Var (ln(x)), den entsprechenden empirischen Wert für eine Datenreihe dazu erhält man, in dem man die Standardabweichung durch die empirische Standardabweichung ersetzt. In R: > exp(sd(log(lightspeeds))) [1] Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 34

36 (d) Box-Plot Ein Box-Plot ( Box-Whisker-Plot, Kasten-Diagramm) ist eine aussagekräftige graphische Darstellung der Fünfer-Charakteristik, bestehend aus Median x = ˆx 0.5, den empirischen Quartilen (Viertelwerten) ˆx 0.25 und ˆx 0.75 und den Ausreißergrenzen A u, A o. Die Ausreißergrenzen werden dabei definiert durch A u = ˆx IQR(x) und A o = ˆx IQR(x). Dies betrifft die sogenannten inneren Zäune; ( inner fences ) für manche Fragen verwendet man auch die sogenannten äußere Zäune ( outer fences ), definiert durch ±3 IQR(x). Die Grenzen für die Box ( hinges, Tukeys Scharniere (Türangel) ) werden durch das untere und das obere Quartil bestimmt. Eine gerade Linie kennzeichnet innerhalb der Box den Median. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 35

37 Fortsetzung Box-Plots Die untere Begrenzungslinie wird dabei nicht durch die untere Ausreißergrenze definiert, sondern durch den kleinsten Wert, der A u ist, bzw. sie ist = x min falls x min A u. Analog wird die obere Begrenzungslinie definiert durch den größten Wert, der A o ist bzw. = x max falls x max A u. Diese Grenzen heißen auch Whisker-Grenzen ( whisker : Schnurrhaare der Katze). Ausreißer (d.h. Datenwerte außerhalb der Ausreißergrenzen) werden extra durch Punkte angegeben. Dabei werden ein einfacheres Symbol für näher liegende Ausreißer und ein auffälligeres Symbol für die sogenannten fernen Ausreißer (extreme oder krasse Ausreißer) verwendet, die außerhalb der äußeren Zäune liegen (bzw. z.b. bei Prof. van den Boogaart mehr als 2.5 IQR(x) von der Box enfernt liegen). Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 36

38 Erzeugung von Box-Plots in R In R: > boxplot(lightspeeds) erzeugt ein vertikales Box-Plot vom Datensatz lightspeeds, ein horizontales Box-Plot wird erzeugt durch > boxplot(lightspeeds,horizontal=true) Die Kenngrößen in diesem Datensatz waren: Median x = ˆx 0.95 = ; unteres Quartil ˆx 0.25 = ; oberes Quartil ˆx 0.75 = ; Quartilsabstand IQR(x) = 85 ; untere Ausreißergrenze obere Ausreißergrenze A u = ˆx IQR(x) = ; A u = ˆx IQR(x) = Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 37

39 Vertikales Box-Plot für Beispiel Lichtgeschwindigkeiten > boxplot(lightspeeds,main= Box-Plot Lichtgeschwindigkeiten ) Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 38

40 Horizontales Box-Plot für Beispiel Lichtgeschwindigkeiten > boxplot(lightspeeds,horizontal=true, main= Box-Plot Lichtgeschwindigkeiten ) Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 39

41 Horizontales Box-Plot mit Punktdiagramm für Beispiel > boxplot(lightspeeds,horizontal=true, main= Box-Plot Lichtgeschwindigkeiten ) > stripchart(lightspeeds,method= stack,col=2,add=true) Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 40

42 Daten für Box-Plots in R Die Zahlenwerte für das Box-Whisker-Plot, aus denen sich die graphische Darstellung ergibt, können durch den Funktionsaufruf boxplot()$stats abgefragt werden. Im Beispiel: > boxplot(lightspeeds)$stats [,1] [1,] [2,] [3,] [4,] [5,] Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 41

43 Horizontales Box-Plot für Beispiel mit Statgraphics Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 42

44 Gekerbte Box-Whisker-Plots Als zusätzliche Information werden manchmal zusätzlich Kerben ( notches ) zur Kennzeichnung eines 95%-Konfidenzintervalles für den Median (unter Normalverteilungsannahme berechnet) mit eingezeichnet. Ein 95%-Konfidenzintervall für den Median ist dabei ein zufälliges Intervall, welches unter der bestimmten Verteilungsannahme den tatsächlichen oder wahren Median mit einer Wahrscheinlichkeit von 0.95 überdeckt. Für vorliegende Beobachtungswerte kann dann ein konkretes Intervall berechnet werden. In R kann ein solches gekerbtes Box-Plot durch den zusätzlichen Parameter notch=true im Befehl boxplot() erzeugt werden. Die Zahlenwerte dazu können mit boxplot()$conf abgefragt werden. Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 43

45 Gekerbtes Box-Plot für Beispiel Lichtgeschwindigkeiten > boxplot(lightspeeds,main= Box-Plot Lichtgeschwindigkeiten, notch=true) > boxplot(lightspeeds)$conf [,1] [1,] [2,] gekerbtes Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff (TUBAF) Stochastik/Statistik für Ingenieure Vorlesung 10 44