Statistik für Ingenieure Vorlesung 9

Transkript

1 Statistik für Ingenieure Vorlesung 9 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 9. Januar 2018

2 Kenngrößen und Parameter zur Beschreibung univariater Daten Lageparameter Mittelwerte (arithmetisch, geometrisch, harmonisch) empirischer Median empirische Quantile (Quartile, Dezentile,... ) Variabililitätsparameter (Streuparameter) empirische Varianz empirische Standardabweichung Spannweite empirischer (Inter-)Quartilsabstand IQR empirischer Variationskoeffizient empirische geometrische Standardabweichung Formparameter empirische Schiefe empirische Wölbung Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

3 (a) Arithmetischer Mittelwert Für reelle Beobachtungswerte x 1, x 2,..., x n Mittelwert definiert durch x = 1 n n x i = 1 n (x 1 + x x n ). i=1 ist der arithmetische In der Statistik wird er als Realisierung des Stichprobenmittelwerts (eine spezielle Stichproben- oder Schätzfunktion) X = 1 n n X i = 1 n (X 1 + X X n ) i=1 einer mathematischen Stichprobe (X 1, X 2,..., X n ) (unabhängige und identisch verteilte Zufallsgrößen) betrachtet. Unter geeigneten Voraussetzungen liefert er eine erwartungstreue und konsistente Schätzfunktion für den Erwartungswert der X i : ÊX = X. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

4 Unterschied zwischen konkreter und mathematischer Stichprobe Liegen n beobachtete Werte x 1,..., x n eines Merkmals X vor, so bilden diese eine konkrete Stichprobe vom Umfang n. Man betrachtet jeden beobachteten Wert x i als Realisierung einer Zufallsgröße X i, wobei die X i (i = 1,..., n) alle unabhängig und identisch verteilt (engl.: i.i.d.) mit F Xi = F X seien. Die Zufallsgröße X i beschreibt also das zufällige Ergebnis der i-ten Messung, des i-ten Zufallsexperiments oder der i-ten Auswahl eines Merkmalsträgers, je nachdem wie die konkrete Stichprobe zustande gekommen ist. Die Zufallsgrößen X 1,..., X n bilden die mathematische Stichprobe. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

5 Arithmetischer Mittelwert in R Der Befehl in R zur Berechnung des (arithmetischen) Mittelwertes ist mean(). > mean(lightspeeds) [1] Histogram of lightspeeds Ein Histogramm mit Mittelwertslinie kann dann z.b. so erzeugt werden: > hist(lightspeeds) > abline(v=mean(lightspeeds),col=2) Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

6 (b) Geometrischer Mittelwert Für nichtnegative reelle Beobachtungswerte (einer ratio-skala) x 1, x 2,..., x n ist der geometrische Mittelwert definiert durch x G = n n x i = (x 1 x 2... x n ) 1 n. i=1 Bemerkung: Es gilt immer x G x. Anwendung findet er zum Beispiel, wenn eine logarithmische Skala (Transformation) sinnvoll ist oder die Merkmalsausprägungen relative Änderungen sind, so bei der Mittelung von Wachstumsfaktoren. In R kann man die Exponentialfunktion zur Berechnung von geometrischen Mittelwerten nutzen: ( ) 1 n x G = exp ln(x i ). n i=1 Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

7 Beispiel zum geometrischen Mittelwert Beispiel: Zeitpunkt Zustandswert Merkmalswert=Wachstumsfaktor x 1 = 0.81 x 2 = x G = aber x = (obwohl insgesamt keine Änderung des Zustandswerts zum Ausgangszeitpunkt vorliegt). In R ergibt zum Beispiel: > x=c(81/100,100/81) > exp(mean(log(x))) [1] 1 > mean(x) [1] Bemerkung: log(x) berechnet in R den Vektor der natürlichen Logarithmen des Vektors x. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

8 (c) Harmonischer Mittelwert In manchen Situationen ist für nur positive (oder nur negative) Beobachtungswerte x 1, x 2,..., x n der harmonische Mittelwert x H = besser geeignet, so z.b. bei Mittelwertbildung von Verhältniszahlen (bei gleichem Zähler) wie Durchschittsgeschwindigkeiten (gleichlange Teilstrecken) oder Durchschnittspreisen (gleiche Geldbeträge). n n i=1 Gilt x i > 0 für alle i = 1,..., n, dann gilt immer 1 x i x H x G x. Im Fall von x 1 = x 2 =... = x n = x > 0 erhält man x H = x G = x = x. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

9 Beispiel zum harmonischen Mittelwert Beispiel: Konstante Geschwindigkeiten auf jeweiligen Teilstrecken Teil-/Gesamtstrecke Streckenlänge in km Zeit in h Geschwindigkeit in km/h x 1 = 50 x 2 = = 66.6 x H = = 66.66, aber x = 75 und x G = In R (ab dem Zeichen # beginnt ein Kommentar): > x=c(50,100) > 1/mean(1/x) # Harmonisches Mittel [1] > mean(x) # Arithmetisches Mittel [1] 75 > exp(mean(log(x))) # Geometrisches Mittel [1] Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

10 (d) Empirischer Median Der empirische Median oder Zentralwert der Beobachtungsreihe x 1, x 2,..., x n ist dadurch gekennzeichnet, dass jeweils 50 % der Beobachtungswerte einen Wert größer oder gleich bzw. kleiner oder gleich dem empirischen Median annehmen. Sind x (1) x (2)... x (n) die der Größe nach geordneten Beobachtungswerte, kann der (empirische) Median x bestimmt werden durch x = x ( n ), falls n ungerade, ( ) x ( n 2) + x ( n +1), falls n gerade. 2 Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

11 Beispiele zum empirischen Median Beobachtungswerte 4, 5, 1, 3, 6, 7, 8 n = 7, x = 5, x = Beobachtungswerte 4, 5, 1, 3, 6, 7 n = 6, x = 4.5, x = Beobachtungswerte 4, 5, 1, 3, 6, 7, 800 n = 7, x = 5, x = 118. Der Median ist weniger empfindlich gegenüber Ausreißern in der Beobachtungsreihe, d.h. Werte, die weit von den übrigen entfernt liegen, beeinflussen den Median nicht (oder kaum). Dies trifft auf den arithmetischen Mittelwert im Allgemeinen nicht zu. In R: > median(lightspeeds) [1] Der Median kann sogar für Daten auf einer nur ordinalen Skala genutzt werden (wenn z.b. die Addition, die zur Bildung des arithmetischen Mittelwerts notwendig ist, gar keinen Sinn macht). Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

12 Histogramm mit Mittelwert (rot) und Median (blau) > hist(lightspeeds) > abline(v=mean(lightspeeds),col=2) > abline(v=median(lightspeeds),col=4) Histogram of lightspeeds Frequency lightspeeds Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

13 (e) Empirische Quantile Ein Ordnen der Datenreihe x 1, x 2,..., x n der Größe nach ergibt die geordnete Datenreihe (geordnete Stichprobe, Variationsreihe) x min := x (1) x (2)... x (n 1) x (n) =: x max. Andere Bezeichnungen für die Variationsreihe sind x 1 x 2... x n oder x 1:n x 2:n... x n:n. Das empirisches p Quantil mit 0 < p < 1 ist ein Zahlenwert ˆx p (oder bezeichnet mit x p ) für den gilt, dass p 100% der Werte in der Variationsreihe kleiner oder gleich ˆx p und (1 p) 100% der Werte größer oder gleich ˆx p sind. x (k), falls np keine ganze Zahl ist, k ist ˆx p = dann die auf np folgende ganze Zahl; ( ) x(k) + x (k+1), falls np =: k eine ganze Zahl ist. 1 2 Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

14 Beispiel zu empirischen Quantilen 10 Beobachtungswerte: 1, 3, 7, 2, 20, 9, 15, 2, 11, 10. Variationsreihe: Quantil : p = 0.05, np = 0.5 k = 1, ˆx 0.05 = x (1) = Quantil : p = 0.10, np = 1 = k ˆx 0.05 = 1 2 (x (1) + x (2) ) = Quantil : p = 0.20, np = 2 = k ˆx 0.20 = 1 2 (x (2) + x (3) ) = Quantil : p = 0.25, np = 2.5 k = 3, ˆx 0.25 = x (3) = Quantil : p = 0.50, np = 5 = k ˆx 0.50 = 1 2 (x (5) + x (6) ) = 8 = x. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

15 Spezielle Quantile Das 0.5 Quantil ist der Median. Das 0.25 Quantil heißt auch unteres oder erstes Quartil (oder auch unterer Viertelwert). Das 0.75 Quantil heißt auch oberes oder drittes Quartil (oder auch oberer Viertelwert). Das n 10 Quantil mit n {1, 2, 3, 4, 5, 6, 7, 8, 9} heißt auch n tes Dezentil. Als 0 Quantil kann man das Minumum x min = x (1) Als 1 Quantil kann man das Maximum x max = x (n) ansehen. ansehen. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

16 Berechnung von Quantilen mit R Der Befehl quantile() erzeugt als Ausgabe eine Tabelle mit Werten für das Minimum, das Maximum, den Median und die Quartile. Damit die Quantile nach der oben angegebenen Formel berechnet werden, muss type=2 angegeben werden. Beispiel: > quantile(lightspeeds,type=2) 0% 25% 50% 75% 100% > quantile(lightspeeds) 0% 25% 50% 75% 100% Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

17 Berechnung von Quantilen mit R Sollen für bestimmte Niveaus p die zugehörigen Quantile berechnet werden, können diese dem Befehl mit übergeben werden. Beispiele: > quantile(lightspeeds,c(0.1,0.2,0.3)) 10% 20% 30% > quantile(lightspeeds,c(0.1,0.2,0.3),type=2) 10% 20% 30% > quantile(lightspeeds,seq(0.85,0.95,0.05)) 85% 90% 95% > quantile(lightspeeds,seq(0.85,0.95,0.05),type=2) 85% 90% 95% Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

18 (f) Empirische Varianz Für reelle Beobachtungswerte x 1, x 2,..., x n ist die empirische Varianz ( s 2 = 1 n n ) (x i x) 2 = 1 xi 2 nx 2. n 1 n 1 i=1 In der Statistik wird sie als Realisierung des Stichprobenvarianz S 2 = 1 n 1 i=1 n (X i X ) 2 einer mathematischen Stichprobe (X 1, X 2,..., X n ) betrachtet. Diese liefert unter geeigneten Voraussetzungen durch die Wahl des Nenners n 1 eine erwartungstreue und konsistente Schätzfunktion für die Varianz der Zufallsgrößen X i : VarX = S 2. i=1 Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

19 Exkurs zur Parameterschätzung Es wird eine Annahme über die den Beobachtungen zugrunde liegende Verteilung getroffen, z.b. X N(µ, σ 2 ) oder X B(p). Ein unbekanter Parameter ϑ der Verteilung soll aus den Daten geschätzt werden. Als Schätzfunktion verwendet man eine geeignete Funktion der mathematischen Stichprobe (Stichprobenfunktion) ϑ n = f (X 1,..., X n ). Wünschenschenswerte Eigenschaften einer Schätzfunktion sind: Erwartungstreue: E ϑn = ϑ (im Mittel trifft die Schätzung den wahren Parameter); Konsistenz: limn ϑn = ϑ (die Schätzung konvergiert gegen den wahren Parameterwert mit wachsendem Stichprobenumfang). Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

20 (g) Empirische Standardabweichung So wie die (theoretische) Standardabweichung einer Zufallsgröße als Quadratwurzel aus der Varianz definiert wird, ist die empirische Standardabweichung die Quadratwurzel aus der empirischen Varianz: s = s 2 = 1 n (x i x) n 1 2. Sowohl die empirische Varianz als auch die empirische Standardabweichung sind empfindlich gegenüber Ausreißern. Beide Maßzahlen können nur bei bestimmten Verteilungen, wie z.b. der Normalverteilung, gut interpretiert werden. Bei Merkmalswerten mit (physikalischen etc.) Maßeinheiten kommt bei der empirischen Varianz diese Maßeinheit im Quadrat vor, bei der empirischen Standardabweichung die Maßeinheit selber. i=1 Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

21 (h) Spannweite Die Spannweite (oder Variationsbreite) ist die Differenz der extremalen Werte, = x max x min = x (n) x (1). Sie gibt folglich die Länge des kleinsten Intervalls an, in das alle Beobachtungswerte fallen. Die Spannweite ist empfindlich gegenüber Ausreißern, da sie nur von den extremen Werten abhängt. Berechnung der bisher behandelten drei Streumaße in R: > var(lightspeeds) # empirische Varianz [1] > sd(lightspeeds) # empirische Standardabweichung [1] > max(lightspeeds)-min(lightspeeds) # Spannweite [1] 450 Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

22 (i) Empirischer Interquartilsabstand Der empirische Interquartilsabstand ist die Differenz des oberen und des unteren Quartils, IQR(x) = ˆx 0.75 ˆx Da die sehr großen und sehr kleinen Beobachtungswerte bei der Berechnung des Interquartilsabstands keine Rolle spielen, ist er relativ unempfindlich gegenüber Ausreißern. In dem Intervall der Länge des Interquartilabstandes vom unteren zum oberen Quartil liegt die Hälfte der Beobachtungswerte. Beispielberechnung in R: > IQR(lightspeeds) [1] 85 > IQR(lightspeeds,type=2) [1] 90 Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

23 (j) Empirischer Variationskoeffizient Für Merkmalswerte in der Verhältnisskala können Streumaße durch Quotientenbildung in Bezug zu Lagemaßen gebracht werden. Dadurch entstehen einheitenlose Maßzahlen, die z.b. zum Vergleich unterschiedlicher Daten genutzt werden können. Der empirische Variationskoeffizient ist definiert durch v(x) = s x, er ist eine Schätzung für den theoretischen Variationskoeffizienten. Beispielberechnung in R: > sd(lightspeeds)/mean(lightspeeds) [1] Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

24 (k) Geometrische Standardabweichung Die (theoretische) geometrische Standardabweichung einer positiven Zufallsgröße X ist definiert durch ( ) exp Var (ln(x )), den entsprechenden empirischen Wert für eine Datenreihe dazu erhält man, in dem man die Standardabweichung durch die empirische Standardabweichung ersetzt. Beispielberechnung in R: > exp(sd(log(lightspeeds))) [1] Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

25 (l) Schiefe (engl. skewness ) als Formparameter Oft spielt auch die Form z.b. der Verteilungsdichte bei Untersuchungen oder bei der Modellierung eine Rolle. E(X EX )3 Die Schiefe der Zufallsvariablen X wird definiert als (VarX ) 3/2. Die empirische Schiefe für eine konkrete Stichprobe x 1,..., x n 1 n ( ) xi x 3. n s i=1 Rechtsschief (oder linkssteil) ist eine Verteilung, wenn die Dichte nach rechts hin langsamer ausläuft, dann ist der Schiefeparameter positiv. Analog ist der Schiefeparameter bei linksschiefen (bzw. rechtssteilen) Verteilungen negativ. Eine Rolle spielt häufig auch, ob eine Dichtefunktion (oder Häufigkeitsverteilung) ein ausgeprägtes Maximum ( eingipflige Verteilung ), oder mehrere derartige Maxima ( mehrgipflige Verteilung ) besitzt oder keine dieser Situationen vorliegt. ist Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

26 (m) Wölbung und Exzess als Formparameter Die Wölbung oder Kurtosis ist eine Maßzahl für die Steilheit oder Spitzigkeit einer eingipfligen Dichtefunktion. Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen. E(X EX )4 Die Wölbung der Zufallsgröße X ist (VarX ) 2, die empirische Wölbung 1 n ( ) xi x 4. n s i=1 E(X EX )4 Der Exzess (auch: Überkurtosis) ist definiert als (VarX ) 2 3, so erfolgt ein Vergleich mit der Wölbung einer Normalverteilung. Eingipflige Verteilungen mit einem positiven Exzess haben im Vergleich zur Normalverteilung spitzere Verteilungen ( steilgipflig im Gegensatz zu normalgipflig bzw. flachgipflig ). Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

27 Grafik einer zweigipfligen Verteilung Mehrgipflige Verteilungen ergeben sich zum Beispiel oft durch Mischungen mehrerer eingipfliger Verteilungen. Im Beispiel wurde eine Normalverteilung mit Erwartungswert -5 und Varianz 1 (Dichte f 1 ) mit einer solchen mit Erwartungswert 5 (Dichte f 2 ) gemischt, die Dichte der gemischten Zufallsgröße ist hier f = 0.5f f 2. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

28 Grafiken zur Schiefe und zum Exzess links: Dichte ein lognormalverteilten Zufallsgröße exp(x ) mit X N(0, ) : rechtsschiefe Verteilung mit Schiefe 1.75 ; rechts: Dichte einer Normalverteilung und einer t Verteilung mit 5 Freiheitsgraden, Erwartungswerte 0 ; Varianzen 5 3, Exzess Normalverteilung: 0, t Verteilung : 6. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

29 Weitere Grafiken für univariate stetige Daten (a) Box-Plots Ein Box-Plot (Box-Whisker-Plot, Kasten-Diagramm) ist eine aussagekräftige grafische Darstellung der Fünfer-Charakteristik, bestehend aus dem Median x = ˆx 0.5, den empirischen Quartilen (Viertelwerten) ˆx 0.25 und ˆx 0.75 und den Ausreißergrenzen A u, A o. Die Ausreißergrenzen werden dabei definiert durch A u = ˆx IQR(x) und A o = ˆx IQR(x). Dies betrifft die sogenannten inneren Zäune ; ( inner fences ) für manche Fragen verwendet man auch die sogenannten äußere Zäune ( outer fences ), definiert durch ±3 IQR(x). Die Grenzen für die Box ( hinges, Tukeys Scharniere (Türangel)) werden durch das untere und das obere Quartil bestimmt. Eine gerade Linie kennzeichnet innerhalb der Box den Median. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

30 Fortsetzung Box-Plots Die untere Begrenzungslinie wird dabei nicht durch die untere Ausreißergrenze definiert, sondern durch den kleinsten Beobachtungswert, der A u ist. Analog wird die obere Begrenzungslinie definiert durch den größten Beobachtungswert, der A o ist. Diese Grenzen heißen auch Whisker-Grenzen ( whisker : Schnurrhaare der Katze). Ausreißer (d.h. Datenwerte außerhalb der Ausreißergrenzen) werden extra durch Punkte angegeben. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

31 Erzeugung von Box-Plots in R Beispielhaft in R: > boxplot(lightspeeds) erzeugt ein vertikales Box-Plot vom Datensatz lightspeeds, ein horizontales Box-Plot wird erzeugt durch > boxplot(lightspeeds,horizontal=true) Die Kenngrößen in diesem Datensatz waren: Median x = ˆx 0.5 = ; unteres Quartil ˆx 0.25 = ; oberes Quartil ˆx 0.75 = ; Quartilsabstand IQR(x) = 90 ; untere Ausreißergrenze obere Ausreißergrenze A u = ˆx IQR(x) = ; A o = ˆx IQR(x) = Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

32 Vertikales Box-Plot für Beispiel Lichtgeschwindigkeiten > boxplot(lightspeeds,main="box-plot Lichtgeschwindigkeiten") Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

33 Horizontales Box-Plot für Beispiel Lichtgeschwindigkeiten > boxplot(lightspeeds,horizontal=t, main="box-plot Lichtgeschwindigkeiten") Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

34 Horizontales Box-Plot mit Punktdiagramm für Beispiel > boxplot(lightspeeds,horizontal=t, main="box-plot Lichtgeschwindigkeiten") > stripchart(lightspeeds,method="stack",col=2,add=true) Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

35 Daten für Box-Plots in R Die Zahlenwerte für das Box-Whisker-Plot, aus denen sich die grafische Darstellung ergibt, können durch den Funktionsaufruf boxplot()$stats abgefragt werden. Im Beispiel: > boxplot(lightspeeds)$stats [,1] [1,] [2,] [3,] [4,] [5,] Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

36 Gekerbte Box-Whisker-Plots Als zusätzliche Information werden manchmal zusätzlich Kerben ( notches ) zur Kennzeichnung eines 95%-Konfidenzintervalles für den Median (unter Normalverteilungsannahme berechnet) mit eingezeichnet. Ein 95%-Konfidenzintervall für den Median ist dabei ein zufälliges Intervall, welches unter der bestimmten Verteilungsannahme den tatsächlichen oder wahren Median mit einer Wahrscheinlichkeit von 0.95 überdeckt. Für vorliegende Beobachtungswerte kann dann ein konkretes Intervall berechnet werden. In R kann ein solches gekerbtes Box-Plot durch den zusätzlichen Parameter notch=true im Befehl boxplot() erzeugt werden. Die Zahlenwerte dazu können mit boxplot()$conf abgefragt werden. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

37 Gekerbtes Box-Plot für Beispiel Lichtgeschwindigkeiten > boxplot(lightspeeds,main="gekerbtes Box-Plot Lichtgeschwindigkeiten", + notch=t) > boxplot(lightspeeds)$conf [,1] [1,] [2,] gekerbtes Box Plot Lichtgeschwindigkeiten Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

38 Weitere Bemerkungen zu Box-Plots Mit Box-Plots können Informationen gewonnen werden über die Lage der Daten (durch den Median); die Streuung der Daten (durch den Interquartilsabstand); besondere Werte (durch die extra Angabe der Ausreißer); den Bereich der Datenwerte (durch die Zäune und die extra Angabe der Ausreißer); ggf. die Symmetrie (Symmetrie in der Box und den Zäunen). Die folgenden Details können zum Beispiel im Allgemeinen nicht aus einem Box-Plot abgelesen werden: die Anzahl der Beobachtungen; Bindungen oder Werthäufungen; Mittelwert und empirische Varianz; die allgemeine Verteilungsform. Bei einer kleinen Anzahl von Beobachtungswerten sind Box-Plots nicht sehr aussagekräftig. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

39 (b) Q-Q-Plots Ein Q-Q-Plot oder (empirisches) Quantil-Quantil-Diagramm dient z.b. zum Vergleich der Beobachtungswerte x 1,..., x n mit einer theoretischen Verteilung. Dazu werden in ein kartesisches Koordinatensystem in der Ebene Punkte mit theoretischen Quantilen x p als Abszissenkoordinaten (x-werte) und empirischen Quantilen ˆx p (oder den Werten der geordneten Stichprobe) als Ordinatenkoordinaten (y-werte) für bestimmte Niveaus p eingezeichnet. Beispielniveaus: p i = i n+1 oder p i = i 0.5 n, i = 1,..., n. Sind die Beobachtungswerte x 1,..., x n Realisierungen von unabhängigen Zufallsgrößen mit der gewählten theoretischen Verteilung, dann liegen die Punkte etwa auf einer Geraden mit Anstieg 1 durch den Koordinatenursprung. Starke Abweichungen von der Geraden signalisieren ein Nichtzutreffen der Verteilung. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

40 Erstes Beispiel Q-Q-Plot: Gleichverteilung U[0,1] > xu=c(seq(0.1,0.9,by=0.1)) > xu [1] > qqplot(qunif(ppoints(9),min=0,max=1),xu, xlab="theoret. Quantile U[0,1]", + main="q-q-plot xu gegen U[0,1]") Q Q Plot xu gegen U[0,1] xu Theoret. Quantile U[0,1] Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

41 Q-Q-Plot Lichtgeschwindigkeiten gegen Normalverteilung mit geschätzten Parametern > qqplot(qnorm(ppoints(100),mean=mean(lightspeeds), sd=sd(lightspeeds)), + lightspeeds,xlab="theoret. Quantile", + main="q-q-plot Lichtgeschw. gegen Normalvert.") > curve(1*x,299600,301000,col=2,add=true) Q Q Plot Lichtgeschw. gegen Normalvert. lightspeeds Theoret. Quantile Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

42 Q-Q-Plots gegen Normalverteilung Bei manchen Verteilungen müssen für Q-Q-Plots nicht alle Parameter der angenommenen theoretischen Verteilung schon aus den Daten bestimmt werden, sondern es reicht aus, die Daten mit einer Verteilung vom gegebenen Typ zu vergleichen. Dies ist zum Beispiel für die Normalverteilung richtig, hier kann man die empirischen Quantile der Beobachtungswerte z.b. mit den theoretischen Quantilen der Standardnormalverteilung vergleichen. Folgen die Beobachtungswerte einer beliebigen Normalverteilung, liegen die Punkte etwa auf einer Geraden (nicht unbedingt mit Anstieg 1 und durch den Koordinatenursprung). Dies folgt aus der Beziehung z p = x p µ zwischen den Quantilen σ x p für X N(µ, σ 2 ) und z p für Z N(0, 1). Diese Eigenschaft kann allerdings nicht für jeden Verteilungstyp genutzt werden, z.b. nicht für die Lognormalverteilung. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

43 Q-Q-Plot Lichtgeschw. gegen Normalverteilung N(0, 1) > qqnorm(lightspeeds, main="q-q-plot Lichtgeschwindigkeiten gegen N(0,1)") Q Q Plot Lichtgeschwindigkeiten gegen N(0,1) Theoretical Quantiles Sample Quantiles Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

44 Q-Q-Plot Lichtgeschw. gegen Lognormalverteilung Vergleich mit theoretischer Verteilung von exp(x ) mit X N(0, 1). > qqplot(qlnorm(ppoints(100),meanlog=0,sdlog=1), + lightspeeds,xlab="theoret. Quantile", + main="q-q-plot Lichtgeschw. gegen Lognormalvert.") Q Q Plot Lichtgeschw. gegen Lognormalvert. lightspeeds Theoret. Quantile Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

45 Q-Q-Plot Lichtgeschw. gegen Exponentialverteilung mit geschätztem Erwartungswert > qqplot(qexp(ppoints(100),rate=1/mean(lightspeeds)), + lightspeeds,xlab="theoret. Quantile", + main="q-q-plot Lichtgeschw. gegen Exponentialvert.") Q Q Plot Lichtgeschw. gegen Exponentialvert. lightspeeds Theoret. Quantile Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

46 Bemerkungen zu Q-Q-Plots Ist der Anstieg der Kurve im Q-Q-Plot an einem oder beiden Enden wesentlich steiler als im Mittelteil, deutet dies auf eine extremere Verteilung der Extremwerte hin, als dies nach der angenommenen Verteilung erwartet wird. Dann könnten z.b. Verteilungen mit schweren Enden geeignet sein (bei denen eine Annäherung der Funktionswerte der Verteilungsfunktion an 0 bzw. 1 eher durch eine Potenz- statt eine Exponentialfunktion beschrieben wird). Ist jedoch der Anstieg der Kurve im Q-Q-Plot an einem oder beiden Enden wesentlich flacher als im Mittelteil, ist eher eine Verteilung mit einer schnelleren Konvergenz der Funktionswerte der Verteilungsfunktion an 0 bzw. 1 als bei der angenommenen Verteilung oder eine Verteilung mit begrenztem Wertebereich geeignet. Ausreißer sind ggf. durch einzelne, weit von der Kurve entfernte Punkte an den Rändern sichtbar. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

47 Beispiel > x=rnorm(1000) > qqnorm(sign(x)*x^4,main="normal Q-Q Plot mit steilem + Ende",ylab="sign(X)*X^4") Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

48 Beispiel > x=rnorm(1000) > qqnorm(sign(x)*sqrt(abs(x)),main="normal Q-Q Plot mit flachen + Enden",ylab="sign(X)*sqrt(abs(X))") Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

49 Weitere Bemerkungen zu Q-Q-Plots Klare Bogenformen weisen bei einer symmetrischen theoretischen Verteilung auf eine schiefe Verteilung hin. Liegen mehrere aufeinanderfolgende Punkte auf einer waagerechten Linie zusammen, entsprechen diese übereinstimmenden Beobachtungswerten. Das Mehrfachauftreten übereinstimmender Beobachtungswerte wird auch als Bindung bezeichnet. Sie können zum Beispiel hindeuten auf gerundete Beobachtungswerte; eine ungenaue Datenerhebung; das Ersetzen von fehlenden Werten durch Standardwerte; spezielle Werte mit positiver Wahrscheinlichkeit, wenn also nicht wirklich eine stetige Verteilung vorliegt. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

50 (c) Empirische Verteilungsfunktion Die empirische Verteilungsfunktion ˆF (x) ist eine Schätzung der theoretischen Verteilungsfunktion F X (x) = P(X < x) (bzw. F X (x) = P(X x)) aus den Beobachtungswerten x 1,..., x n. Es gilt ˆF (x) = Anzahl der i mit x i < x (bzw. x), x R. n Eine empirische Verteilungsfunktion ist eine stückweise konstante Funktion mit Sprüngen und den anderen Eigenschaften einer Verteilungsfunktion. Bindungen erzeugen höhere Sprünge. Man kann Quantile aus der empirischen Verteilungsfunktion ablesen. Die empirischen Verteilungsfunktionen konvergieren für n unter üblichen Bedingungen gegen die Verteilungsfunktion F X (x) ( Hauptsatz der mathematischen Statistik, Satz von Gliwenko ). Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

51 Empirische Verteilungsfunktion Lichtgeschwindigkeiten > plot(ecdf(lightspeeds),main="empir. Verteilungsfkt. Lichtgeschw.") Empir. Verteilungsfkt. Lichtgeschw. Fn(x) x Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar

52 Empirische Verteilungsfunktion Lichtgeschwindigkeiten und Normalverteilung (mit geschätzten Parametern) > plot(ecdf(lightspeeds),main="empir. Verteilungsfkt. Lichtgeschw.") > curve(pnorm(x,mean=mean(lightspeeds), sd=sd(lightspeeds)),add=true,col=2) Empir. Verteilungsfkt. Lichtgeschw. Fn(x) x Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 9 Geändert: 9. Januar